Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Boolesches Retrieval
Stichwörter dieser Seite Textdokumente, Attribut, Term, elementare Anfrage, Attribut-Wert-Paar, Attribut, Potenzmenge, invertierte Liste
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.3.1.2: Boolesches Retrieval für Textdokumente

Sind die Objekte der Sammlung Textdokumente, z.B. in einer Literaturdatenbank, so sind die wichtigsten Attribute das Auftreten von Wörtern (hier auch Terme genannt) in einem Dokument. Terme müssen dafür in geeigneter Weise definiert werden - im einfachsten Fall als zusammenhängende Zeichenketten aus Buchstaben und bestimmten Sonderzeichen, die durch Leerzeichen, Interpunktionszeichen und andere Sonderzeichen begrenzt sind. Attribute können aber auch komplexer definiert werden: Die Dokumente in Literaturdatenbanken sind z.B. in verschiedene Felder eingeteilt, die unterschiedliches Wissen enthalten (wie in Abbildung 1 gezeigt). Hier kann ein Attribut auch das Auftreten eines Terms in einem bestimmten Feld bezeichnen.

In der Praxis ist eine Anfrage eine Verknüpfung von elementaren Anfragen, die aus einem Feldbezeichner und einem Term bestehen, durch die Operatoren AND, OR und NOT. Fehlt der Feldbezeichner, wird als Voreinstellung in der Regel das ganze Dokument - also die Vereinigung aller Felder - angenommen. Nach der obigen Definition steht ein Term für die Menge der Dokumente, die den Term im entsprechenden Feld enthalten. Sind in einer Anfrage zwei Terme t1 und t2 mit AND verknüpft, so werden alle Dokumente angezeigt, die beide Terme enthalten. Sind sie mit einem OR verknüpft, werden die Dokumente angezeigt, die den einen oder den anderen Term (oder beide) enthalten. Lautet die Anfrage t1 AND NOT t2 werden die Dokumente ausgewählt, die zwar den Term t1 , nicht aber den Term t2 enthalten.

In verschiedenen Retrieval-Systemen werden die Paare aus Feldbezeichner und Term auf verschiedene Weise abgefragt. So gibt es die Form "Feldbezeichner = Term", also beispielsweise AUTHOR = Salton oder "Term in Feldbezeichner" (Salton in AUTHOR).

Die Anfragen können mit den Operatoren und durch geeignete Klammerung beliebig kompliziert geschachtelt werden. Dadurch lassen sich komplexe Anfragen formulieren. Es wird aber auch immer schwieriger, solche Anfragen zu verstehen und fehlerfrei einzugeben. Dabei können syntaktische Fehler - wie fehlende schließende Klammern - bei der Auflösung der Anfrage vom System erkannt und den Nutzenden angezeigt werden. Semantische "Fehler", die also z.B. zu (in der Praxis) sich gegenseitig ausschließenden Bedingungen und damit zu leeren Ergebnismengen führen, können aber nur schwer abgefangen werden.

Um die Formulierung der Anfragen zu erleichtern, werden deshalb häufig elektronische Eingabeformulare verwendet, die für die unterschiedliche Textfelder verschiedene Eingabefelder für Suchterme vorsehen. Das führt aber dazu, dass es in der Regel nicht mehr möglich ist, diese elementaren Anfragen in komplexere Verknüpfungen einzubeziehen, zumindest wenn verschiedene Felder beteiligt sind.

Modellierung mit Attributen

Es liegt nahe, bei der formalen Modellierung nach der Definition des booleschen Retrieval in Abschnitt 1.3.1.1 die Paare aus Feldbezeichner und Term direkt als die Attribut-Wert-Paare zu übernehmen. Für das Titelfeld könnte man z.B. das Attribut xTI:D->P(V) als die Menge der Terme definieren, die im Titelfeld des Dokuments vorkommen. Dabei bezeichnet V die Menge der möglichen Terme und P(V) die Potenzmenge (Menge der Teilmengen) von V . Dann ist xTI eine mengenwertige Funktion und die Umkehrfunktion liefert die Dokumente, die genau die Terme einer angegebenen Teilmenge im Titel enthalten.

Um die Menge der Dokumente zu bestimmen, bei denen der Term t1 auch mit anderen Termen zusammen im Titel vorkommt, müsste man die Dokumentenmengen aller Teilmengen des Vokabulars, die t1 enthalten, vereinigen:
{dMathematisches Zeichen: Element vonD | d enthaelt  t1 im Titelfeld} =
Mathematisches Zeichen: grosses Vereinigungszeichen
{RMathematisches Zeichen: TeilmengeV |  t1Mathematisches Zeichen: Element vonR}
x-1 TI ({R})
Diese Formulierung ist aber ziemlich kompliziert und stimmt auch nicht mehr genau mit der Definition des booleschen Retrieval überein.

Das Problem lässt sich lösen, indem für jeden Term t1 ein Attribut Tt1:D->{false,  true} definiert wird, das feststellt, ob der Term t1 in einem bestimmten Feld der Dokumente auftritt. Ist TIt1 ein solches Attribut für das Titelfeld, gehört zum Paar aus dem Feldbezeichner Titel und dem Term t1 die elementare Anfrage (TIt1,true) . Die zugehörige elementare Ergebnismenge
DTIt1,true=TI-1 t1({true} )={dMathematisches Zeichen: Element vonD | d  enthält t1 im  Titelfeld}
enthält diejenigen Dokumente, bei denen der Term t1 im Titel vorkommt. Um den Vergleichsmechanismus des Schemas aus Abbildung 11 formal zu konstruieren, kann man die Attribute in geeigneter Weise zusammenfassen. Im ersten Fall ergäbe sich eine Dimension für jedes Feld, im zweiten eine für jedes Feldbezeichner-Term-Paar.

Da alle beteiligten Mengen endlich sind, können die Attribute als Listen gespeichert werden. Entsprechend können auch die Umkehrabbildungen als so genannte invertierte Listen gespeichert werden. Das ist der Weg, der häufig bei der Implementierung von booleschen Systemen benutzt wird.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Boolesches Retrieval
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.3.1.2Boolesches Retrieval für Textdokumente
Textdokumente, Attribut, Term, elementare Anfrage, Attribut-Wert-Paar, Attribut, Potenzmenge, invertierte Liste Attribut, Attribut, Attribut-Wert-Paar, elementare Anfrage, invertierte Liste, Potenzmenge, Term, Textdokumente

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.