Boolesches Retrieval für Textdokumente [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Boolesches Retrieval
Stichwörter dieser Seite	Textdokumente, Attribut, Term, elementare Anfrage, Attribut-Wert-Paar, Attribut, Potenzmenge, invertierte Liste
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

1.3.1.2: Boolesches Retrieval für Textdokumente

Sind die Objekte der Sammlung Textdokumente, z.B. in einer Literaturdatenbank, so sind die wichtigsten Attribute das Auftreten von Wörtern (hier auch Terme genannt) in einem Dokument. Terme müssen dafür in geeigneter Weise definiert werden - im einfachsten Fall als zusammenhängende Zeichenketten aus Buchstaben und bestimmten Sonderzeichen, die durch Leerzeichen, Interpunktionszeichen und andere Sonderzeichen begrenzt sind. Attribute können aber auch komplexer definiert werden: Die Dokumente in Literaturdatenbanken sind z.B. in verschiedene Felder eingeteilt, die unterschiedliches Wissen enthalten (wie in Abbildung 1 gezeigt). Hier kann ein Attribut auch das Auftreten eines Terms in einem bestimmten Feld bezeichnen.

In der Praxis ist eine Anfrage eine Verknüpfung von elementaren Anfragen, die aus einem Feldbezeichner und einem Term bestehen, durch die Operatoren AND, OR und NOT. Fehlt der Feldbezeichner, wird als Voreinstellung in der Regel das ganze Dokument - also die Vereinigung aller Felder - angenommen. Nach der obigen Definition steht ein Term für die Menge der Dokumente, die den Term im entsprechenden Feld enthalten. Sind in einer Anfrage zwei Terme t₁ und t₂ mit AND verknüpft, so werden alle Dokumente angezeigt, die beide Terme enthalten. Sind sie mit einem OR verknüpft, werden die Dokumente angezeigt, die den einen oder den anderen Term (oder beide) enthalten. Lautet die Anfrage t₁ AND NOT t₂ werden die Dokumente ausgewählt, die zwar den Term t₁ , nicht aber den Term t₂ enthalten.

In verschiedenen Retrieval-Systemen werden die Paare aus Feldbezeichner und Term auf verschiedene Weise abgefragt. So gibt es die Form "Feldbezeichner = Term", also beispielsweise AUTHOR = Salton oder "Term in Feldbezeichner" (Salton in AUTHOR).

Die Anfragen können mit den Operatoren und durch geeignete Klammerung beliebig kompliziert geschachtelt werden. Dadurch lassen sich komplexe Anfragen formulieren. Es wird aber auch immer schwieriger, solche Anfragen zu verstehen und fehlerfrei einzugeben. Dabei können syntaktische Fehler - wie fehlende schließende Klammern - bei der Auflösung der Anfrage vom System erkannt und den Nutzenden angezeigt werden. Semantische "Fehler", die also z.B. zu (in der Praxis) sich gegenseitig ausschließenden Bedingungen und damit zu leeren Ergebnismengen führen, können aber nur schwer abgefangen werden.

Um die Formulierung der Anfragen zu erleichtern, werden deshalb häufig elektronische Eingabeformulare verwendet, die für die unterschiedliche Textfelder verschiedene Eingabefelder für Suchterme vorsehen. Das führt aber dazu, dass es in der Regel nicht mehr möglich ist, diese elementaren Anfragen in komplexere Verknüpfungen einzubeziehen, zumindest wenn verschiedene Felder beteiligt sind.

Modellierung mit Attributen

Es liegt nahe, bei der formalen Modellierung nach der Definition des booleschen Retrieval in Abschnitt 1.3.1.1 die Paare aus Feldbezeichner und Term direkt als die Attribut-Wert-Paare zu übernehmen. Für das Titelfeld könnte man z.B. das Attribut x_TI:D->P(V) als die Menge der Terme definieren, die im Titelfeld des Dokuments vorkommen. Dabei bezeichnet V die Menge der möglichen Terme und P(V) die Potenzmenge (Menge der Teilmengen) von V . Dann ist x_TI eine mengenwertige Funktion und die Umkehrfunktion liefert die Dokumente, die genau die Terme einer angegebenen Teilmenge im Titel enthalten.

Um die Menge der Dokumente zu bestimmen, bei denen der Term t₁ auch mit anderen Termen zusammen im Titel vorkommt, müsste man die Dokumentenmengen aller Teilmengen des Vokabulars, die t₁ enthalten, vereinigen:

{dD | d enthaelt t₁ im Titelfeld} =

{RV | t₁R}

x^-1_TI ({R})

Diese Formulierung ist aber ziemlich kompliziert und stimmt auch nicht mehr genau mit der Definition des booleschen Retrieval überein.

Das Problem lässt sich lösen, indem für jeden Term t₁ ein Attribut T_t₁:D->{false, true} definiert wird, das feststellt, ob der Term t₁ in einem bestimmten Feld der Dokumente auftritt. Ist TI_t₁ ein solches Attribut für das Titelfeld, gehört zum Paar aus dem Feldbezeichner Titel und dem Term t₁ die elementare Anfrage (TI_t₁,true) . Die zugehörige elementare Ergebnismenge
D_{TI_t₁,true}=TI^-1_t₁({true} )={dD | d enthält t₁ im Titelfeld}
enthält diejenigen Dokumente, bei denen der Term t₁ im Titel vorkommt. Um den Vergleichsmechanismus des Schemas aus Abbildung 11 formal zu konstruieren, kann man die Attribute in geeigneter Weise zusammenfassen. Im ersten Fall ergäbe sich eine Dimension für jedes Feld, im zweiten eine für jedes Feldbezeichner-Term-Paar.

Da alle beteiligten Mengen endlich sind, können die Attribute als Listen gespeichert werden. Entsprechend können auch die Umkehrabbildungen als so genannte invertierte Listen gespeichert werden. Das ist der Weg, der häufig bei der Implementierung von booleschen Systemen benutzt wird.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Boolesches Retrieval

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

1.3.1.2

Boolesches Retrieval für Textdokumente

Textdokumente, Attribut, Term, elementare Anfrage, Attribut-Wert-Paar, Attribut, Potenzmenge, invertierte Liste

Attribut, Attribut, Attribut-Wert-Paar, elementare Anfrage, invertierte Liste, Potenzmenge, Term, Textdokumente

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.