| ||||||||||||
1.3.1.2: Boolesches Retrieval für TextdokumenteSind die Objekte der Sammlung Textdokumente, z.B. in einer Literaturdatenbank, so sind die wichtigsten Attribute das Auftreten von Wörtern (hier auch Terme genannt) in einem Dokument. Terme müssen dafür in geeigneter Weise definiert werden - im einfachsten Fall als zusammenhängende Zeichenketten aus Buchstaben und bestimmten Sonderzeichen, die durch Leerzeichen, Interpunktionszeichen und andere Sonderzeichen begrenzt sind. Attribute können aber auch komplexer definiert werden: Die Dokumente in Literaturdatenbanken sind z.B. in verschiedene Felder eingeteilt, die unterschiedliches Wissen enthalten (wie in Abbildung 1 gezeigt). Hier kann ein Attribut auch das Auftreten eines Terms in einem bestimmten Feld bezeichnen. In der Praxis ist eine Anfrage eine Verknüpfung von elementaren Anfragen, die aus einem Feldbezeichner und einem Term bestehen, durch die Operatoren AND, OR und NOT. Fehlt der Feldbezeichner, wird als Voreinstellung in der Regel das ganze Dokument - also die Vereinigung aller Felder - angenommen. Nach der obigen Definition steht ein Term für die Menge der Dokumente, die den Term im entsprechenden Feld enthalten. Sind in einer Anfrage zwei Terme t1 und t2 mit AND verknüpft, so werden alle Dokumente angezeigt, die beide Terme enthalten. Sind sie mit einem OR verknüpft, werden die Dokumente angezeigt, die den einen oder den anderen Term (oder beide) enthalten. Lautet die Anfrage t1 AND NOT t2 werden die Dokumente ausgewählt, die zwar den Term t1 , nicht aber den Term t2 enthalten. In verschiedenen Retrieval-Systemen werden die Paare aus Feldbezeichner und Term auf verschiedene Weise abgefragt. So gibt es die Form "Feldbezeichner = Term", also beispielsweise AUTHOR = Salton oder "Term in Feldbezeichner" (Salton in AUTHOR). Die Anfragen können mit den Operatoren und durch geeignete Klammerung beliebig kompliziert geschachtelt werden. Dadurch lassen sich komplexe Anfragen formulieren. Es wird aber auch immer schwieriger, solche Anfragen zu verstehen und fehlerfrei einzugeben. Dabei können syntaktische Fehler - wie fehlende schließende Klammern - bei der Auflösung der Anfrage vom System erkannt und den Nutzenden angezeigt werden. Semantische "Fehler", die also z.B. zu (in der Praxis) sich gegenseitig ausschließenden Bedingungen und damit zu leeren Ergebnismengen führen, können aber nur schwer abgefangen werden. Um die Formulierung der Anfragen zu erleichtern, werden deshalb häufig elektronische Eingabeformulare verwendet, die für die unterschiedliche Textfelder verschiedene Eingabefelder für Suchterme vorsehen. Das führt aber dazu, dass es in der Regel nicht mehr möglich ist, diese elementaren Anfragen in komplexere Verknüpfungen einzubeziehen, zumindest wenn verschiedene Felder beteiligt sind. Modellierung mit AttributenEs liegt nahe, bei der formalen Modellierung nach der Definition des booleschen Retrieval in Abschnitt 1.3.1.1 die Paare aus Feldbezeichner und Term direkt als die Attribut-Wert-Paare zu übernehmen. Für das Titelfeld könnte man z.B. das Attribut xTI:D->P(V) als die Menge der Terme definieren, die im Titelfeld des Dokuments vorkommen. Dabei bezeichnet V die Menge der möglichen Terme und P(V) die Potenzmenge (Menge der Teilmengen) von V . Dann ist xTI eine mengenwertige Funktion und die Umkehrfunktion liefert die Dokumente, die genau die Terme einer angegebenen Teilmenge im Titel enthalten. Um die Menge der Dokumente zu bestimmen, bei denen der Term t1 auch mit anderen Termen zusammen im Titel vorkommt, müsste man die Dokumentenmengen aller Teilmengen des Vokabulars, die t1 enthalten, vereinigen:
Das Problem lässt sich lösen, indem für jeden Term t1 ein Attribut Tt1:D->{false, true} definiert wird, das feststellt, ob der Term t1 in einem bestimmten Feld der Dokumente auftritt. Ist TIt1 ein solches Attribut für das Titelfeld, gehört zum Paar aus dem Feldbezeichner Titel und dem Term t1 die elementare Anfrage (TIt1,true) . Die zugehörige elementare Ergebnismenge
Da alle beteiligten Mengen endlich sind, können die Attribute als Listen gespeichert werden. Entsprechend können auch die Umkehrabbildungen als so genannte invertierte Listen gespeichert werden. Das ist der Weg, der häufig bei der Implementierung von booleschen Systemen benutzt wird. | ||||||||||||
| ||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.