Logikbasierte Modelle des Information Retrieval [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze
Stichwörter dieser Seite	Thesaurus, Synonymmenge, Information Retrieval, Regel, Konsistenz
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

3.3: Logikbasierte Modelle des Information Retrieval

Die meisten bisher besprochenen Retrieval-Verfahren stützen sich auf das gleichzeitige Auftreten von Termen in einer Anfrage und in einem Dokument. Dabei bleibt es weitgehend den Anfragenden und ihrer Kenntnis über das Gebiet, aus dem die Anfrage stammt, überlassen, welche Terme sie verwenden.

Ansätze, die die Wahl der Terme auf ein vorgegebenes Vokabular einschränken, sind in Abschnitt 1.3.4 über Thesauren beschrieben worden. Ein Thesaurus gibt zum einen ein Vokabular vor und soll damit die Suche über die Synonymrelation davon unabhängig machen, welcher Term aus der Synonymmenge verwendet wird. Zum anderen gibt er durch die Beziehungen zwischen den Termen des Vokabulars z.B. an, dass ein Term ein Oberbegriff eines anderen Terms ist.

Die Konzepthierarchien, die in Kapitel 2.5 für KDD-Verfahren mit externem Wissen eingeführt wurden, bilden einen Teil der Beziehungen ab, die in einem Thesaurus dargestellt werden können. Sie waren als eine Methode, externes Wissen in einem KDD-System zu nutzen, verwendet worden. Entsprechend können Thesauren für IR-Systeme verwendet werden, um Anfragen zu verallgemeinern, indem man zu Oberbegriffen übergeht oder - wenn nicht in den Feldern, die nur Deskriptoren des Thesaurus enthalten, gesucht werden soll - Synonyme hinzufügt.

Abbildung 75: Modellieren von Wissen durch Regeln

Als Verallgemeinerung dieses Ansatzes waren in Abschnitt 1.3.5 semantische Netze genannt worden. Mit ihnen sollten Sachverhalte unabhängig von einer bestimmten sprachlichen Ausdrucksform modelliert werden können. In einem solchen Modell kann man die Suche nach Informationen als einen Prozess des logischen Schließens sehen. Abbildung 75 zeigt ein sehr einfaches Beispiel, wie aus gegebenen Regeln bzw. Beschreibungen eine neue Regel durch Vererbung erzeugt werden kann.

Aus dieser Perspektive kann man den gesamten Vorgang des Information Retrieval als eine Form des logischen Schließens oder der Inferenz betrachten. Diese Sichtweise liegt dem Modell von van Rijsbergen (1986) [->] zugrunde: Die Basis des logischen Modells des Information Retrieval ist die (vor dem Hintergrund der künstlichen Intelligenz zu sehende) Annahme, dass Anfragen und Dokumente durch logische Regeln repräsentiert und durch einen Inferenzprozess zueinander in Beziehung gesetzt werden können. Ein Dokument wird als zu einer Anfrage relevant angesehen, wenn das Retrieval-System die Anfrage aus den Regeln und Aussagen, die das Dokument repräsentieren, ableiten kann. Dabei kann der Ableitungsprozess prinzipiell komplizierter sein als lediglich die Überprüfung des Vorkommens von gleichen Termen in Dokument und Anfrage. Insbesondere kann zusätzliches Wissen in Form von Regeln verwendet werden, das aus einer Wissensbasis des Systems stammt oder von den Nutzenden eingegeben bzw. abgefragt wird.

Wie schon in Abschnitt 1.3.5 über semantische Netze erwähnt, ist ein solches System sehr mächtig. Daher ist es zunächst auch sehr anfällig für Inkonsistenzen in der Wissensbasis bzw. in den Anfragen und Dokumenten. Nun sind Dokumentensammlungen - wie schon öfter erwähnt - in aller Regel nicht konsistent, und auch bei Regeln, die von Nutzenden eingegeben werden, kann man im Allgemeinen nicht von Konsistenz ausgehen. Zudem können sich die Inhalte von Dokumenten widersprechen, wenn beispielsweise sich widersprechende Theorien beschrieben werden. Trotzdem sollten in einem solchen Fall die Dokumente, die sich widersprechende Theorien darstellen, gefunden werden können.

Neben diesen prinzipiellen Problemen stellt sich aber vor allem die Frage, wie Regeln aus einem Text gewonnen werden können. Im Allgemeinen sind die Dokumente von Menschen für Menschen geschrieben. Es gibt bisher kaum maschinelle Methoden, mit denen sich daraus verlässliche und sinnvolle Regeln gewinnen lassen, die denen ähneln, die Menschen ableiten würden. Will man Dokumente automatisch verarbeiten, basieren deshalb auch die Verfahren des logischen Retrieval wieder weitgehend auf dem Auftreten von Termen in Texten. Sie können aber versuchen, Weltwissen in Form von Regeln einzubeziehen.

3.3.1: Imaging

3.3.2: Bayessche Inferenznetze

3.3.3: Abduktive Anfrageoptimierung

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Erweiterte Retrieval-Ansätze

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

3.3	Logikbasierte Modelle des Information Retrieval
Abb. 75	Modellieren von Wissen durch Regeln
3.3.1	Imaging
Abb. 76	Imaging
Abb. 77	Probleme des Imaging
3.3.2	Bayessche Inferenznetze
Abb. 78	Inferenznetz für das Information Retrieval nach Turtle und Croft
Abb. 79	Inferenznetz, wie es zur Implementierung von INQUERY verwendet wurde (nach Turtle und Croft 1991)
3.3.3	Abduktive Anfrageoptimierung

Thesaurus, Synonymmenge, Information Retrieval, Regel, Konsistenz, probabilistische Inferenz, mögliche Welt, possible world, Aussage, Rangfolge, Ähnlichkeitsfunktion, Vektorraummodell, Indikatorfunktion, charakteristische Funktion, Imaging, IDF, Ähnlichkeitsmaß, bayessches Inferenznetz, Aussage, Dokumentennetz, document network, Dokumentenschicht, Textrepräsentationsschicht, Konzeptrepräsentationsschicht, Anfragenetz, query network, Relevanz, Rangfolge, Indexterm, IDF, Unabhängigkeit, invertierte Liste, Query-Vektor, Ähnlichkeitsfunktion

Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Anfragenetz, Aussage, Aussage, bayessches Inferenznetz, charakteristische Funktion, document network, Dokumentennetz, Dokumentenschicht, IDF, IDF, Imaging, Indexterm, Indikatorfunktion, Information Retrieval, invertierte Liste, Konsistenz, Konzeptrepräsentationsschicht, mögliche Welt, possible world, probabilistische Inferenz, query network, Query-Vektor, Rangfolge, Rangfolge, Regel, Relevanz, Synonymmenge, Textrepräsentationsschicht, Thesaurus, Unabhängigkeit, Vektorraummodell

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.