| |||||||||||||||||||||||
1.3.6.2: Vektorraummodell und boolesches Retrieval
In diesem Modell kann man auch einfache Anfragen des
booleschen Retrieval als Spezialfälle darstellen.
Dadurch lässt sich der Zusammenhang
zwischen den beiden Verfahren verdeutlichen. Dazu erlaubt man
als Gewichte nur die Werte
0
und
1
, man verwendet also
wi Dasselbe Verfahren verwendet man, um eine Anfrage zu repräsentieren:
An den Stellen der Terme, die in der Anfrage vorkommen, wird in einem Anfragevektor
q Sind alle Terme der Anfrage mit OR verknüpft, wird eine andere Ähnlichkeitsfunktion verwendet: Ein Dokument gehört bereits zur Anfrage, wenn an einer einzigen Stelle, an der im Anfragevektor eine 1 steht, auch im Dokumentvektor eine 1 steht. Man kann diese Operationen mit Hilfe des Skalarprodukts der Vektoren definieren:
| |||||||||||||||||||||||
| sAND | (wi,q) | = | { |
|
{0,1}
n
zu einer aus
r
durch OR verknüpften
Termen bestehenden Anfrage, wenn
wi·q>=1
gilt:
| sOR | (wi,q) | = | { |
|
Diese Darstellung des booleschen Retrieval im Vektorraummodell ist allerdings nur für die einfachen Anfragen möglich, bei denen alle Terme mit AND oder alle Terme mit OR verknüpft sind. Anfragen, in denen sowohl AND-Verknüpfungen als auch OR-Verknüpfungen vorkommen und die eventuell noch durch Klammern komplex geschachtelt sind, lassen sich nicht so einfach darstellen. Ihre Modellierung mit unscharfen Mengen wird in Kapitel 3.1 beschrieben.
Die Darstellungen der einfachen booleschen Operationen in den Gleichungen (5 ) und (6 ) bestehen also im Kern aus dem Skalarprodukt und einer Schwellwertfunktion, die die Aufgabe hat, aus einem reellwertigen (bzw. ganzzahligen) Ergebnis das gewünschte binäre Resultat zu erzeugen. Bei AND ist die Schwelle maximal, bei OR ist sie minimal.
Lässt man die Schwellwertfunktion weg, erhält man einen durch das Skalarprodukt gegebenen Ähnlichkeitswert. Er gibt an, wie viele Terme sowohl in der Anfrage als auch im jeweiligen Dokument vorkommen. Nach den Ähnlichkeitswerten können die Dokumente in eine Rangfolge gebracht werden; dabei stehen die Dokumente, die viele Terme aus der Anfrage enthalten, weit oben in der Rangfolge und die, die nur wenigen Anfrageterme enthalten, an deren Ende.
Die Ausgabe der Resultate in einer solchen Rangfolge ist in einem Information-Retrieval-System im Allgemeinen sehr viel nützlicher als eine Ausgabe als ungeordnete Menge, besonders wenn viele Treffer gefunden wurden. Sie bietet den Nutzenden zuerst die in diesem Maß als am wichtigsten eingeschätzten Dokumente an und sortiert als weniger wichtig eingeschätzte Dokumente ans Ende der Ausgabe. Für die Nützlichkeit eines solchen Systems zur Lösung einer Aufgabe ist es aber entscheidend, dass diese Sortierung den Einschätzungen der Nutzenden entspricht, da erwartet werden muss, dass Nutzende nach einer Reihe von für sie unwichtigen Treffern die weiteren Dokumente nicht mehr beachten.
Die geschilderten Verfahren zur Berechnung der Ähnlichkeit sind natürlich nicht auf Vektoren beschränkt, in denen nur die Werte 0 und 1 vorkommen. Das Skalarprodukt kann auch mit reellen Zahlen berechnet werden, also für Dokument- und Anfragevektoren aus Rn . In diesem Fall können die Rangfolgen feiner untergliedert sein als bei ganzen Zahlen.
| Navigation | [ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ] |
| Position im Angebot | Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell |
| Dieser Abschnitt und seine Unterabschnitte | ||||||
| Inhalt | Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert | ||||
|
boolesches Retrieval, Skalarprodukt, Skalarprodukt, Schwellwertfunktion, Schwelle, Rangfolge, Skalarprodukt | boolesches Retrieval, Rangfolge, Schwelle, Schwellwertfunktion, Skalarprodukt, Skalarprodukt, Skalarprodukt | ||||
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 17-11-2003 erzeugt.