Das Modell [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell
Stichwörter dieser Seite	Rangfolge, Ähnlichkeitsmaß, Ähnlichkeitsfunktion, Attribut, Thesaurus, invertierte Liste
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

1.3.6.1: Das Modell

Das Vektorraummodell geht von einem festen Vokabular von Termen aus, die verwendet werden, um Dokumente durch Vektoren über diesen Termen zu beschreiben:

Definition 3: Vektorraummodell

Abbildung 29: Schematische Darstellung eines Vektorraum-Text-Retrieval-Systems

Dadurch, dass Dokumente und Anfragen durch reelle Vektoren aus demselben Vektorraum dargestellt werden, gibt es andere Möglichkeiten, Dokumente und Anfragen zu vergleichen, als bei der Darstellung als Mengen von Termen. Es können auch Methoden aus der Theorie der Vektorräume angewendet werden. Insbesondere können so zu einer Anfrage bzw. ihrem Anfragevektor die ähnlichsten Dokumente in einer Sammlung gefunden und in eine Rangfolge gebracht werden. Die Begriffe Ähnlichkeitsmaß und Ähnlichkeitsfunktion werden im Folgenden weitgehend synonym verwendet. Der erste betont mehr den inhaltlichen Aspekt, also den Vergleich zwischen Objekten, der zweite mehr den formalen Aspekt, also die Tatsache, dass ein Paar von Objekten auf eine reelle Zahl abgebildet wird.

Die Definition des Vektorraummodells lässt sich auch allgemeiner mit Attributen formulieren:

Definition 4: Vektorraummodell mit Attributen

Wählt man als Attribute wieder das Auftreten von Termen in einem Text oder in bestimmten Feldern eines bibliografischen Records, stimmt diese Definition mit der zuerst gegebenen überein. Dabei kann das Auftreten aber allgemeiner definiert werden, indem z.B. in den Attributen Lemmatisierungsverfahren verwendet oder Wörter, die in einem Thesaurus vorkommen, mit der USE-Relation auf die zugehörigen Deskriptoren abgebildet werden.

Die Definition über Attribute hat aber auch den Vorteil, dass sie nicht nur auf Texte angewendet werden kann, sondern auf beliebige Objekte, für die reellwertige Attribute definiert werden können, die die Objekte oder deren Inhalt beschreiben. Texte haben allerdings gegenüber anderen Objekten - insbesondere gegenüber Bildern - den Vorteil, dass sie aus einzelnen Wörtern aufgebaut sind, die als sinntragende atomare Einheiten betrachtet werden können. Darauf bauen die meisten IR-Methoden auf. Solche atomaren Inhaltseinheiten lassen sich z.B. bei Bildern nicht oder nur mit großem Aufwand und entsprechender Unsicherheit automatisch ermitteln. In Bildern, die als Pixelmuster vorliegen, kann man z.B. versuchen, zusammenhängende Regionen zu finden und auf Grund ihrer Farb- und Textureigenschaften Vermutungen darüber anstellen, was sie darstellen. Die Sicherheit, mit der ein Inhalt erkannt wurde, kann im Vektorraummodell in den Gewichtswert des entsprechenden Attributs eingehen. Um diesen Mangel an inhaltlicher Beschreibung zu beheben, gibt es Pläne, bei Standards zur Bildbeschreibung auch Angaben darüber vorzusehen, an welcher Stelle im Bild welche Objekte abgebildet sind.

Die beiden Definitionen beschreiben das Vektorraummodell aus einer theoretischen Perspektive. Um es zu implementieren, verwendet man ebenso wie beim booleschen Modell in der Regel invertierte Listen. Dabei werden zusätzlich zu den Positionsangaben die Gewichte gespeichert.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

1.3.6.1	Das Modell
Def. 3	Vektorraummodell
Abb. 29	Schematische Darstellung eines Vektorraum-Text-Retrieval-Systems
Def. 4	Vektorraummodell mit Attributen

Vektorraummodell, Gewicht, Dokumentvektor, Query, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Rangfolge, Ähnlichkeitsmaß, Ähnlichkeitsfunktion, Attribut, Vektorraummodell mit Attributen, Dokumentvektor, Anfragevektor, Query-Vektor, Ähnlichkeitsfunktion, Thesaurus, invertierte Liste

Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsfunktion, Ähnlichkeitsmaß, Anfragevektor, Anfragevektor, Attribut, Dokumentvektor, Dokumentvektor, Gewicht, invertierte Liste, Query, Query-Vektor, Query-Vektor, Rangfolge, Thesaurus, Vektorraummodell, Vektorraummodell mit Attributen

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.