1.3.6.1: Das Modell
Das Vektorraummodell geht von einem festen Vokabular von Termen
aus, die verwendet werden, um Dokumente durch Vektoren
über diesen Termen zu beschreiben:
Dadurch, dass Dokumente und Anfragen durch reelle Vektoren aus demselben
Vektorraum dargestellt werden, gibt es andere Möglichkeiten, Dokumente und
Anfragen zu vergleichen, als bei der Darstellung als Mengen
von Termen. Es können auch Methoden aus der Theorie der Vektorräume
angewendet werden. Insbesondere können so zu einer Anfrage
bzw. ihrem Anfragevektor die ähnlichsten Dokumente in
einer Sammlung gefunden und in eine Rangfolge gebracht werden. Die Begriffe
Ähnlichkeitsmaß und Ähnlichkeitsfunktion werden im
Folgenden weitgehend synonym verwendet. Der erste betont mehr den inhaltlichen Aspekt, also den Vergleich zwischen Objekten,
der zweite mehr den formalen Aspekt, also die Tatsache, dass ein Paar von Objekten auf eine
reelle Zahl abgebildet wird.
Die Definition des Vektorraummodells lässt sich auch
allgemeiner mit Attributen formulieren:
Wählt man als Attribute wieder das Auftreten von Termen
in einem Text oder in bestimmten Feldern eines bibliografischen Records, stimmt diese
Definition mit der zuerst gegebenen überein. Dabei kann das Auftreten
aber allgemeiner definiert werden, indem z.B. in den Attributen Lemmatisierungsverfahren
verwendet oder Wörter, die in einem Thesaurus
vorkommen, mit der USE-Relation auf die zugehörigen Deskriptoren
abgebildet werden.
Die Definition über Attribute hat aber auch den
Vorteil, dass sie nicht nur auf Texte angewendet werden
kann, sondern auf beliebige Objekte, für
die reellwertige Attribute definiert werden
können, die die Objekte oder deren Inhalt
beschreiben. Texte haben allerdings gegenüber anderen Objekten -
insbesondere gegenüber Bildern - den Vorteil, dass sie aus
einzelnen Wörtern aufgebaut sind, die als sinntragende atomare
Einheiten betrachtet werden können. Darauf bauen die meisten IR-Methoden auf.
Solche atomaren Inhaltseinheiten lassen sich z.B. bei
Bildern nicht oder nur mit großem Aufwand und entsprechender
Unsicherheit automatisch ermitteln. In Bildern, die als Pixelmuster
vorliegen, kann man z.B. versuchen, zusammenhängende Regionen zu
finden und auf Grund ihrer Farb- und Textureigenschaften Vermutungen
darüber anstellen, was sie darstellen. Die Sicherheit, mit der ein
Inhalt erkannt wurde, kann im Vektorraummodell in den Gewichtswert des
entsprechenden Attributs eingehen. Um diesen Mangel an inhaltlicher
Beschreibung zu beheben, gibt es Pläne, bei Standards zur
Bildbeschreibung auch Angaben darüber vorzusehen, an welcher Stelle
im Bild welche Objekte abgebildet sind.
Die beiden Definitionen beschreiben das
Vektorraummodell aus einer theoretischen Perspektive.
Um es zu implementieren, verwendet man ebenso wie beim booleschen
Modell in der Regel invertierte Listen.
Dabei werden zusätzlich zu den Positionsangaben die Gewichte
gespeichert.
|