Gewichtungsmethoden [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell
Stichwörter dieser Seite	Gewichtungsmethode, kontrolliertes Vokabular, invertierte Liste, Between-Object, Within-Object, Termhäufigkeit, TF, IDF, TF-IDF, term frequency-inverted document frequency
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

1.3.6.3: Gewichtungsmethoden

In diesem Abschnitt sollen Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Die auf den ersten Blick einfachste Methode der Gewichtung von Termen in Dokumentvektoren besteht darin, die Terme von Indexierenden gewichten zu lassen. Das kann bei der manuellen (bzw. intellektuellen) Indexierung geschehen, insbesondere bei der Vergabe von Termen aus einem kontrollierten Vokabular oder bei der Vergabe von freien Schlüsselwörtern.

Dieses Vorgehen ist aber aus mehreren Gründen problematisch: Zum einen erfordert es einen hohen Arbeits-, Zeit- und damit Kostenaufwand. Zum zweiten haben Experimente gezeigt, dass Versuchspersonen nur schlecht in der Lage sind, Wahrscheinlichkeiten einzuschätzen und mit ihnen umzugehen. Schließlich besteht außerdem die Gefahr, dass die tatsächlich vergebenen Gewichtungen von vielen Faktoren abhängen, die eigentlich keine Rolle spielen sollten: zum Beispiel von der Reihenfolge, in der Texte indexiert und bewertet werden, oder von der Person der Indexierenden und deren Wissenstand, Interessen und Tagesform. Die Konsistenz der Gewichtungen dürfte daher noch geringer sein als bei der ungewichteten Vergabe von Indextermen.

Auch bei der Konstruktion von Anfragen kann man die Terme von den Anfragenden gewichten lassen. Aber auch hier ist zu erwarten, dass Anfragende Probleme haben, mit Gewichtungen konsistent umzugehen. Zudem stellt die Vergabe von Gewichten eine zusätzliche kognitive Belastung der Nutzenden dar.

Die erwähnten Schwierigkeiten legen es nahe, nach automatischen bzw. halbautomatischen Methoden zu suchen, mit denen Gewichte berechnet werden können. Das führt wieder auf die Frage zurück, wie Terme, die den Inhalt eines Dokuments gut charakterisieren, automatisch erkannt werden können. Beim booleschen Retrieval lässt sich durch eine Stoppwortliste verhindern, dass sehr häufige Terme in die invertierte Liste aufgenommen werden. Man geht davon aus, dass sie für die Repräsentation des Inhalts eines Dokuments nicht wichtig sind oder zumindest nicht dazu beitragen, wichtige Dokumente von unwichtigen zu unterscheiden. Dieses Vorgehen kann im Vektorraummodell übernommen werden, indem als generelle Gewichtung der Terme der Stoppwortliste das Gewicht 0 verwendet wird, egal in welchem Dokument oder in welcher Anfrage sie auftreten. Dieses Vorgehen ist allerdings eine ziemlich grobe Methode, die der Idee des Vektorraummodells nicht gerecht wird. Angemessenere Methoden werden im Folgenden beschrieben.

Ganz allgemein kann man bei der Bestimmung von Termgewichten zwischen globalen oder kontextunabhängigen Einflussfaktoren (Between-Object-Einflüsse) und lokalen oder kontextabhängigen Einflussfaktoren (Within-Object-Einflüsse) unterscheiden. Ein lokales oder kontextabhängiges Kriterium für die Wahl bzw. Gewichtung von Termen wäre z.B. die Häufigkeit, mit der ein Term in einem Dokument auftritt.

1.3.6.3.1: Globale Gewichtungseinflüsse

1.3.6.3.2: Lokale Gewichtungseinflüsse

Häufig werden lokale und globalen Gewichtungen zu Formeln vom Typ

w_i,j=
h(i,j)

d (j)

verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumenthäufigkeit (IDF) multipliziert wird. Gewichtsformeln von diesem Typ werden auch als TF-IDF-Gewichtung bezeichnet (term frequency-inverted document frequency). Sie sind in vielen Systemen und Untersuchungen erfolgreich eingesetzt worden.

Eine komplexere Formel, die für das experimentelle System SMART (Salton und McGill, 1983 [->] ) entwickelt wurde, lautet z.B.:

w_i,j^~=
1

2

(1+
h(i,j)

max

k{ 1,...,n}

{h(i,k)}

) ln(
m

d(j)

)

bzw. als normierte Version:

w_i,j=
w^~_i,j

(
n

k=1

w^~_i,k²)^1/2

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Das Vektorraummodell

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

1.3.6.3	Gewichtungsmethoden
1.3.6.3.1	Globale Gewichtungseinflüsse
Satz 1	Zipfsches Gesetz
Abb. 30	Das zipfsche Gesetz am Beispiel des Brown- und des LOB-Korpus
Abb. 31	Schematische Darstellung des zipfschen Gesetzes
Abb. 32	Schematische Darstellung der Diskriminationskraft von Termen, gegen die Häufigkeit aufgetragen
1.3.6.3.2	Lokale Gewichtungseinflüsse

Gewichtungsmethode, kontrolliertes Vokabular, invertierte Liste, Between-Object, Within-Object, zipfsches Gesetzt, Abdeckung, Dokumenthäufigkeit, document frequency, invertierte Dokumenthäufigkeit, inverted document frequency, IDF, Diskriminationskraft, invertierte Liste, Termhäufigkeit, term frequency, TF, Gewichtungsmethode, Abstract, SGML, Termhäufigkeit, TF, IDF, TF-IDF, term frequency-inverted document frequency

Abdeckung, Abstract, Between-Object, Diskriminationskraft, document frequency, Dokumenthäufigkeit, Gewichtungsmethode, Gewichtungsmethode, IDF, IDF, inverted document frequency, invertierte Dokumenthäufigkeit, invertierte Liste, invertierte Liste, kontrolliertes Vokabular, SGML, term frequency, term frequency-inverted document frequency, Termhäufigkeit, Termhäufigkeit, TF, TF, TF-IDF, Within-Object, zipfsches Gesetzt

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.