![]() |
![]() |
![]() |
![]() |
Im Abschnitt _3.4.3_ über Gewichtungsmethoden und beim probabilistischen Retrieval waren IDF-Maße eingeführt worden, die seltenen Termen höhere Gewichte zuordnen. Diese Gewichtung wurde vorgenommen, weil seltenen Termen eine höhere Diskriminationsfähigkeit zugeschrieben wird (vergleiche Abbildung _33_ ). Peat und Willett (1991 [->]) führen die Mißerfolge der automatischen Expansion darauf zurück, dass dabei häufige und damit wenig nützliche Terme gefunden werden. Sie haben diesen Effekt für drei Maße, das Cosinusmaß, das Dice-Maß und das Jaccard-Maß (hier Tanimoto-Maß genannt) gefunden. Im Abschnitt _3.4.5_ waren diese Maße zur Berechnung der Ähnlichkeiten zwischen Dokumenten verwendet worden. Hier werden sie zur Berechnung von Ähnlichkeiten zwischen Termen i und j verwendet. Dabei gehen lediglich die Anzahlen h(i) und h(j) der Dokumente ein, in denen die Terme i und j vorkommen, sowie die Anzahl h(i,j) der Dokumente, in denen i und j gemeinsam vorkommen. (Die Maße werden hier mit Dokumenthäufigkeiten formuliert. Setzt man in den Formeln aus Abschnitt _3.4.5_ charakteristische Funktionen (also Vektoren mit den Einträgen 0 und 1) ein, gehen z. B. die Summen der Quadrate im Nenner des Cosinusmaßes in solche Häufigkeiten über.) Für die drei Maße ergeben sich die Formeln:



Betrachtet man die Formeln aus statistischer Sicht, zeigt sich allerdings, dass sie häufige Terme begünstigen: Während die angegebenen Maße Ähnlichkeiten oder Winkel zwischen Vektoren messen, kann man auch überlegen, ob die Häufigkeit, mit der zwei Terme zusammen auftreten, zufällig, überzufällig oder unterzufällig ist.
Falls p(i) die Wahrscheinlichkeit des Auftretens des Terms
i in einem Dokument und p(i
j) die Wahrscheinlichkeit des gemeinsamen Auftretens der
Terme i und j in einem Dokument bezeichnen, gilt nach der
Definition der statistischen Unabhängigkeit bei zufälligem
gemeinsamen Auftreten der Terme
j)=p(i)·p(j)

Ersetzt man die Wahrscheinlichkeiten durch relative Häufigkeiten, erhält man die Formel

Vergleicht man diesen Quotienten mit den Ähnlichkeitsmaßen, so zeigt sich, dass alle drei Maße häufige Terme stärker begünstigen als dieser. Der cos(i,j) z. B. unterscheidet sich von U(i,j) durch den Faktor


Für die beiden anderen Maße lassen sich ähnliche Effekte zeigen:
Um einen Faktor FD für das Dice - Maß zu berechnen setzen wir


Für das Tanimoto-Maß schließlich führt

![]() |
![]() |
![]() |
![]() |