1.3.7.3: Precision und Recall
Auf der Definition der Relevanz bauen die beiden am häufigsten
verwendeten Evaluierungsmaße auf:
Precision gibt also den Anteil der relevanten Dokumente unter den gefundenen
Dokumenten an, Recall gibt den Anteil der relevanten Dokumente
an, die gefunden wurden. Optimal, nämlich gleich
1
, sind die Werte für Precision und Recall
natürlich genau dann, wenn
Dq=r-1q({
1})
gilt, wenn also genau alle
relevanten Dokumente als Antwortmenge zurückgeliefert
werden.
Die beiden Maße sind in gewisser Weise
gegenläufig. Zur Illustration kann man
die beiden Extremfälle betrachten:
Wenn
Dq=D
gilt, wenn also alle Dokumente auf die
Anfrage hin zurückgeliefert werden, ist der Recall gleich
1
:
| R |
(q,D) |
:= |
| D
r-1q({1}
) | |
 |
| | r-1q
({1})
| |
|
= |
| | r-1q(
{1}) |
|
 |
| | r-1q({
1}) | |
|
=1 |
(jedenfalls,
wenn es überhaupt relevante Dokumente in der Datenbank gibt). Die
Precision wird aber sehr schlecht sein. (Jedenfalls, wenn nicht alle
Dokumente relevant sind).
Wird umgekehrt nur ein
einziges relevantes Dokument
dr D
gefunden, so
ist
| P |
(q,D) |
:= |
| {
dr} r-1q
({1})
| |
 |
| | {dr}
| |
|
= |
| | {dr}
| |
 |
| | {dr}
| |
|
=1 |
der Recall
wird aber sehr schlecht sein (jedenfalls, wenn es mehrere relevante
Dokumente in der Datenbank gibt).
In der Regel werden die Antwortmengen aber zwischen diesen beiden
Extremen liegen. Dann ergibt sich im Allgemeinen bei einer
Verkleinerung der Antwortmenge durch eine spezifischere Anfrage eine
bessere Precision, aber ein schlechterer Recall; bei
einer Vergrößerung der Antwortmenge durch
eine allgemeinere Anfrage ergibt sich ein größerer Recall,
aber eine kleinere Precision. Ähnliche Situationen können auftreten, wenn
Precision- und Recall-Maße dazu verwendet werden, verschiedene
Systeme zu vergleichen. Eindeutige Aussagen darüber, ob ein System besser ist
als das andere, können nur gemacht werden, wenn für das eine
System sowohl der Precision-Wert als auch der
Recall-Wert besser ist als bei dem anderen System. Ist
bei einem System z.B. die Precision besser, dafür aber der Recall
schlechter, so eignen sich die Systeme zwar eventuell für
unterschiedliche Aufgaben, es kann aber nicht allgemein gesagt werden,
welches besser ist.
Die Gegenläufigkeit der Maße wird besonders interessant,
wenn die Größe der Antwortmenge des Systems durch einen
Parameter steuerbar ist, wie dies bei den Vektorraummodellen (siehe
Abschnitt 1.3.6
) der Fall ist. Dort wurden die
Antwortmengen durch eine
Ähnlichkeitsschranke bestimmt, bzw. es
wurden als Antwortmengen Rangfolgen von Dokumenten geliefert. Mit einer
solchen Rangfolge kann man nun den Zusammenhang
zwischen Precision und Recall darstellen und gegebenenfalls die
Schwelle so festlegen, dass die gewünschte
Art der Antwortmenge erzielt wird.
Anschaulich erhält man ein Precision-Recall-Diagramm, indem man in der Rangfolge der
Ergebnismenge von oben beginnend die relevanten und nicht relevanten Dokumente zählt. Jedes Mal,
wenn man ein relevantes Dokument findet, berechnet man Recall und Precision als neues Paar in
der Folge der Paare des Precision-Recall-Diagramms.
Abbildung 39
gibt ein Beispiel dieser Berechnung
und Abbildung 40
die zugehörige
grafische Darstellung an.
Falls die Antwortmenge nicht vollständig geordnet ist, also z.B. beim
Vektorraummodell mehrere Dokumente die gleiche Ähnlichkeit zur
Anfrage haben, muss darauf geachtet werden, dass die Werte in der Folge nicht durch eine
willkürliche Vergabe der Rangplätze beeinflusst werden.
Wäre im Beispiel der Abbildung 39
jeder Block eine Gruppe
von Dokumenten mit gleicher Ähnlichkeit zur Anfrage,
so könnten die Dokumente innerhalb der
Blöcke zufällig angeordnet werden.
Das würde das Precision-Recall-Diagramm beeinflussen.
So könnte das 14. Element der Folge auch
|
( |
| 14 |
 |
| 17 |
|
, |
| 14 |
 |
| 31 |
|
) |
oder
|
( |
| 14 |
 |
| 17 |
|
, |
| 14 |
 |
| 40 |
|
) |
lauten.
Eine Möglichkeit, das Problem zu lösen, besteht darin,
Precision-Recall-Paare nur für die
verschiedenen Ähnlichkeitswerte zu berechnen, also für jede
Ähnlichkeitsschranke eine eigenständige Auswertung zu
machen. Im Beispiel der Abbildung 39
würde
sich (für den konstruierten Fall, dass jeder Block eine Ähnlichkeitsstufe
darstellt) eine Folge aus 19 Gliedern ergeben, die
folgendermaßen anfängt:
|
( |
| 6 |
 |
| 30 |
|
, |
| 6 |
 |
|
10 |
|
),( |
| 11 |
 |
| 30 |
|
, |
| 11 |
 |
| 20 |
|
),(
|
| 13 |
 |
| 30 |
|
, |
| 13 |
 |
| 30 |
|
),( |
| 1
4 |
 |
| 30 |
|
, |
| 14 |
 |
| 40 |
|
),(
|
| 17 |
 |
| 30 |
|
, |
| 17 |
 |
| 50 |
|
) |
Vergleicht man die Precision an gleichen
Recall-Werten, zeigt sich, dass die erste Art der Berechnung bessere
Precision-Werte liefert. Das liegt daran, dass der Precision-Wert in
diesem Fall nur für die Dokumente berechnet wird, die in der
Ordnung vor dem jeweiligen relevanten Dokument liegen, während bei
der Blockberechnung eventuell auch nichtrelevante Dokumente einbezogen
werden, die zwischen dem relevanten Dokument und der Blockgrenze
liegen.
|