1.3.7.6: Die TREC-Experimente
Neben diesen Testkollektionen gibt es
seit 1992 ungefähr jährlich die so genannten TREC-Experimente
(Text REtrieval Conference
[->]
),
die vom US-amerikanischen National Institute of Standards and
Technology (NIST)
durchgeführt werden. Ziel dieser Großversuche ist
es, Forschungsgruppen zusammenzubringen, um ihre Systeme mit
Hilfe eines gemeinsamen großen Testkorpus zu diskutieren und mit
einer einheitlichen Auswertungsprozedur zu vergleichen. Im Folgenden werden
vor allem die Evaluierungsmethoden von TREC beschrieben.
Auf Verfahren und Retrieval-Methoden, die in den Experimenten
erfolgreich waren, wird in Kapitel 3.4
eingegangen.
In den TREC-Experimenten werden vom NIST zunächst als
Trainingsdaten ein großer
Textkorpus (ein Beispieldokument ist
in Abbildung 42
dargestellt),
eine Sammlung so genannter
Topics und die zugehörigen Relevanzangaben
zur Verfügung gestellt.
Ein Topic ist dabei eine mehr oder
weniger ausführliche Beschreibung einer Fragestellung bzw. eines
Informationsbedarfs (siehe die Beispiele in Abbildung 43
). Mit diesen Daten können die
Systeme trainiert bzw. optimiert (und gegebenenfalls an die großen
Datenmengen angepasst) werden.
Für den Vergleich der Systeme,
also das eigentliche Experiment, werden zwei weitere
Datensammlungen verwendet: eine Sammlung neuer Topics und
ein Korpus mit neuen Dokumenten. Mit diesen Daten müssen die
teilnehmenden Systeme zwei Aufgabenstellungen
lösen: Bei den so genannten
Ad-hoc-Anfragen müssen
zu den neuen Topics relevante Dokumente aus dem alten
Textkorpus gefunden werden; bei der Routing Task müssen zu den alten
Anfragen relevante Dokumente aus den neuen Texten
"herausgefiltert" werden. Die Ad-hoc-Aufgabe entspricht also der
klassischen Aufgabe eines Retrieval-Systems, für die es z.B. in
einer Literaturdatenbank eingesetzt wird; die Routing-Aufgabe kann mit einem
Ausschnittdienst oder einem Pressespiegel verglichen werden.
Die teilnehmenden Forschungsgruppen müssen zu jeder
einzelnen Aufgabe eine geordnete Ergebnisliste mit 1 000 Dokumenten
einreichen. Daraus werden zur Auswertung Precision-Recall-Diagramme
berechnet. Um die Systeme miteinander zu vergleichen, werden mittlere
Precision-Werte verwendet.
Bei TREC-3 bestand der Trainingskorpus aus ca. 2 Gigabyte Textdaten und
150 Topics, die in TREC-1 und TREC-2 verwendet worden waren. Dadurch lagen
Relevanzbeurteilungen aus diesen Experimenten
vor, die für das Training verwendet werden konnten.
Der Testkorpus bestand aus ca. einem Gigabyte Texten und 50 neuen Topics. Eine genauere
Aufstellung findet sich in Harman (1995) [->]
.
Seit TREC-3 ist die Dokumentensammlung auf über 5 Gigabyte bzw. 1,6 Mio.
Dokumente angewachsen. Es stehen inzwischen 400 Topics unterschiedlicher
Ausführlichkeit und die zugehörigen Relevanzdaten zur
Verfügung.
Relevanzbestimmung
TREC verwendet ein
Pooling-Verfahren
um die relevanten Dokumente zu bestimmen:
Zunächst wird zu jeder Aufgabe eine Grundmenge von
Dokumenten gebildet, indem aus jeder Ergebnisliste zu der Aufgabe eine
feste Anzahl (100 bei TREC) der bestplatzierten Dokumente ausgewählt
wird. Für jedes dieser Dokumente beurteilt dann eine
Expertin oder ein Experte, ob es für den Topic relevant ist.
Dieses Verfahren wurde gewählt, um den Aufwand bei
der Relevanzbeurteilung durch Personen in Grenzen zu halten.
Es führt dazu, dass nur Dokumente, die von mindestens einem System unter die
besten 100 eingeordnet wurden, überhaupt auf Relevanz für den Topic untersucht
wurden.
Für die Relevanzurteile aus TREC-2 wurde die
Pooling-Methode an 36 Topics überprüft, je zur Hälfte
Ad-hoc- und Routing-Aufgaben. Dazu wurden aus sieben "guten" Ergebnislisten
die ersten 200 Dokumente in die Grundmenge übernommen und ihre
Relevanz neu bewertet. Es zeigt sich, dass so im Mittel 16% neue relevante
Dokumente gefunden wurden (siehe Abbildung 45
).
Bei TREC-3 wurden zwei Auswertungen durchgeführt. Einmal wurden die
100 besten Dokumente jeder
Ergebnisliste in die Grundmenge übernommen, beim anderen Mal wurden
die 200 besten gewählt. Von den im Mittel 1946
Dokumenten der größeren Grundmenge wurden durchschnittlich
196, also ca. 10%, als relevant eingeschätzt.
Bei den durchschnittlich 1 005 Dokumenten der kleineren
Grundmenge betrug diese Zahl 146, also ca. 15%.
Das heißt, in den zweiten hundert Dokumenten der
Ergebnislisten beträgt die Anzahl der relevanten Dokumente noch ca. ein
Drittel der Zahl aus den ersten Hundert.
Andererseits liegt die Anzahl
gefundener relevanter Dokumente in allen Fällen über 100,
bei TREC-2 sogar über 200, sodass das
Pooling-Verfahren immer unzureichender wird, je
"besser" die Systeme werden: Würden alle Systeme die gleiche Ergebnisliste
liefern, könnte die Grundmenge maximal 100 Dokumente enthalten.
Es würden also weniger Dokumente als relevant eingeschätzt werden
können. Hier liegt ein Problem des
Verfahrens: Es misst zu einem guten Teil die Ähnlichkeit der
Ergebnislisten und nicht unbedingt deren Richtigkeit.
Weitere Daten zu diesem Verfahren sind in der Tabelle 46
angegeben.
Im Anschluss an TREC-4 wurde überprüft,
inwieweit die Relevanzurteile der Pooling-Methode von den
einzelnen Beurteilenden abhängen.
Dazu wurden für alle 49 TREC-4-Topics, zu denen relevante Dokumente gefunden
worden waren, jeweils zufällig 200 relevante Dokumente (bzw. alle relevanten,
wenn das weniger als 200 waren) und 200 als nicht relevant eingeschätzte
Dokumente ausgewählt. Die so bestimmten
14 968
Dokumente wurden durch zwei weitere Personen auf ihre
Relevanz bezüglich der Topics eingeschätzt. Dabei ergaben sich
folgende Ergebnisse: 1992 Dokumente (13,3%) wurden
in allen drei Beurteilungen als relevant
eingeschätzt und 8 742 (58,4%) als nicht relevant.
30% der Dokumente, die in der ersten Einschätzung als relevant eingestuft
worden waren, wurden in der Überprüfung von beiden
zusätzlichen Personen als nicht
relevant eingeschätzt. Umgekehrt wurden 3%
der in der ersten Beurteilung als nicht relevant eingeschätzten
Dokumente in beiden zusätzlichen Bewertungen als relevant eingeschätzt.
Um die Auswirkungen auf die Bewertung der Systeme zu
überprüfen, wurden für die eingereichten
TREC-4-Ergebnisse mittlere
Precision-Werte auf der Basis von vier weiteren Relevanzangaben berechnet:
je einer auf der Basis der zusätzlichen Beurteilungen
sowie je einer auf der Basis einer "Vereinigungsbeurteilung"
und einer "Durchschnittsbeurteilung".
Bei der Vereinigungsbeurteilung wurde ein Dokument als
relevant angenommen, wenn es in einer der drei Beurteilungen als
relevant eingeschätzt worden war. Bei der
Durchschnittsbeurteilung wurde angenommen, dass ein Dokument relevant ist,
wenn es in allen drei Beurteilungen als relevant eingeschätzt worden war.
Dabei muss allerdings beachtet werden, dass für die
zusätzlichen Beurteilungen nicht alle Dokumente des Pools, sondern nur
zweimal 200 zufällig ausgewählte verwendet wurden. Die Ergebnisse
der Untersuchung zeigen, dass die mittleren Precision-Werte bei den
unterschiedlichen Relevanzbeurteilungen variieren, die Rangfolge der
Systeme aber im Wesentlichen gleich bleibt. Ergebnisse für einige
Systeme sind in Abbildung 47
dargestellt.
Im Laufe der verschiedenen TREC-Experimente wurden die Ergebnisse
tendenziell immer besser. Allerdings wurden die Aufgaben variiert, was
die verschiedenen TREC-Läufe nicht direkt vergleichbar macht. So
waren die ersten Topic-Beschreibungen sehr ausführlich. Sie wurden
in den folgenden TREC-Läufen immer weiter verkürzt, wodurch
gute Ergebnisse immer schwieriger zu erzielen waren. In späteren
Läufen wurden mehrere unterschiedlich ausführliche
Topic-Beschreibungen angeboten, die parallel verwendet werden
konnten.
Es ist auch möglich, dass sich die Ergebnisse dadurch, dass
die in einem Lauf gefundenen Relevanzdaten immer als Trainingsdaten
des nächsten Laufs verwendet werden, auf die Dauer verzerren. Durch
die Pooling-Methode werden nur solche Dokumente zur Relevanzbeurteilung
zugelassen, die von mindestens einem System unter den 100 besten
Dokumenten platziert wurden. Durch das Training mit diesen
Relevanzangaben werden die Ergebnisse der verschiedenen Systeme immer
ähnlicher. Es findet aber nur bedingt eine Kontrolle statt, ob sie
auch im Sinne einer Relevanzuntersuchung für die gesamte
Datensammlung besser werden.
|