Die TREC-Experimente [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Bewertung und Vergleich von IR-Systemen
Stichwörter dieser Seite	TREC, Text REtrieval Conference, National Institute of Standards and Technology, NIST, Topic, Ad-hoc-Anfrage, Routing, Relevanz, Pooling-Verfahren, Relevanzurteil, Relevanzurteil
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

1.3.7.6: Die TREC-Experimente

Neben diesen Testkollektionen gibt es seit 1992 ungefähr jährlich die so genannten TREC-Experimente (Text REtrieval Conference [->] ), die vom US-amerikanischen National Institute of Standards and Technology (NIST) durchgeführt werden. Ziel dieser Großversuche ist es, Forschungsgruppen zusammenzubringen, um ihre Systeme mit Hilfe eines gemeinsamen großen Testkorpus zu diskutieren und mit einer einheitlichen Auswertungsprozedur zu vergleichen. Im Folgenden werden vor allem die Evaluierungsmethoden von TREC beschrieben. Auf Verfahren und Retrieval-Methoden, die in den Experimenten erfolgreich waren, wird in Kapitel 3.4 eingegangen.

In den TREC-Experimenten werden vom NIST zunächst als Trainingsdaten ein großer Textkorpus (ein Beispieldokument ist in Abbildung 42 dargestellt), eine Sammlung so genannter Topics und die zugehörigen Relevanzangaben zur Verfügung gestellt. Ein Topic ist dabei eine mehr oder weniger ausführliche Beschreibung einer Fragestellung bzw. eines Informationsbedarfs (siehe die Beispiele in Abbildung 43 ). Mit diesen Daten können die Systeme trainiert bzw. optimiert (und gegebenenfalls an die großen Datenmengen angepasst) werden.

Abbildung 42: Beispieldokument aus dem TREC-Korpus

Abbildung 43: Topics aus den ersten TREC-Durchgängen

Abbildung 44: Topics aus späteren TREC-Durchgängen

Für den Vergleich der Systeme, also das eigentliche Experiment, werden zwei weitere Datensammlungen verwendet: eine Sammlung neuer Topics und ein Korpus mit neuen Dokumenten. Mit diesen Daten müssen die teilnehmenden Systeme zwei Aufgabenstellungen lösen: Bei den so genannten Ad-hoc-Anfragen müssen zu den neuen Topics relevante Dokumente aus dem alten Textkorpus gefunden werden; bei der Routing Task müssen zu den alten Anfragen relevante Dokumente aus den neuen Texten "herausgefiltert" werden. Die Ad-hoc-Aufgabe entspricht also der klassischen Aufgabe eines Retrieval-Systems, für die es z.B. in einer Literaturdatenbank eingesetzt wird; die Routing-Aufgabe kann mit einem Ausschnittdienst oder einem Pressespiegel verglichen werden.

Die teilnehmenden Forschungsgruppen müssen zu jeder einzelnen Aufgabe eine geordnete Ergebnisliste mit 1 000 Dokumenten einreichen. Daraus werden zur Auswertung Precision-Recall-Diagramme berechnet. Um die Systeme miteinander zu vergleichen, werden mittlere Precision-Werte verwendet.

Bei TREC-3 bestand der Trainingskorpus aus ca. 2 Gigabyte Textdaten und 150 Topics, die in TREC-1 und TREC-2 verwendet worden waren. Dadurch lagen Relevanzbeurteilungen aus diesen Experimenten vor, die für das Training verwendet werden konnten. Der Testkorpus bestand aus ca. einem Gigabyte Texten und 50 neuen Topics. Eine genauere Aufstellung findet sich in Harman (1995) [->] . Seit TREC-3 ist die Dokumentensammlung auf über 5 Gigabyte bzw. 1,6 Mio. Dokumente angewachsen. Es stehen inzwischen 400 Topics unterschiedlicher Ausführlichkeit und die zugehörigen Relevanzdaten zur Verfügung.

Relevanzbestimmung

TREC verwendet ein Pooling-Verfahren um die relevanten Dokumente zu bestimmen: Zunächst wird zu jeder Aufgabe eine Grundmenge von Dokumenten gebildet, indem aus jeder Ergebnisliste zu der Aufgabe eine feste Anzahl (100 bei TREC) der bestplatzierten Dokumente ausgewählt wird. Für jedes dieser Dokumente beurteilt dann eine Expertin oder ein Experte, ob es für den Topic relevant ist. Dieses Verfahren wurde gewählt, um den Aufwand bei der Relevanzbeurteilung durch Personen in Grenzen zu halten. Es führt dazu, dass nur Dokumente, die von mindestens einem System unter die besten 100 eingeordnet wurden, überhaupt auf Relevanz für den Topic untersucht wurden.

Für die Relevanzurteile aus TREC-2 wurde die Pooling-Methode an 36 Topics überprüft, je zur Hälfte Ad-hoc- und Routing-Aufgaben. Dazu wurden aus sieben "guten" Ergebnislisten die ersten 200 Dokumente in die Grundmenge übernommen und ihre Relevanz neu bewertet. Es zeigt sich, dass so im Mittel 16% neue relevante Dokumente gefunden wurden (siehe Abbildung 45 ).

Abbildung 45: Überprüfung der Relevanzbeurteilung bei TREC-2

Bei TREC-3 wurden zwei Auswertungen durchgeführt. Einmal wurden die 100 besten Dokumente jeder Ergebnisliste in die Grundmenge übernommen, beim anderen Mal wurden die 200 besten gewählt. Von den im Mittel 1946 Dokumenten der größeren Grundmenge wurden durchschnittlich 196, also ca. 10%, als relevant eingeschätzt. Bei den durchschnittlich 1 005 Dokumenten der kleineren Grundmenge betrug diese Zahl 146, also ca. 15%. Das heißt, in den zweiten hundert Dokumenten der Ergebnislisten beträgt die Anzahl der relevanten Dokumente noch ca. ein Drittel der Zahl aus den ersten Hundert. Andererseits liegt die Anzahl gefundener relevanter Dokumente in allen Fällen über 100, bei TREC-2 sogar über 200, sodass das Pooling-Verfahren immer unzureichender wird, je "besser" die Systeme werden: Würden alle Systeme die gleiche Ergebnisliste liefern, könnte die Grundmenge maximal 100 Dokumente enthalten. Es würden also weniger Dokumente als relevant eingeschätzt werden können. Hier liegt ein Problem des Verfahrens: Es misst zu einem guten Teil die Ähnlichkeit der Ergebnislisten und nicht unbedingt deren Richtigkeit. Weitere Daten zu diesem Verfahren sind in der Tabelle 46 angegeben.

Abbildung 46: Größe der Grundmenge der auf Relevanz beurteilten Dokumente

Im Anschluss an TREC-4 wurde überprüft, inwieweit die Relevanzurteile der Pooling-Methode von den einzelnen Beurteilenden abhängen. Dazu wurden für alle 49 TREC-4-Topics, zu denen relevante Dokumente gefunden worden waren, jeweils zufällig 200 relevante Dokumente (bzw. alle relevanten, wenn das weniger als 200 waren) und 200 als nicht relevant eingeschätzte Dokumente ausgewählt. Die so bestimmten 14 968 Dokumente wurden durch zwei weitere Personen auf ihre Relevanz bezüglich der Topics eingeschätzt. Dabei ergaben sich folgende Ergebnisse: 1992 Dokumente (13,3%) wurden in allen drei Beurteilungen als relevant eingeschätzt und 8 742 (58,4%) als nicht relevant. 30% der Dokumente, die in der ersten Einschätzung als relevant eingestuft worden waren, wurden in der Überprüfung von beiden zusätzlichen Personen als nicht relevant eingeschätzt. Umgekehrt wurden 3% der in der ersten Beurteilung als nicht relevant eingeschätzten Dokumente in beiden zusätzlichen Bewertungen als relevant eingeschätzt.

Um die Auswirkungen auf die Bewertung der Systeme zu überprüfen, wurden für die eingereichten TREC-4-Ergebnisse mittlere Precision-Werte auf der Basis von vier weiteren Relevanzangaben berechnet: je einer auf der Basis der zusätzlichen Beurteilungen sowie je einer auf der Basis einer "Vereinigungsbeurteilung" und einer "Durchschnittsbeurteilung". Bei der Vereinigungsbeurteilung wurde ein Dokument als relevant angenommen, wenn es in einer der drei Beurteilungen als relevant eingeschätzt worden war. Bei der Durchschnittsbeurteilung wurde angenommen, dass ein Dokument relevant ist, wenn es in allen drei Beurteilungen als relevant eingeschätzt worden war. Dabei muss allerdings beachtet werden, dass für die zusätzlichen Beurteilungen nicht alle Dokumente des Pools, sondern nur zweimal 200 zufällig ausgewählte verwendet wurden. Die Ergebnisse der Untersuchung zeigen, dass die mittleren Precision-Werte bei den unterschiedlichen Relevanzbeurteilungen variieren, die Rangfolge der Systeme aber im Wesentlichen gleich bleibt. Ergebnisse für einige Systeme sind in Abbildung 47 dargestellt.

Abbildung 47: Ergebnisse einzelner Systeme aus TREC-4 mit unterschiedlichen Relevanzbeurteilungen

Im Laufe der verschiedenen TREC-Experimente wurden die Ergebnisse tendenziell immer besser. Allerdings wurden die Aufgaben variiert, was die verschiedenen TREC-Läufe nicht direkt vergleichbar macht. So waren die ersten Topic-Beschreibungen sehr ausführlich. Sie wurden in den folgenden TREC-Läufen immer weiter verkürzt, wodurch gute Ergebnisse immer schwieriger zu erzielen waren. In späteren Läufen wurden mehrere unterschiedlich ausführliche Topic-Beschreibungen angeboten, die parallel verwendet werden konnten.

Es ist auch möglich, dass sich die Ergebnisse dadurch, dass die in einem Lauf gefundenen Relevanzdaten immer als Trainingsdaten des nächsten Laufs verwendet werden, auf die Dauer verzerren. Durch die Pooling-Methode werden nur solche Dokumente zur Relevanzbeurteilung zugelassen, die von mindestens einem System unter den 100 besten Dokumenten platziert wurden. Durch das Training mit diesen Relevanzangaben werden die Ergebnisse der verschiedenen Systeme immer ähnlicher. Es findet aber nur bedingt eine Kontrolle statt, ob sie auch im Sinne einer Relevanzuntersuchung für die gesamte Datensammlung besser werden.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Bewertung und Vergleich von IR-Systemen

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

1.3.7.6	Die TREC-Experimente
Abb. 42	Beispieldokument aus dem TREC-Korpus
Abb. 43	Topics aus den ersten TREC-Durchgängen
Abb. 44	Topics aus späteren TREC-Durchgängen
Abb. 45	Überprüfung der Relevanzbeurteilung bei TREC-2
Abb. 46	Größe der Grundmenge der auf Relevanz beurteilten Dokumente
Abb. 47	Ergebnisse einzelner Systeme aus TREC-4 mit unterschiedlichen Relevanzbeurteilungen

TREC, Text REtrieval Conference, National Institute of Standards and Technology, NIST, Topic, Narrative, Ad-hoc-Anfrage, Routing, Relevanz, Pooling-Verfahren, Relevanzurteil, Relevanzurteil

Ad-hoc-Anfrage, Narrative, National Institute of Standards and Technology, NIST, Pooling-Verfahren, Relevanz, Relevanzurteil, Relevanzurteil, Routing, Text REtrieval Conference, Topic, TREC

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.