| |||||||||||||
3.5.4: Deskriptoren bestimmenÄhnlich wie bei der Bestimmung von ähnlichen Wörtern beim zweisprachigen Retrieval können Kookurrenzverfahren auch dazu benutzt werden, zu Wörtern der natürlichen Sprache ähnliche Deskriptoren aus einem kontrollierten Vokabular zu bestimmen. In einem Experiment von Ferber (1997) [->] wurde dazu eine Sammlung von 81 326 Einträgen aus der Idis-Datenbank der British Library for Development Studies (BLDS) verwendet, die Verweise auf Artikel und Publikationen über die Entwicklung in der so genannten dritten Welt enthält. Die Einträge enthalten neben weiteren Angaben den Titel eines Artikels und eine Indexierung mit dem OECD-Thesaurus. Ein Beispiel ist in Abbildung 94 angegeben.
| |||||||||||||
|
||||||||||||
Zur Optimierung der Parameter wurden insgesamt mehr als 300 Durchgänge mit den 500 Trainingsbeispielen berechnet, bei denen x zwischen 0,3 und 1,5 und y zwischen 0,3 und 1,0 variiert wurde. Dabei wurden sechs verschiedene Gütemaße berechnet: mittlere Precision-Werte an den Recall-Werten 0,25, 0,5, 0,75 und 1,0 sowie der Median und das arithmetische Mittel der Rangplätze der intellektuell vergebenen Deskriptoren. Ergebnisse für verschiedene Parameterwerte für die Precision bei einem Recall von 0,75 sind im Diagramm in Abbildung 95 dargestellt. Abbildung 96 zeigt eine Tabelle mit den besten Werten für die verschiedenen Gütemaße; dabei sind auch die Ergebnisse, die mit der Testmenge erreicht wurden, eingetragen. Es zeigt sich, dass diese Ergebnisse sich nicht sonderlich von denen der Trainingsmenge unterscheiden, dass also durch die Optimierung der Parameter das Modell nicht nur auf die Beispiele der Trainingsmenge optimiert wurde.
Ein interessanter Teilaspekt der Untersuchung zeigt sich in der Tatsache, dass sich die Bereiche der Parameterwerte, in denen die besten Ergebnisse erzielt wurden, für x und y stark unterscheiden. x ist der Parameter, mit dem der Einfluss der Häufigkeit der Titelwörter gesteuert wurde, y erfüllt diese Rolle für die Thesaurusdeskriptoren. Die besten Ergebnisse ergeben sich also, wenn bei den Titelwörtern seltene (und damit spezifische) Terme stark gewichtet werden, bei den Thesaurustermen aber eher häufige (also allgemeinere) Deskriptoren. Betrachtet man die Untersuchung als eine Simulation der Vergabe von Deskriptoren durch Menschen, kann man das folgendermaßen interpretieren: Beim Lesen der Titel wird auf seltene Wörter geachtet, vermutlich um die spezifischen Inhalte zu erkennen und zu berücksichtigen. Beim Vergeben der Deskriptoren werden eher häufige und damit allgemeinere Terme verwendet, vermutlich um das Thema des Artikels gut abzudecken und damit einen guten Recall sicherzustellen.
| Navigation | [ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ] |
| Position im Angebot | Information Retrieval -> Erweiterte Retrieval-Ansätze -> Korpusbasierte Verfahren |
| Dieser Abschnitt und seine Unterabschnitte | ||
| Inhalt | Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert |
| kontrolliertes Vokabular, Term-Term-Matrix, Thesaurus | kontrolliertes Vokabular, Term-Term-Matrix, Thesaurus | |
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.