Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Zeichenketten, Wörter und Konzepte
Stichwörter dieser Seite Polysemie, Ambiguität, Synonymie
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

1.3.2.4: Auflösen von Mehrdeutigkeiten

Auch nach der Reduktion auf Grund- oder Stammformen bleibt das Problem, für mehrdeutige Wortformen bzw. Wörter den jeweils richtigen Stamm bzw. die jeweils richtige Bedeutung festzulegen. Es wird als Polysemie- oder Ambiguitätsproblem bezeichnet und ist für isolierte Wörter nicht zu lösen. Man kann aber versuchen, die Mehrdeutigkeiten im jeweiligen Kontext zu lösen.

In einem Information-Retrieval-System müssen bei der Indexierung neuer Dokumente und bei der Bearbeitung von Anfragen Terme bestimmt werden. Wenn lediglich Terme als Zeichenketten isoliert werden sollen, sind die verwendeten Regeln in beiden Fällen sehr ähnlich. Sie bestehen im Wesentlichen aus Regeln auf Zeichenebene, die durch die Stoppwortliste und einige Ausschlussregeln für bestimmte Zeichenmuster ergänzt werden. Bei der Bearbeitung von Anfragen müssen über diese Regeln hinaus noch trunkierte Zeichenketten expandiert werden.

Die Auswahl eines Stammes oder einer Grundform aus mehreren möglichen Stämmen oder Grundformen unterscheidet sich aber bei der Indexierung neuer Dokumente und der Bearbeitung einer Anfrage. Genauer gesagt: Weil die Bestimmung der richtigen Stämme schwieriger ist, muss man sich die jeweilige Situation zunutze machen, um das Problem möglichst gut zu lösen: Bei der Bestimmung von Anfragetermen kann man versuchen, die richtigen Terme im Dialog mit den Nutzenden zu finden. Dazu muss allerdings zunächst erkannt werden, dass eine Zeichenkette mehrdeutig ist. Das ist nur mit einem lexikonbasierten oder einem statistischen System möglich. Verfahren, um im Dialog geeignete Anfragen zu formulieren, werden in den Abschnitten 1.3.6.4 und 3.3.3 beschrieben.

Bei der Indexierung kann man versuchen, den Kontext der Dokumente zu nutzen, um die vorgefundenen mehrdeutigen Zeichenketten dem richtigen Term zuzuordnen. Auch dazu ist allerdings zusätzliches Wissen wie ein Lexikon oder eine Assoziationstabelle nötig (siehe auch Abschnitt 3.5.1 ).

Das der Polysemie entgegengesetzte Problem ist die Synonymie: Gleiche Objekte werden mit verschiedenen Begriffen bezeichnet. Dieses Problem kann auch mit externem Wissen wie einem Synonymlexikon angegangen werden.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Grundlagen und klassische IR-Methoden -> Klassische Information-Retrieval-Verfahren -> Zeichenketten, Wörter und Konzepte
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
1.3.2.4Auflösen von Mehrdeutigkeiten
Polysemie, Ambiguität, Synonymie Ambiguität, Polysemie, Synonymie

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.