| |||||||||||||
3.5.6: Gewichtungsmethoden LernenIn Abschnitt 1.3.6.3 über die Gewichtung von Termen im Dokumentvektor wurden lokale Einflussfaktoren wie der Dokumentteil (Titel, Abstract) genannt, die benutzt werden können, um Terme oder Attribute eines Dokuments für die Darstellung im Vektorraummodell zu gewichten. Dabei war allerdings nicht näher beschrieben worden, wie die Gewichtung ermittelt werden soll. Dazu kann man z.B. induktive Lernmethoden verwenden. Als Beispiel soll hier der so genannte
Darmstädter Indexierungsansatz (Darmstadt Indexing
Approach)
DIA erwähnt werden. Dort wurde
zusätzlich zum Auftreten die Art und Weise, wie ein
Term in einem Dokument auftritt,
erhoben.
Das kann z.B. die Häufigkeit des Auftretens im Dokument,
die Stelle des Auftretens (z.B. Titel, Stichwortverzeichnis oder Abstract) oder eine
Kombination solcher Angaben sein. Allgemein kann man die
Auftrittsform
(bei Fuhr und Buckley (1991) [->]
relevance description genannt)
als ein Attribut
Ai:D->Ri
formulieren, in das auch weitere Informationen über
den Term und das Dokument einfließen können, wie die Länge des Dokuments oder
die Häufigkeit des Terms in der Dokumentensammlung. Die meisten Eigenschaften eines Terms, die
dabei verwendet werden, hängen nicht von seiner Bedeutung ab, sondern können allgemein erhoben
werden. Werden nur solche Eigenschaften verwendet, kann man die Auftrittsform als Funktion des
Dokuments
d
i,j
{1,...,n}
gilt. Das heißt, man abstrahiert von den einzelnen Termen und erhebt
nur die Auftrittsform. Die verschiedenen Ausprägungen der Auftrittsform,
also die Werte aus
R
, können dann als Basis für die Gewichtung
des Terms im Dokumentvektor verwendet werden.
Weiter kann man die verschiedenen Bedingungen, die in der Beschreibung der Auftrittsform verwendet werden, auch als separate Attribute auffassen, die dann z.B. die Häufigkeit, mit der ein Term im Dokument auftritt, den Ort, an dem er auftritt, oder die Anzahl der Dokumente in der Sammlung, in denen er auftritt, einzeln beschreiben. Sie können bei der Berechnung der Gewichtung eines Terms in unterschiedlichem Maße beitragen. Der jeweilige Einfluss dieser Auftrittsformen kann mit verschiedenen Methoden bestimmt werden. Wenn Trainingsdaten zur Verfügung stehen, können z.B. Machine-Learning-Verfahren verwendet werden.
| |||||||||||||
| |||||||||||||
| |||||||||||||
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.