6.1:
Korpusbasierte Verfahren
Während die oben beschriebenen Ansätze Wissen über
die Sprache oder gemeinsames Auftreten in einzelnen Dokumenten verwenden
um ähnliche Terme zu finden, kann man auch versuchen, solches
Wissen aus großen Textsammlungen oder Korpora zu gewinnen. Eine
Gruppe solcher Ansätze, die Abhängigkeit zwischen Termen
allgemeiner zu bestimmen und zu nutzen, sind Modelle, die mit
Kookurrenzdaten arbeiten. Unter
Kookurrenzdaten versteht man
dabei Häufigkeitsdaten über das gemeinsame Auftreten von
Termen (oder allgemeiner Attributwerten) in grossen Text- oder
Beispielsammlungen. Kookurrenzdaten können damit als
Spezialfälle der im Data Mining definierten assoziativen Regeln
über binären Attributen die das Auftreten eines Terms
beschreiben, gesehen werden, bei denen auf der linken Seite nur ein
Attribut steht. Diese Daten sagen zunächst allerdings nur aus, wie
oft zwei Terme zusammen auftreten. Sie sagen nichts darüber aus, ob
das gemeinsame Auftreten zufällig ist oder nicht. Um das zu
bestimmen, müssen die Häufigkeiten des gemeinsamen Auftretens
mit den Dokumenthäufigkeiten der Terme in Beziehung gesetzt werden.
Kookurrenzdaten werden i. a. nicht benutzt um die Wahrscheinlichkeiten
aus dem Modell des probabilistischen Retrieval oder bei Inferenznetzen
zu berechnen, sondern um Ähnlichkeitsmaße zwischen Termen zu
berechnen (wie sie schon beim Imaging verwendet wurden).
© 2000 / HTML-Version 14. 1. 2000: R. Ferber