1.3.2: Zeichenketten, Wörter und Konzepte
Im vorigen Abschnitt wurden Terme als Zeichenketten definiert, die nach bestimmten
Regeln ausgewählt werden. Dieser Ansatz bietet eine
gewisse Flexibilität in Bezug auf verschiedene Formen eines Worts.
So kann durch Trunkierung am Wortende eine ganze Reihe von
verschiedenen Formen eines Worts zusammengefasst werden.
Diese Möglichkeiten beschränken sich allerdings auf Wörter, deren
Schreibweise eine solche Erfassung verschiedener Formen zulässt.
In Abbildung 13
ist ein Beispiel angegeben, bei dem ein solcher Versuch misslungen ist.
Dieses Beispiel aus einer psychologischen Literaturdatenbank zeigt
den Versuch, über die Verwendung von Zeichenketten eine bestimmte
Gruppe von Dokumenten zu erfassen (bzw. auszuschließen),
nämlich solche, in denen es um Untersuchungen mit Tieren geht.
Für einen Leser oder eine Leserin ist das eine
verhältnismäßig einfache Aufgabe. Sie setzt allerdings
voraus, dass die Texte gelesen und zu einem gewissen Grad verstanden
werden und dass allgemeines Wissen über Tiere und Experimente mit
Tieren vorhanden ist, das genutzt werden kann, um die gelesenen Texte so
weit wie möglich zu interpretieren. Denn selbst wenn Lesende die
genannte Tierart und die Versuchsanordnung nicht kennen, werden sie
im Allgemeinen in der Lage sein zu entscheiden, ob es sich um einen
Artikel über Untersuchungen an Tieren handelt oder nicht.
Diese Möglichkeit, zusätzliches Wissen zu nutzen, um Anfragen zu
beantworten, bietet ein boolesches Retrieval-System, das mit dem
Vergleich von Zeichenketten arbeitet, zunächst nicht. Im obigen
Beispiel wurde versucht, das auszugleichen, indem Bezeichner für
Tiere, die häufig in psychologischen Experimenten verwendet werden,
gesammelt wurden und damit quasi ein Konzept "Versuchstier"
konstruiert wurde. Probleme, die sich dabei ergeben, können
exemplarisch als Motivation für die im Folgenden behandelten
Ansätze genommen werden.
In Zeile 6 aus Abbildung 13
wurde versucht, verschiedene
Wortformen zusammenzufassen. Bei Cat, Dog
etc. sollte das erreicht werden, indem durch die Trunkierung ein
mögliches Plural-"S" mit erfasst werden sollte. Dabei
wurden allerdings (vermutlich unbeabsichtigt) viele weitere Terme mit
ausgewählt. Bei Mouse und Mice versagt
das Trunkierungsverfahren, weil sich der Stamm des Worts beim
Übergang zur Mehrzahl ändert. In den Zeilen 3, 4 und 5 wurde
versucht, mit einer Systematik zu arbeiten, indem Oberbegriffe
(Vertebrates, Invertebrates,
Animal) verwendet wurden. Dabei zeigt sich, dass die
Begriffe Vertebrates und Invertebrates
zusammen seltener vorkommen als Animal. Ähnliches
lässt sich auch für die Zeilen 5 und 6 beobachten: Obwohl der
Begriff Animal ein Oberbegriff der in Zeile 6
aufgelisteten Tiere ist, ist die Zahl der Treffer in Zeile 5 wesentlich
kleiner. (In beiden Fällen könnten die Unterschiede in der
Anzahl der Treffer auch an den speziellen Formulierungen der Anfragen
liegen, also z.B. daran, dass in den Zeilen 3 und 4 nur im
kontrollierten Vokabular (CT = Controlled Terms)
gesucht wurde, oder
daran, dass in Zeile 6 durch die Trunkierungen neben den Tierbezeichnungen auch
andere Wörter gefunden wurden. Wie weit diese Erklärungen
zutreffen, lässt sich im Nachhinein nicht entscheiden.)
Insgesamt zeigt das Beispiel, dass sich das sprachliche und
faktische Wissen, das Menschen die richtige Zuordnung beim Lesen
erlaubt, nur schwer durch Regeln auf der Ebene von Zeichenketten
ersetzen lässt, wenn es darum geht, Inhalte vergleichbar zu
machen.
Es gibt verschiedene Ansätze,
dieses Problem der Vergleichbarkeit von
Inhalten durch geeignete Repräsentationen
anzugehen. Grundsätzlich kann man zwei verschiedene
Herangehensweisen unterscheiden:
- Versuche, die natürliche Sprache so zu repräsentieren und zu verarbeiten,
dass inhaltliche Ähnlichkeiten erkennbar werden;
- Versuche, die zulässigen Mittel zur inhaltlichen Beschreibung so
einzuschränken, dass sie Ähnlichkeiten abbilden.
Ansätze der ersten Art werden im folgenden Abschnitt
behandelt. Die Abschnitte über Klassifikationen (1.3.3
),
Thesauren (1.3.4
) und semantische Netze (1.3.5
)
behandeln Ansätze der zweiten Art.
Diese Form der Reduktion ist im Englischen
verhältnismäßig erfolgreich, weil die Wörter sich
in der Sprache wenig ändern, d.h. wenige Flexionsformen besitzen.
Zudem gibt es wenig zusammengesetzte Wörter. Im Deutschen sieht das
ganz anders aus. Hier lassen sich solche Regeln nicht erfolgreich
konstruieren und anwenden. Deshalb muss auf lexikonbasierte Verfahren
zurückgegriffen werden.
|