4.1.4: Suche nach und in XML-Dokumenten
Mit XML wird ein System geschaffen, mit dem viele
und vergleichsweise gut dokumentierte Daten über die (interne) Struktur von Dokumenten und
Datensätzen zur Verfügung gestellt werden können. Prinzipiell können solche Daten
zur Verbesserung der Suche nach Dokumenten genutzt werden. Es bleibt aber
zu untersuchen, wie weit das mit den bisher vorhandenen und geplanten Mitteln
möglich und realistisch ist.
Die Dokumentstruktur kann bei der Suche - wie wiederholt erwähnt - verwendet werden, um
einzelne Terme oder Teile eines Dokuments im Vektorraummodell zu gewichten.
Dazu ist die reine Baumstruktur, wie sie zunächst von XML geliefert wird, allerdings
nur bedingt hilfreich. Was benötigt wird, ist die Semantik der XML-Elemente,
also das Wissen, welchen Inhalt ein Element hat, und ein Konzept, wie diese Inhalte z.B. in
einem Dokumentvektor gewichtet werden sollen.
Eine weitere Frage ist, auf welchen Hierarchiestufen XML-Elemente sinnvoll
für die Suche genutzt werden können.
Bei einigen Elementen scheint das verhältnismäßig klar: Sinnvoll
erscheinen einige Elemente auf der Wortebene wie Autoren und Autorinnen, Indexterme für das
Stichwortverzeichnis oder Überschriften und Ankertexte.
Wieweit aber Einteilungen auf hoher Ebene, also Elemente mit vielen Unterelementen wie
Teile oder Kapitel eines längeren Dokuments, sinnvoll für die Gewichtung in Dokumentvektoren
genutzt werden können, ist zunächst unklar. Sie können aber genutzt werden, um - bei langen
Dokumenten - einzelne Teile wie Kapitel als Ergebnis einer Suche zu spezifizieren.
Am einfachsten erscheint die Nutzung von Dokumentstrukturen für die Suche,
wenn für eine ganze Sammlung nur eine DTD mit einer
einheitlichen Semantik für alle Dokumente verwendet wird, wie es in
HTML getan wurde. Die Entwicklung der Anwendung von HTML hat aber auch gezeigt, dass
nicht davon ausgegangen werden kann, dass eine solche Semantik von den Autorinnen und Autoren
der Web-Dokumente auch
einheitlich verwendet wird (siehe Abschnitt 4.3.1
).
|
| Dieser Abschnitt und seine Unterabschnitte |
| Inhalt |
Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert |
|
Metadaten, Vektorraummodell, Dokumentvektor, Indexterm, textuelle Indexierung, flat-file indexing, Feldindexierung, field-based indexing, Dokumentvektor, Fakten-Retrieval, IR/DB indexing, Faktendatenbank, Strukturindexierung, structured indexing, Pfadindexierung, path-based indexing, positionsbasierte Indexierung, position-based indexing, invertierte Liste, invertierte Liste, Vektorraummodell, labeled node, SGML, Attribut, sub-tree, Teilbaum, Ast, logisches Dokument, strukturierte Terme, Einbettung, Auftreten eines strukturierten Terms, Stichwort, Dokumentvektor, Termhäufigkeit, Dokumenthäufigkeit, TF-IDF, Bottom-up, Cosinus-Maß, Trainingsmenge |
Ast, Attribut, Auftreten eines strukturierten Terms, Bottom-up, Cosinus-Maß, Dokumenthäufigkeit, Dokumentvektor, Dokumentvektor, Dokumentvektor, Einbettung, Fakten-Retrieval, Faktendatenbank, Feldindexierung, field-based indexing, flat-file indexing, Indexterm, invertierte Liste, invertierte Liste, IR/DB indexing, labeled node, logisches Dokument, Metadaten, path-based indexing, Pfadindexierung, position-based indexing, positionsbasierte Indexierung, SGML, Stichwort, structured indexing, strukturierte Terme, Strukturindexierung, sub-tree, Teilbaum, Termhäufigkeit, textuelle Indexierung, TF-IDF, Trainingsmenge, Vektorraummodell, Vektorraummodell |
|