4.2.2: Hierarchisch strukturierte Metadaten
Während Dublin Core lediglich eine Liste von Elementen zur Beschreibung von Document Like Objects
zur Verfügung stellt, gibt es Metadatenstandards, die wesentlich komplexer strukturierte
Beschreibungsformate definieren. Als Beispiel soll hier die
von der IEEE und anderen entwickelte
Learning-Object-Metadata-Spezifikation
(LOM-Spezifikation) dienen
[->]
. Dabei handelt es sich um eine hierarchisch strukturierte
Beschreibung mit neun Top-Level-Elementen, die sich aus Unterelementen zusammensetzen,
also eine Datenstruktur, wie sie durch eine DTD beschrieben wird.
Eine solche DTD (auch XML-Binding genannt) für LOM wurde vom
IMS - Global Learning Consortium
[->]
entwickelt, einer Organisation, in der
sich namhafte Interessengruppen und Software-Produzenten aus dem Bereich
computergestütztes Lernen
(CBT, Computer Based Training)
zusammengeschlossen haben, um gemeinsame Modelle und Spezifikationen zu vereinbaren.
Abbildung 98
zeigt die neun Top-Level-Elemente und gibt jeweils eine
kurze Inhaltsbeschreibung. Jedes dieser Elemente besteht aus Unterelementen,
die sich ihrerseits aus weiteren Unterelementen zusammensetzen können.
Die Elemente in LOM sind bis zu vier Stufen tief geschachtelt. Abbildung 99
zeigt exemplarisch
einen Zweig des Baums, der von LOM definiert wird.
Durch diese Datenstruktur werden die Metadaten in kleine, wohl definierte Einheiten - im Folgenden wieder
Blattelemente
genannt - zerlegt. Diese Zerlegung ist für die maschinelle Verarbeitung der Daten
wichtiger als für das Verständnis durch Menschen, da Menschen in der Regel wesentlich besser
in der Lage sind, aus dem Inhalt und dem Kontext zu schließen, um welche Art von Daten es sich
bei einem Eintrag handelt. So können Menschen z.B. Adressen meist in ihre Bestandteile
wie Vorname, Nachname, Straße, Hausnummer, Postleitzahl, Ort, etc. zerlegen (zumindest,
wenn es sich um Angaben aus einem vertrauten Land oder Kulturkreis handelt), während
Maschinen im Allgemeinen eine genaue Spezifikation dieser Bestandteile brauchen, um sie
zu erkennen.
Für die Suche bedeutet eine solche stark strukturierte Darstellung der Einträge, dass
Anfragen und Einträge in den einzelnen Blattelementen mit jeweils genau auf den
Datentyp und die enthaltene Datenart abgestimmten Methoden verglichen werden können.
So lassen sich Schwierigkeitsgrade z.B. auf eine
Ordinalskala abbilden,
die es erlaubt zu bestimmen, dass ein Kurs schwieriger
ist als der andere oder als ein in einer Anfrage angegebener Grad.
Kosten können auf einer Rationalskala dargestellt werden, mit der
bestimmt werden kann, dass ein Kurs doppelt so teuer ist wie ein anderer. Die Kosten
mehrerer Kurse lassen sich aufsummieren und es kann geprüft werden, ob die Summe einen Maximalbetrag,
der in einer Anfrage angegeben ist, nicht übersteigt.
Namen von Autoren haben in der Regel nur Nominalskalenniveau, es kann also nur gesagt
werden, ob sie gleich oder verschieden sind.
Bei der Suche können allerdings auch hier Ähnlichkeitsfunktionen sinnvoll sein,
die z.B. Schreibfehler ausgleichen oder gleich bzw. ähnlich klingende Namen
(Mayer, Maier oder Meier) finden können.
Ein häufiges Problem bei Namen sind auch unterschiedliche
Übertragungen (Transliterationen) von Namen aus anderen Alphabeten.
So wurden z.B. für den russischen Mathematiker Tschebyschew in der Literatur über 20
verschiedene Schreibweisen mit lateinischem Alphabet gefunden (von denen die hier
benutzte natürlich nur eine ist). Es kann für die Suche sehr hilfreich sein, diese Schreibweisen
als Synonymmengen zu betrachten.
In der Regel soll durch eine Ähnlichkeitssuche auf Namen festgestellt werden, ob zwei Namen dieselbe
Person bezeichnen oder nicht. Die Ähnlichkeit der Schreibweisen gibt also
allenfalls die Sicherheit an, mit der ein Name gefunden wurde, sie gibt keine Ähnlichkeit
zwischen Personen an. Sie würde also sinnvollerweise in einem Ansatz verwendet, der mit unscharfen
Mengen arbeitet.
Vergleiche oder Ähnlichkeiten in den einzelnen Blattelementen sind aber nur die einzelnen
Bestandteile, aus denen eine komplexere Suche zusammengesetzt werden muss. Sie entsprechen
den elementaren Anfragen,
die in Abschnitt 1.3.1.1
über die
Logik der booleschen Suche beschrieben wurden. Sie können auch in diesem Sinne verwendet
werden, wenn es sich um elementare boolesche Anfragen handelt. Man kann aber auch elementare
Ähnlichkeitsanfragen definieren, die entsprechend einen Ähnlichkeitswert liefern. Diese
elementaren Ähnlichkeitsanfragen können zu komplexen Ähnlichkeitswerten kombiniert werden,
indem sie z.B. gewichtet aufsummiert werden. Es sind aber auch komplexere Formeln oder
Algorithmen möglich, mit denen z.B. ganze (in sich wiederum strukturierte) Metadatenelemente
(also Teilbäume oder Äste der durch die DTD definierten hierarchischen Datenstruktur) gewichtet
werden, wie sie z.B. in Abschnitt 4.1.4.4
beschrieben wurden.
In der LOM-Spezifikation sind viele der Werte der Elemente als Zeichenketten oder Auswahlen
definiert. Die Einträge können in geordneten und ungeordneten
Listen verknüpft werden. Bis auf die geordneten Listen sind also alle Daten auf Nominalskalenniveau
definiert. Auch die von IMS entwickelte LOM-DTD geht kaum über diese Skalenniveaus hinaus,
was letztlich daran liegt, dass genauere Datentypen in SGML und XML nicht vorgesehen sind und die
Möglichkeiten von XML Schema noch nicht genutzt wurden.
Höhere Skalenniveaus können also gegenwärtig zwar bei Zahlen oder Ordinaldaten angenommen werden, sind
aber nicht Teil der LOM- oder IMS-Spezifikation. Das heißt aber auch, dass sie zwar innerhalb einer
Anwendung oder Sammlung, die einheitlich gepflegt wird, verwendet werden können, dass aber, sobald es
um Austauschbarkeit (Interoperabilität) zwischen Anwendungen geht, eine einheitliche Nutzung dieser
höheren Skalenniveaus noch nicht vorausgesetzt werden kann.
Es zeigt sich, dass stark strukturierte Metadatenmodelle zwar enorme Möglichkeiten bieten,
komplexe Suchverfahren zu definieren, sie benötigen dafür aber auch konsistente
Datensammelungen, die entsprechend aufwändig zu erstellen und zu pflegen sind.
Nur wenn die einzelnen Elemente mit der gleichen Semantik und
Syntax verwendet werden, kommen die Vorteile der Datentyp-spezifischen Vergleichsmöglichkeiten
zum Tragen. Detailliert strukturierte Metadaten sind damit näher am Konzept der Faktendatenbanken
als an dem durch Vagheit bestimmten Konzept des Information Retrieval.
Anfragen, die die Strukturierung der Daten wirklich nutzen, müssen sehr spezifisch formuliert werden.
Das heißt, dass entweder die
Nutzenden diese Struktur selbst gut kennen müssen, oder dass Suchmaschinen den Informationsbedarf
der Nutzenden entsprechend auf die Metadatenstruktur abbilden müssen. Das ist insbesondere
bei unstrukturierten Anfragen, wie sie von ungeübten Nutzenden gestellt werden, häufig schwierig.
In vielen Fällen sollten solche Anfragen auf viele Elemente der Metadaten angewendet werden,
sodass die detaillierte Struktur in diesen Fällen nicht genutzt wird.
|