Hierarchisch strukturierte Metadaten [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Information Retrieval und das Web -> Metadaten
Stichwörter dieser Seite	Document Like Objects, Metadaten, Learning-Object-Metadata, LOM, XML-Binding, IMS - Global Learning Consortium, computergestütztes Lernen, CBT, Computer Based Training, Blattelement, Ordinalskala, Rationalskala, Nominalskala, Ähnlichkeitsfunktion, Transliteration, Synonymmenge, Ähnlichkeitssuche, elementare Anfrage, Nominalskala, Skalenniveau, XML, Faktendatenbank
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

4.2.2: Hierarchisch strukturierte Metadaten

Während Dublin Core lediglich eine Liste von Elementen zur Beschreibung von Document Like Objects zur Verfügung stellt, gibt es Metadatenstandards, die wesentlich komplexer strukturierte Beschreibungsformate definieren. Als Beispiel soll hier die von der IEEE und anderen entwickelte Learning-Object-Metadata-Spezifikation (LOM-Spezifikation) dienen [->] . Dabei handelt es sich um eine hierarchisch strukturierte Beschreibung mit neun Top-Level-Elementen, die sich aus Unterelementen zusammensetzen, also eine Datenstruktur, wie sie durch eine DTD beschrieben wird.

Eine solche DTD (auch XML-Binding genannt) für LOM wurde vom IMS - Global Learning Consortium [->] entwickelt, einer Organisation, in der sich namhafte Interessengruppen und Software-Produzenten aus dem Bereich computergestütztes Lernen (CBT, Computer Based Training) zusammengeschlossen haben, um gemeinsame Modelle und Spezifikationen zu vereinbaren.

Abbildung 98 zeigt die neun Top-Level-Elemente und gibt jeweils eine kurze Inhaltsbeschreibung. Jedes dieser Elemente besteht aus Unterelementen, die sich ihrerseits aus weiteren Unterelementen zusammensetzen können. Die Elemente in LOM sind bis zu vier Stufen tief geschachtelt. Abbildung 99 zeigt exemplarisch einen Zweig des Baums, der von LOM definiert wird.

Abbildung 98: Die neun Top-Level-Elemente der LOM-Spezifikation

Durch diese Datenstruktur werden die Metadaten in kleine, wohl definierte Einheiten - im Folgenden wieder Blattelemente genannt - zerlegt. Diese Zerlegung ist für die maschinelle Verarbeitung der Daten wichtiger als für das Verständnis durch Menschen, da Menschen in der Regel wesentlich besser in der Lage sind, aus dem Inhalt und dem Kontext zu schließen, um welche Art von Daten es sich bei einem Eintrag handelt. So können Menschen z.B. Adressen meist in ihre Bestandteile wie Vorname, Nachname, Straße, Hausnummer, Postleitzahl, Ort, etc. zerlegen (zumindest, wenn es sich um Angaben aus einem vertrauten Land oder Kulturkreis handelt), während Maschinen im Allgemeinen eine genaue Spezifikation dieser Bestandteile brauchen, um sie zu erkennen.

Abbildung 99: Ein Zweig der LOM-Spezifikation

Für die Suche bedeutet eine solche stark strukturierte Darstellung der Einträge, dass Anfragen und Einträge in den einzelnen Blattelementen mit jeweils genau auf den Datentyp und die enthaltene Datenart abgestimmten Methoden verglichen werden können. So lassen sich Schwierigkeitsgrade z.B. auf eine Ordinalskala abbilden, die es erlaubt zu bestimmen, dass ein Kurs schwieriger ist als der andere oder als ein in einer Anfrage angegebener Grad. Kosten können auf einer Rationalskala dargestellt werden, mit der bestimmt werden kann, dass ein Kurs doppelt so teuer ist wie ein anderer. Die Kosten mehrerer Kurse lassen sich aufsummieren und es kann geprüft werden, ob die Summe einen Maximalbetrag, der in einer Anfrage angegeben ist, nicht übersteigt.

Namen von Autoren haben in der Regel nur Nominalskalenniveau, es kann also nur gesagt werden, ob sie gleich oder verschieden sind. Bei der Suche können allerdings auch hier Ähnlichkeitsfunktionen sinnvoll sein, die z.B. Schreibfehler ausgleichen oder gleich bzw. ähnlich klingende Namen (Mayer, Maier oder Meier) finden können. Ein häufiges Problem bei Namen sind auch unterschiedliche Übertragungen (Transliterationen) von Namen aus anderen Alphabeten. So wurden z.B. für den russischen Mathematiker Tschebyschew in der Literatur über 20 verschiedene Schreibweisen mit lateinischem Alphabet gefunden (von denen die hier benutzte natürlich nur eine ist). Es kann für die Suche sehr hilfreich sein, diese Schreibweisen als Synonymmengen zu betrachten.

In der Regel soll durch eine Ähnlichkeitssuche auf Namen festgestellt werden, ob zwei Namen dieselbe Person bezeichnen oder nicht. Die Ähnlichkeit der Schreibweisen gibt also allenfalls die Sicherheit an, mit der ein Name gefunden wurde, sie gibt keine Ähnlichkeit zwischen Personen an. Sie würde also sinnvollerweise in einem Ansatz verwendet, der mit unscharfen Mengen arbeitet.

Vergleiche oder Ähnlichkeiten in den einzelnen Blattelementen sind aber nur die einzelnen Bestandteile, aus denen eine komplexere Suche zusammengesetzt werden muss. Sie entsprechen den elementaren Anfragen, die in Abschnitt 1.3.1.1 über die Logik der booleschen Suche beschrieben wurden. Sie können auch in diesem Sinne verwendet werden, wenn es sich um elementare boolesche Anfragen handelt. Man kann aber auch elementare Ähnlichkeitsanfragen definieren, die entsprechend einen Ähnlichkeitswert liefern. Diese elementaren Ähnlichkeitsanfragen können zu komplexen Ähnlichkeitswerten kombiniert werden, indem sie z.B. gewichtet aufsummiert werden. Es sind aber auch komplexere Formeln oder Algorithmen möglich, mit denen z.B. ganze (in sich wiederum strukturierte) Metadatenelemente (also Teilbäume oder Äste der durch die DTD definierten hierarchischen Datenstruktur) gewichtet werden, wie sie z.B. in Abschnitt 4.1.4.4 beschrieben wurden.

In der LOM-Spezifikation sind viele der Werte der Elemente als Zeichenketten oder Auswahlen definiert. Die Einträge können in geordneten und ungeordneten Listen verknüpft werden. Bis auf die geordneten Listen sind also alle Daten auf Nominalskalenniveau definiert. Auch die von IMS entwickelte LOM-DTD geht kaum über diese Skalenniveaus hinaus, was letztlich daran liegt, dass genauere Datentypen in SGML und XML nicht vorgesehen sind und die Möglichkeiten von XML Schema noch nicht genutzt wurden. Höhere Skalenniveaus können also gegenwärtig zwar bei Zahlen oder Ordinaldaten angenommen werden, sind aber nicht Teil der LOM- oder IMS-Spezifikation. Das heißt aber auch, dass sie zwar innerhalb einer Anwendung oder Sammlung, die einheitlich gepflegt wird, verwendet werden können, dass aber, sobald es um Austauschbarkeit (Interoperabilität) zwischen Anwendungen geht, eine einheitliche Nutzung dieser höheren Skalenniveaus noch nicht vorausgesetzt werden kann.

Es zeigt sich, dass stark strukturierte Metadatenmodelle zwar enorme Möglichkeiten bieten, komplexe Suchverfahren zu definieren, sie benötigen dafür aber auch konsistente Datensammelungen, die entsprechend aufwändig zu erstellen und zu pflegen sind. Nur wenn die einzelnen Elemente mit der gleichen Semantik und Syntax verwendet werden, kommen die Vorteile der Datentyp-spezifischen Vergleichsmöglichkeiten zum Tragen. Detailliert strukturierte Metadaten sind damit näher am Konzept der Faktendatenbanken als an dem durch Vagheit bestimmten Konzept des Information Retrieval.

Anfragen, die die Strukturierung der Daten wirklich nutzen, müssen sehr spezifisch formuliert werden. Das heißt, dass entweder die Nutzenden diese Struktur selbst gut kennen müssen, oder dass Suchmaschinen den Informationsbedarf der Nutzenden entsprechend auf die Metadatenstruktur abbilden müssen. Das ist insbesondere bei unstrukturierten Anfragen, wie sie von ungeübten Nutzenden gestellt werden, häufig schwierig. In vielen Fällen sollten solche Anfragen auf viele Elemente der Metadaten angewendet werden, sodass die detaillierte Struktur in diesen Fällen nicht genutzt wird.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Information Retrieval und das Web -> Metadaten

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

4.2.2	Hierarchisch strukturierte Metadaten
Abb. 98	Die neun Top-Level-Elemente der LOM-Spezifikation
Abb. 99	Ein Zweig der LOM-Spezifikation

Document Like Objects, Metadaten, Learning-Object-Metadata, LOM, XML-Binding, IMS - Global Learning Consortium, computergestütztes Lernen, CBT, Computer Based Training, Blattelement, Ordinalskala, Rationalskala, Nominalskala, Ähnlichkeitsfunktion, Transliteration, Synonymmenge, Ähnlichkeitssuche, elementare Anfrage, Nominalskala, Skalenniveau, XML, Faktendatenbank

Ähnlichkeitsfunktion, Ähnlichkeitssuche, Blattelement, CBT, Computer Based Training, computergestütztes Lernen, Document Like Objects, elementare Anfrage, Faktendatenbank, IMS - Global Learning Consortium, Learning-Object-Metadata, LOM, Metadaten, Nominalskala, Nominalskala, Ordinalskala, Rationalskala, Skalenniveau, Synonymmenge, Transliteration, XML, XML-Binding

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.