4.3.3.1: Klassifikation des Open Directory Project
Die Weiterentwicklung der Klassifikation soll in möglichst großer
Eigenverantwortung der "Community" stattfinden. Dazu gibt es
ausführliche Dokumente mit allgemeinen Richtlinien sowie elektronische
Foren und E-Mail-Listen, um sich gegenseitig abzustimmen. Die Entscheidung
über die Einrichtung von Unterkategorien liegt aber zunächst bei
den Redakteurinnen und Redakteuren der einzelnen Klassen.
Dabei sind die Rechte nach der hierarchischen Tiefe der betreuten
Klassen gestaffelt.
Anfang 2002 hatte das ODP nach Angaben auf der Web-Seite ([->]
) 17 Top-Level-Klassen,
471 038 Kategorien,
46 117 freiwillige Redakteurinnen und Redakteure und
verzeichnete 3 200 263 Web-Angebote.
Sechzehn der Top-Level-Klassen sowie einige der darunter liegenden Klassen, die auf der
Einstiegsseite von ODP angeboten werden, sind in
Abbildung 102
angegeben. Die letzte Top-Level-Klasse heißt
Adult und erscheint nicht auf der Einstiegsseite.
Schon auf dieser Einstiegsseite kann man einige Beobachtungen zur Anwendung
von hierarchischen Klassifikationen auf das Web machen. So ist es schwierig,
ein gemeinsames Kriterium auszumachen, nach denen die Klassen gebildet sind:
Während Klassen aus traditionellen Bibliotheksklassifikationen wie Science
mit den Unterklassen Biology, Psychology, Physics
oder Computer mit den
Unterklassen Internet, Software, Hardware noch eine vergleichsweise
offensichtliche Systematik aufweisen, scheinen andere Aufteilungen eher
willkürlich, z.B. die Einordnung von Cooking unter Home und von Food
unter Recreation.
Auch dass Media unter News
zu finden ist und Television
unter Arts, erscheint nicht unbedingt zwingend. (Andererseits muss nach den Richtlinien
jeweils der ganze Pfad durch die Hierarchie berücksichtigt werden,
Television müsste also als Arts:Television gelesen werden. Ob dieses Verständnis allerdings
bei den Nutzenden vorausgesetzt werden kann und welche Angebote unter Arts:Television und
welche unter News:Media oder vielleicht Regional fallen, bleibt unklar.)
Weiter gibt es die Klasse Kids and Teens, in der Arts (also ein Klassenname
aus der obersten Hierarchiestufe) noch einmal auftritt. Berücksichtigt
man hier wieder den ganzen Klassenpfad, muss man sich fragen, woher
Nutzende am Beginn der Klassifikation - also in der ersten Hierarchiestufe -
wissen sollen, dass Kids and Teens:Arts nicht unter Arts, sondern
unter Kids and Teens zu suchen ist.
Die Klasse Regional, in der Seiten mit nur regionaler Bedeutung gesammelt sind,
rückt wieder einen anderen Aspekt in den Vordergrund, nämlich den geografischen
Ort (ohne auf dieser Ebene auf die Themen einzugehen). Schließlich werden
unter der Klasse World Seiten ausgewiesen, die nicht englischsprachig
sind (also sinnvollerweise non-English oder Rest der Welt heißen könnten).
Es werden also offensichtlich unterschiedliche Attribute oder Kriterien für die
Bildung der Klassen verwendet. Trotzdem, oder vielleicht gerade deswegen, erscheint
die Einteilung der Themen alltagstauglich - zumindest, wenn man sich etwas in die
amerikanische Sicht der Welt versetzen kann (in der offensichtlich z.B. UK und
Europe verschiedene Klassen sind).
Von einem systematischen Standpunkt aus wäre es sicherlich näher liegend,
viele der Eigenschaften als (unabhängige) Attribute im Sinne einer
Facettenklassifikation oder einer Faktendatenbank zu modellieren
(z.B. lokaler Bezug, Sprache, Zielgruppe, usw.), aber offensichtlich
wurde hier ein anderer Weg gewählt.
Über die Gründe dafür lässt sich nur
spekulieren:
- Die Baumstruktur einer hierarchischen Klassifikation lässt sich sehr gut auf
ein Angebot aus verlinkten Web-Seiten abbilden, weil sie in jeder Klasse nur eine beschränkte Auswahl zulässt und
sich die Suchenden Schritt für Schritt entscheiden können. Die
Auswahlen erscheinen intuitiv und erfordern nur eine Entscheidung, nicht
die Beschreibung in mehreren Dimensionen. Schließlich wird all das, was nicht
gefunden wird, zunächst nicht wahrgenommen.
- Dezentraler Aufbau und verteilte Pflege sind verhältnismäßig einfach, da die
Anbieter durch die Wahl der Klasse bereits die meisten Entscheidungen
getroffen haben und auch die "zuständige" Redakteurin oder der "zuständige"
Redakteure dadurch bestimmt wird. Diese müssen die Vorschläge nur noch
bestätigen - wenn sie denn halbwegs zutreffen. Es müssen nicht
zahlreiche Attribute oder Beschreibungsfelder ausgefüllt werden.
- Durch die Beteiligung von Anbietenden und Nutzenden als freiwillige
Redakteure und Redakteurinnen auf ihrem jeweiligen Spezialgebiet "wächst" eine
Klassifikation, die den Spezialgebieten und deren "durchschnittlichen" Nutzenden
angepasst ist. Beide Gruppen lernen diese Strukturierung durch die Benutzung,
gegebenenfalls kann dadurch eine "Community" entstehen.
Probleme, die sich bei diesem Ansatz ergeben, sind allerdings auch
leicht zu benennen:
Geringe Systematik erschwert guten Recall
Der intuitive und wenig systematische Aufbau der Klassifikation lässt sich
nur schwer in einen Algorithmus übersetzen; eine systematische Zuordnung anhand von
halbwegs klar definierten Attributen ist kaum möglich. Daher dürfen
die Erwartungen an den Recall bei der Suche mit diesem System nicht zu hoch
angesetzt werden. Stichproben in einigen Klassen zeigen auch, dass die
Abdeckung trotz der beeindruckenden Zahlen teilweise eher dünn ist.
Unübersichtlichkeit
Es ist nicht ohne weiteres möglich, zu einem Web-Angebot
immer eindeutig einen Weg durch die Klassifikation zu finden, zumal wenn Entscheidungen
schrittweise in den Hierarchiestufen der Klassifikation getroffen werden und nicht
Wissen über tiefer in der Hierarchie liegende Klassen vorweggenommen wird. Ein einfaches
Beispiel dafür ist wieder die Unterklasse Arts in der
Klasse Kids and Teens aus
Abbildung 102
: Weiß man nicht, dass es diese Unterklasse gibt, kann
man auf der ersten Hierarchiestufe nicht entscheiden, ob ein Kunstangebot für Kinder
unter Arts oder unter Kids and Teens zu finden ist.
Bei fast einer halben Million Klassen ist ein echter Überblick über
die Klassifikation kaum möglich. Die Anforderung aus der Definition
einer Klassifikation, dass die Themen bzw. Konzepte, die durch die Klassen
einer Ebene beschrieben werden, disjunkt sein sollten, kann kaum
überprüft werden. (Die Frage, ob die Mengen der in verschiedenen Klassen
eingetragenen Web-Angebote disjunkt sind, lässt sich technisch überprüfen, wenn man
von geschickten Täuschungsmanövern absieht. Das garantiert aber noch nicht, dass
auch die Themen oder Konzepte gut getrennt sind.)
Uneinheitliche Auszeichnung
Die sehr große Anzahl von fast 50 000 Redakteurinnen und
Redakteuren dürfte nicht dazu beitragen, dass die Klassifikation in ihren verschiedenen
Teilen sehr einheitlich ausfällt. Es ist eher zu erwarten, dass es sich um eine
Sammlung von "Inseln" handelt, die mehr oder weniger gepflegt und in sich homogen sind.
Es dürfte sich auch kaum vermeiden lassen, dass in vielen Fällen persönliche
Sichtweisen und Vorlieben die Beurteilungen gewollt oder ungewollt
beeinflussen. Solche Einflüsse gibt es auch bei professionellen Verzeichnissen;
es ist dort aber eher zu erwarten, dass sie sich als "Firmenpolitik" auf das ganze
Verzeichnis erstrecken und nicht auf einzelne Bereiche. Dadurch sind sie
leichter zu erkennen und einzuschätzen.
Aber auch wenn die redaktionell betreuten hierarchischen Verzeichnisse nicht den strengen
Maßstäben z.B. eines Bibliothekskatalogs oder einer botanischen Systematik genügen, haben sie
unbestreitbare Vorteile: Die Tatsache, dass die Web-Angebote von Menschen mit Sachkenntnis
auf dem jeweiligen Gebiet unter verschiedenen Gesichtspunkten begutachtet und auch kurz
beschrieben werden, ist eine wertvolle Einschätzung, selbst ohne die Einordnung in die Klassifikation.
Sie kann z.B. von Web-Suchmaschinen genutzt werden, um automatisch gefundene Seiten
besser einzuschätzen.
|