Titelblatt des Buchs
Reginald Ferber Information Retrieval
Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Spezialisierte und verteilte Sammlungen
Stichwörter dieser Seite Vorabveröffentlichung, Vorabdruck, Preprint, graue Literatur, FTP, arXiv.org e-Print archive, Abstract, NCSTRL, Networked Computer Science Technical Report Library, Networked Computer Science Technical Reference Library, Dienst, Metadaten, Open Archive Initiative, OAI, Santa Fe Convention, Interoperabilität, Z39.50, Dublin Core, OAI-Spezifikation, XML, Namensraum, Open Archives Metadata Harvesting Protocol
Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]

4.3.5.2: Beispiele verteilter Sammlungen

Die Chancen, die das Internet als schnelles und offenes Medium für wissenschaftliche Publikationen bietet, sind nicht erst mit der Entwicklung des WWW für die Sammlung und Verbreitung wissenschaftlicher Texte genutzt worden. Dabei ging es zunächst vor allem darum, Manuskripte schnell der Fachöffentlichkeit zur Verfügung zu stellen und die langen Wartezeiten, die bei der Veröffentlichung in Fachzeitschriften auftreten, zu vermeiden (Vorabveröffentlichung, Vorabdruck oder Preprint), und die so genannte graue Literatur, also technische Berichte, die nicht über Verlage veröffentlicht werden sollen, zugänglich zu machen.

E-Print Archive Los Alamos

Bereits in den 1980er Jahren wurden mit Hilfe von E-Mail und FTP so genannte E-Print Archive aufgebaut, in denen wissenschaftliche Manuskripte zu bestimmten Themen gesammelt wurden. Die bekannteste dieser Sammlungen ist wahrscheinlich die, die zum Thema Physik am Los Alamos National Laboratory in den USA aufgebaut wurde und jetzt als arXiv.org e-Print archive [->] an der Cornell University weitergeführt und auch für andere Fachgebiete genutzt wird. Sie enthält neben der Sammlung von Manuskripten einen Katalog mit bibliografischen Beschreibungen, die jeweils auch ein Abstract enthalten und in denen ursprünglich per E-Mail-Anfragen gesucht werden konnte.

Die Sammlung wurde aufgebaut, indem Autorinnen und Autoren ihre Manuskripte und die bibliografischen Angaben selbst in das Archiv einstellten. Um die Qualität der Sammlung zu sichern, wurde eine interessante Regel eingeführt, die aber wahrscheinlich nur in halbwegs geschlossenen Gruppen - wie eben der "Physik-Community" - funktioniert: Beim Einreichen eines Manuskripts wird nicht kontrolliert, welche Angaben die Einreichenden machen (was rein personell auch nicht zu leisten gewesen wäre), es können auch überarbeitete Versionen eingestellt werden, ein Beitrag kann aber nicht aus dem Katalog gelöscht werden. Falsche, voreilige oder übertriebene Ergebnisse werden also immer mit dem Autor oder der Autorin verknüpft bleiben. (Diese Regelung wurde eingeführt, als E-Mail-Adressen fast ausschließlich von großen Forschungseinrichtungen vergeben wurden).

Dieses System ist von der technischen Infrastruktur her keine verteilte Sammlung, da das Archiv zentral in Los Alamos aufgebaut wurde. Der Aufbau und die Pflege sind allerdings dezentral organisiert, da die Autorinnen und Autoren die Manuskripte selbst bibliografisch beschreiben und einordnen.

NCSTRL

In anderen Initiativen - wie beim oben bereits genannten Harvest-System - wurden die Sammlungen dezentralisiert in verschiedenen Institutionen aufgebaut. NCSTRL (zunächst Networked Computer Science Technical Report Library, später Networked Computer Science Technical Reference Library) ist ebenfalls ein verteiltes System, mit dem so genannte "graue" Literatur (also technische Berichte und Ähnliches) aus dem Bereich Informatik zugänglich gemacht werden soll. Die einzelnen Sammlungen werden an verschiedenen Instituten aufgebaut und gepflegt.

Dazu wurde ein in Perl programmiertes System angeboten, das die einzelnen Sammlungen, aber auch die gesamte Sammlung über das Web zugänglich macht. Das System beruht auf einem Protokoll namens Dienst und verfügt (vor allem aus Performance-Gründen) über einen zentralen Index, der an die Teilsysteme verteilt wird. Das Dienst-Protokoll sieht nur wenige Felder in der bibliografischen Beschreibung der Dokumente vor, und die Funktionalität der Implementierung beschränkt sich auf einfache boolesche Suchfunktionen. Trotzdem war das System Ende der 1990er Jahre an über 100 Institutionen im Einsatz.

Open Archive Initiative

Mit der Weiterentwicklung des Web und seiner Verwendung für den wissenschaftlichen Informationsaustausch gab es Initiativen, die verschiedenen verteilten Sammlungen von technischen Berichten und Vorabdrucken in dem Sinne zusammenzuführen, dass mit einem System gleichzeitig auf mehrere Sammlungen zugegriffen werden kann und die Metadaten der Sammlungen ausgetauscht werden können. Bei einem Treffen der Open Archive Initiative (OAI) in Santa Fe (USA) im Oktober 1999 wurde die so genannte Santa Fe Convention vereinbart, die einen Rahmen für eine solche Interoperabilität zwischen Sammlungen bzw. deren Metadatenformaten festlegte (Lagoze und Van de Sompel, 2001 [->] ). In der Folge dieses Treffens wurde aber auch von anderen Gruppen - unter anderem aus dem Bereich Archive, Museen und wissenschaftliche Bibliotheken - Interesse an diesem gemeinsamen Ansatz gezeigt. Daher entschloss sich die Initiative, ihre Zielsetzung so zu erweitern, dass auch die Interessen dieser Gruppen eingeschlossen werden konnten. Allgemein formuliert lautet es: "Die Open Archive Initiative entwickelt und fördert Austauschstandards (interoperability standards), um die effiziente Verbreitung von Inhalten zu erleichtern." Dabei wird explizit eine Lösung angestrebt, die einfach zu implementieren und anzuwenden ist. Sie soll aber nicht bereits existierende komplexere Interaktionsprotokolle wie Z39.50 (siehe Abschnitt 4.3.5.1 ) ersetzen.

Durch die Öffnung für breitere Interessengruppen mussten einige Entscheidungen aus der Santa Fe Convention, die spezifisch für Preprints und graue Literatur getroffen worden waren, revidiert werden. So wurde statt eines eigenen Metadatenschemas Dublin Core als primäre Spezifikation verwendet. Dafür können nach dem neuen Modell verschiedene Metadatensätze, die das gleiche Objekt beschreiben, parallel ausgegeben werden.

Ein Metadatensatz (item) nach der OAI-Spezifikation ist ein XML-Dokument mit mindestens zwei Top-Level-Elementen:

  • einem Header-Element, das einen in der Teilsammlung eindeutigen Bezeichner und das Datum der letzen Änderung enthält;
  • mindestens einem Element, das die eigentliche Metadatenbeschreibung enthält. Dabei muss ein Satz mit nicht qualifizierten Dublin-Core-Metadaten geliefert werden. Parallel können andere Metadatenformate angeboten werden;
  • einem optionalen "about"-Element, in dem Informationen über die Metadateneinträge wie ein Link auf den Namensraum und Angaben über das Copyright an den Metadaten angegeben werden können.
Die Metadatensätze einer Sammlung können zu Mengen zusammengefasst werden, auf die selektiv zugegriffen werden kann. OAI-Metadatensätze sollen von den verteilten Servern nach dem Open Archives Metadata Harvesting Protocol abgerufen werden können.

Dieses Protokoll sieht sechs Befehle vor, die mit den HTTP-Methoden GET und POST verschickt werden:

  • Mit GetRecord kann ein bestimmter Datensatz angefordert werden. Dabei kann über einen Parameter bestimmt werden, welche Metadatenformate mitgeliefert werden sollen.
  • Identify liefert eine Beschreibung des Servers.
  • ListIdentifier liefert eine Liste aller Bezeichner. Die Liste kann nach Datum oder den oben beschriebenen Mengen eingeschränkt werden.
  • ListRecords liefert eine Liste mit den Metadatensätzen, die wie bei den Bezeichnern eingeschränkt werden kann.
  • ListMetadataFormats liefert eine Liste der vorhandenen Metadatenformate oder der Formate eines angegebenen Records.
  • ListSets liefert eine Liste aller in einer Sammlung definierten Mengen.
Diese sehr einfachen Protokolle sind in einer Reihe von Testsammlungen implementiert worden und werden zurzeit auf ihre Brauchbarkeit getestet. Danach soll entschieden werden, ob und wie die Ziele der Initiative auf diesem Weg weiter verfolgt werden. Insbesondere soll auch geklärt werden, welchen praktischen Nutzen die Interoperabilität tatsächlich hat.

Navigation Zurück ]    [ Inhalt ]    [ Stichwörter ]    [ Feedback ]    [ Home ]
Position im Angebot Information Retrieval -> Information Retrieval und das Web -> Suche im World Wide Web -> Spezialisierte und verteilte Sammlungen
Dieser Abschnitt und seine Unterabschnitte
Inhalt Stichwörter in der Reihenfolge ihres AuftretensStichwörter alphabetisch sortiert
4.3.5.2Beispiele verteilter Sammlungen
Vorabveröffentlichung, Vorabdruck, Preprint, graue Literatur, FTP, arXiv.org e-Print archive, Abstract, NCSTRL, Networked Computer Science Technical Report Library, Networked Computer Science Technical Reference Library, Dienst, Metadaten, Open Archive Initiative, OAI, Santa Fe Convention, Interoperabilität, Z39.50, Dublin Core, OAI-Spezifikation, XML, Namensraum, Open Archives Metadata Harvesting Protocol Abstract, arXiv.org e-Print archive, Dienst, Dublin Core, FTP, graue Literatur, Interoperabilität, Metadaten, Namensraum, NCSTRL, Networked Computer Science Technical Reference Library, Networked Computer Science Technical Report Library, OAI, OAI-Spezifikation, Open Archive Initiative, Open Archives Metadata Harvesting Protocol, Preprint, Santa Fe Convention, Vorabdruck, Vorabveröffentlichung, XML, Z39.50

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.