4.1.1: Standard Generalized Markup Language (SGML)
SGML ist
ein internationaler Standard, mit dem Texte
systemunabhängig und strukturiert repräsentiert werden
können. Genauer genommen definiert
SGML eine Metasprache,
mit der ein Auszeichnungssystem oder eine
Auszeichnungssprache
(markup language)
definiert werden kann. Mit dieser
Auszeichnungssprache können Texte nach vorgegebenen
Regeln zusammengesetzt werden. Dadurch folgen sie einer vorgegebenen Struktur.
SGML zeichnet sich dabei durch drei Eigenschaften aus:
- Es ist deskriptiv: Dokumente werden dadurch gegliedert, dass sie
in Teile (Elemente genannt) zerlegt werden, denen
ein vordefinierter Name und damit ein vordefinierter
Typ zugewiesen wird.
- Es arbeitet mit Typdefinitionen, die in einer Document
Type Definition (DTD) spezifiziert werden.
In der DTD werden Dokumenttypen und damit die zulässigen Namen sowie die
Verschachtelung der darin definierten Elemente (Teile) festgelegt. Dokumente,
die einer gegebenen DTD genügen, können dann mit einem
entsprechenden Parser verarbeitet und (zumindest bis zu einem gewissen
Grad) interpretiert werden.
- Durch einen wohl definierten Ersetzungsmechanismus
können SGML-Dokumente einfach an lokale Zeichensätze angepasst werden, ohne dass in den
Dokumenten selbst Änderungen vorgenommen werden müssen. Mit dem Datenformat können daher
maschinenunabhängige Dokumente geschrieben werden.
SGML-Dokumentdefinitionen können dazu genutzt werden, Texte
nach einem gemeinsamen System zu strukturieren und damit den
inhaltlichen Zugang zu erleichtern. So gibt es seit ca. 1987 die
Text Encoding Initiative
(TEI) [->]
, ein internationales Projekt,
das Richtlinien und Austauschformate für Texte für die
sprachwissenschaftliche Forschung ausarbeitet.
Von der TEI wurde eine umfangreiche SGML DTD entwickelt.
1994 erschien die erste Ausgabe der Richtlinien für
die Auszeichnung, ein zweibändiges Werk mit ca. 1 300 Seiten.
Andere SGML-Einsatzgebiete sind z.B. die Strukturierung von Handbüchern und
Bedienungsanleitungen oder die Standardisierung von Austauschformaten für
Agenturmeldungen. Aber auch das Format von Einträgen in Literaturdatenbanken oder
Metadaten (siehe Kapitel 4.2
) kann durch DTDs definiert werden.
SGML kann auch genutzt werden, um Dokumente für den
Druck zu formatieren. Dabei sollte aber vor allem die logische Struktur
dargestellt werden. So wurde z.B. das Skript, auf dem dieses Buch basiert,
mit einem SGML-basierten Editor geschrieben. Dieser Editor teilt ein Dokument vom
Typ book in drei Elemente auf:
front-matter, body und
rear-matter. In body steht der
eigentliche Text des Skripts. Er wird in Elemente vom Typ
part eingeteilt, die wiederum in
chapter und weiter in sections
unterteilt werden. Zu jedem dieser Elemente gibt es ein
Überschriftelement, das am Anfang des Elements stehen kann (aber
nicht muss). Aus diesen Überschriftelementen kann automatisch ein
Inhaltsverzeichnis zusammengestellt werden. Es kann z.B. im Element
front-matter gedruckt werden (dazu muss die
SGML-Datei zweimal gelesen werden). Weiter können beliebige Textteile
als indexterm gekennzeichnet werden. Aus diesen
Textteilen kann ein Stichwortverzeichnis zusammengestellt werden.
|
| Dieser Abschnitt und seine Unterabschnitte |
| Inhalt |
Stichwörter in der Reihenfolge ihres Auftretens | Stichwörter alphabetisch sortiert |
|
SGML, Auszeichnungssystem, Auszeichnungssprache, markup language, Elemente, Document
Type Definition, DTD, Tag, Attribut, Verbindungszeichen, group connector, minimalization
rules, omissable, optional, Inhaltsmodell, content model, occurrence indicator, Inclusion, Exclusion, Attribut, Attribut-Wert-Paar, Link, Text Encoding Initiative, TEI |
Attribut, Attribut, Attribut-Wert-Paar, Auszeichnungssprache, Auszeichnungssystem, content model, Document
Type Definition, DTD, Elemente, Exclusion, group connector, Inclusion, Inhaltsmodell, Link, markup language, minimalization
rules, occurrence indicator, omissable, optional, SGML, Tag, TEI, Text Encoding Initiative, Verbindungszeichen |
|