Dieses archiverte Projekt wird nicht mehr aktiv betreut.

... dem weissen Pferd das Träumen 
ELSA  Elektronisches Literaturarchiv  Saar-Lor-Lux-Elsass
 
 
  home projekt suche im archiv vorlass  technik   

Die informationstechnischen Grundlagen

Die Informationstechnik muss für ein elektronisches Archiv Werkzeuge für die Erfassung, Speicherung, Verwaltung und Bearbeitung der Daten sowie zum Zugriff auf die Daten durch die Archivbenutzer zur Verfügung stellen. Besondere Anforderungen ergeben sich durch den Zugang über das Worldwide Web. Im Einzelnen sind Werkzeuge zur Text-/Bild-/Tonver- bzw- -bearbeitung und -erfassung und zur Datenbankverwaltung sowie zum Arbeiten mit HTML-, XML- und verwandten Formaten erforderlich.

Textverarbeitung

Textwerkzeuge im weitesten Sinne werden eingesetzt, um Originaltexte nach dem OCR-Verfahren (optical character recognition) zu erfassen und zu überarbeiten bzw. um die verbale Beschreibung der Archivobjekte zu erfassen.

Die Beschreibung der einzelnen Objekte - seien es Texte, Bilder, Töne oder Filme - wird mit Textverarbeitungsprogrammen als unformatierter Text erfasst. Dabei werden zwei Verfahren eingesetzt: die Kodierung mit Kennzahlen bzw. die spaltenorientierte Kodierung, die beide die problemlose automatische Umsetzung in andere Formate (z.B. in eine Datenbank oder in XML-Dokumente) ermöglichen.

Beispiel "Brief"

010  hg
040  B
050  1991-06-09
055  9.6.1991
110  Gulden, Alfred
115  München
220  Bielefeld, Dr. Klaus Ulrich : SFB Abt. Kultur und Gesellschaft
225  Berlin
501
610
701
702
810  BR :
815  TY
900  AG
901
902
903
997  GUBR1990/1991-5
Legende

010  Bearbeiter
040  Ordnendes Alphabet
050  Ordnendes Datum
055  Datum Freitext
110  Absender
115  Absendeort
220  Empfänger
225  Ort des Empfängers
501  Freitext
610  Werkbezug
701  Bewertung
702  Status
810  BR
815  Textzustand
900  Besitzer des Originals
901  Bilddatei
902  OCR  Datei
903  Foto-Datei
997  Standort im Archiv
Beispiel "Materialband" (Ausschnitt)

MB_032 LH_01 002 01 DR?  E  Mundart-Gedicht 'Dau schròòa Dood'
MB_032 LH_01 002 02 HS   E  Adresse
MB_032 LH_01 002 03 SB   FK Bahnhof mit Zug / Lok (?)
MB_032 LH_01 003 01 FB   FO 'Im Licht von Claude Lorrain'
MB_032 LH_01 004 01 HS   E  Textentwurf LH 'Und so stiegen die Gedanken ... nie und nimmer' (Pastor ?)
MB_032 LH_01 004 02 SM+H E  LH Titel des Bandes: "Die Leidinger Hochzeit - Materialien"
MB_032 LH_01 004 03 SM+H E  Buchzeichen von Alfred Gulden: Ammonshorn, Mistel, Distel und der Schlehdorn
MB_032 LH_01 004 04 SB   EK Passbild von Alfred Gulden (Kopie)
MB_032 LH_01 005 01 SB   FK 'Priesterwald' (Verdun)
MB_032 LH_01 005 02 DR   FK Zeitungsausschnitt 'Verdun' (Fotomontage)
MB_032 LH_01 006 01 MS   E  Kurztext 'Kriegstagebuch (Hans Neis) + Pfeil
MB_032 LH_01 006 02 FDR  FO Bildausschnitt 'En 1ère Ligne' (Cartoon)
MB_032 LH_01 006 03 SB   FK französisches 'Schlacht-Bild' (1. Weltkrieg)
MB_032 LH_01 007 01 DR   E  Textausschnitt LH (Anfang der 'fünfteiligen Erzählung', Teil 1: S. 113)
MB_032 LH_01 008 01 SM   FE Ausschnitt aus Kriegstagebuch von Hans Neis: 'Vorfeldkämpfe auf dem Gau', Teil 1

Legende:

1. Spalte: Bandkennung: M = Materialband + lfd. Nummer;
2. Spalte: LH = Leidinger Hochzeit + lfd. Nummer innerhalb der 'Leidinger-Hochzeit'-Bände
3. Spalte: Seite im Materialband
4. Spalte: Element auf Seite
5. Spalte: Typ (DR = Druck, HS / H = Handschrift, SB = Selbst-Bild (Foto); SM = Schreibmaschine, FB = Fremd-Bild)
6. Spalte: 'Produzent': E = Eigenprodukt, F= Fremdprodukt ('O= Original', K = Kopie);
7. Spalte: kurze inhaltliche Beschreibung

Bildbearbeitung

Werkzeuge zur Bildverarbeitung werden eingesetzt, um Bild-(Foto-)Dokumente oder handschriftliche Dokumente zu erfassen, zu bearbeiten und zu speichern.

Tonbearbeitung

Für die Bearbeitung von Tondokumenten, z.B. Hörspielen, wird Tonbearbeitungssoftware eingesetzt.....

Datenbankverwaltung

Zur besseren Verarbeitbarkeit werden die erfassten Objektbeschreibungen in eine relationale Datenbank umgesetzt.....

Informationstechnische Alternativen

Die informationstechnischen Alternativen für die Realisierung von Webangeboten (HTML, XML und datenbankgestützte Ansätze) haben ihre Vor- und Nachteile, die im Folgenden kurz miteinander verglichen werden sollen.

Systemunabhängigkeit

Nur XML ist systemunabhängig. Es ist ein offenes Format, das nicht von der Systemplattform abhängt. Bei den Datenbanken muss man sich für einen Typ entscheiden (obwohl es hier natürlich Schnittstellen zwischen verschiedenen Typen gibt). HTML birgt in dieser Hinsicht einige Probleme, da nicht alle Elemente system- d.h. browserunabhängig sind.

Erweiterbarkeit

Die Sprache XML ist auf Erweiterbarkeit angelegt, HTML kann nicht individuell erweitert werden. Datenbanken sind in ihrer Struktur – wenn sie einmal angelegt sind – mit Einschränkungen erweiterbar.

Strukturierbarkeit

Informationsobjekte lassen sich mit XML und in Datenbanken inhaltlich gut strukturieren. HTML bietet nur die Möglichkeit der optischen Strukturierung. Dieser Aspekt wirkt sich besonders auf die gezielte inhaltliche Suche in strukturierten Objekten aus, d.h. XML und Datenbanken haben hier große Vorteile gegenüber HTML.

Aufwand

Mit HTML sind schnell WWW-Angebote zu erstellen, die aber dann einen relativ hohen Aufwand an Wartung erfordern. XML erfordert einen sehr hohen Anfangsaufwand (Analyse der Dokumentenmenge, Entwurf der DTDs, Erstellung / Generierung der XML-Dateien, Programmierung der Formatierungsfunktionen). Änderungen lassen sich dann relativ rasch und systematisch durchführen. Datenbanken erfordern informatisches Know-How, d.h. Entwickler müssen in Informatik geschult sein.

Ausgabe auf unterschiedliche Medien

XML-Dokumente lassen sich in die unterschiedlichsten Ausgabe- und Austauschmedien überführen, auch Datenbanken bieten hier einige Möglichkeiten. HTML-Dokumente sind in dieser Hinsicht äußerst problematisch.

Verknüpfung von Informationsobjekten

Die Verknüpfung von Dokumenten oder Dokumentteilen ist mit allen drei Alternativen leicht möglich, wobei HTML die flexibelsten und XML bzw. Datenbanken systematischere Verknüpfungsmöglichkeiten bieten.

Nutzung der Vorteile der unterschiedlichen Technologien

Ausgehend von den vorstehenden Überlegungen wurden in Abhängigkeit vom Objekttyp die Entwurfsentscheidungen für das elektronische Archiv getroffen.

DB: Datenbanken sind von Vorteil, wenn es um die Verwaltung großer Mengen gleichartiger Daten geht. Damit ist

  • die automatische Konversion von Daten mit einfachen Programmen,
  • einfache Zugriffsfunktionen über automatische erzeugte Linklisten,
  • die einfache Suche in definierten Datenfeldern
leicht möglich.

XML: Der Einsatz von XML bietet sich in erster Linie bei grossen Datenmengen an, die inhaltlich strukturiert werden müssen und die ständig erweitert und gepflegt werden sollen. Mit XML sind die flexiblere Strukturierung und eine leichtere und komplexere Verknüpfung von Elementen als in Datenbanken möglich.

HTML: Mit HTML ist die einfache Darstellung weniger strukturierter, adhoc zu verknüpfender Sachverhalte möglich.

Geplante Systemeigenschaften

Das elektronische Archiv soll nach der ersten Projektphase den folgenden Anforderungen genügen:

einfache Datenerfassung

Die bisherigen Arbeiten habe gezeigt, dass die gewählten Verfahrensweisen eine einfache Erfassung der unterschiedlichen Daten ermöglichen.

einfache Überführung der erfassten Daten in andere Formate

Am Ende der ersten Phase werden Prozeduren entwickelt sein, mit denen in Zukunft der Ausbau der Datenbanken problemlos möglich sein wird.

einfacher Zugang zu allen Funktionen über WWW-Oberfläche

Der Zugang zum Archiv über eine Website steht in einer ersten Version zur Verfügung, die entsprechend den Möglichkeiten des WWW jederzeit angepasst und ausgebaut werden kann.

Erweiterbarkeit um neue Objekt-/Dokumenttypen, Inhalte, Funktionen

Da sich die Verfahren zur Erfassung und Umsetzung für die bisher berücksichtigten Objekttypen bewährt haben, lassen sich auf ihrer Grundlage bis zum Ende dieser Projektphase Standards für die Einbettung neuer Objekttypen erstellen.

Portierbarkeit auf andere Betriebssysteme

Das ELSA-System, das derzeit unter LINUX läuft, ist jederzeit auf andere Plattformen portierbar, die die Einrichtung von Webservern mit PHP-Laufzeitumgebung erlauben.

 
Dr. Heinz-Dirk LuckhardtInformationswissenschaft
letzte Änderung: Dezember 2001  
  home projekt suche im archiv vorlass  technik