zurück zu ELSA 
Workshop
 Alfred Gulden  "Mit allen Mitteln"
   Archivmaterialien im Internet
 
  home der workshop das programm die referenten die beiträge   

Der ELSA-Prototyp aus informationstechnischer Sicht

Heinz-Dirk Luckhardt

Ausgangslage

    State of the Art

    (Elektronisches)Rohmaterial

    Motivation für die Informationswissenschaft

Informationstechnische Alternativen

Geplante Systemeigenschaften

Die ELSA-Website

Ausgangslage

State of the Art, eigene Vorarbeiten

Das WWW als Informations- und Kommunikationsmedium

In den knapp 10 Jahren seines Bestehens hat sich das World Wide Web zu einem universell verfügbaren, unüberschaubar großen Informations- und Kommunikationssystem entwickelt. Diese Entwicklung schließt ständige große Veränderungen in der Nutzung und bei den Nutzern, in Aussehen, Inhalten, technischen Grundlagen usw. ein,  praktisch in Bezug auf alle Aspekte und Komponenten.

  • Stand der Entwicklung des WWW im Jahre 2000: Schlagwort „Content!“

Waren es noch zu Beginn in erster Linie einzelne engagierte Universitätsangehörige, die praktisch ohne Auftrag,  fasziniert von den sich abzeichnenden Möglichkeiten des neuen Mediums sie selbst interessierende Inhalte ins WWW brachten, so sind es heute Wirtschaftsunternehmen, die das WWW „übernommen“ haben. Das Engagement Einzelner kann sicher nicht Aufbau und Bestand eines universellen, sich ständig fortentwickelnden Informationssystems garantieren. Und so sind neue Vorgaben, Modelle, Methoden, Kooperationsstrukturen und Verfahrensweisen nötig, um diesem Zweig des Elektronischen Publizierens auf Dauer zum Erfolg zu verhelfen. Im Bereich der Bibliotheken gibt es hier schon richtungsweisende Entwicklungen, z.B. hier an der Saarländischen Universitäts- und Landesbibliothek das Saarbrücker Online-Volltextarchiv SOVA .

  • Einstieg in das Gebiet der elektronischen Online-Archive

Die Fachrichtung Informationswissenschaft hat in den letzten drei Jahren einige Vorarbeiten geleistet, deren Ergebnisse im Projekt ELSA genutzt werden können.

         Seminar 1999/2000: Terminologie-Datenbank T-REX (Terminosaurus Rex)

Das Besondere an T-REX ist der datenbankgestützte Ansatz, der es ermöglicht, große Mengen strukturierter Daten zu speichern und auf verschiedenen Wegen verfügbar zu machen. Hier handelt es sich um einige hundert informationswissenschaftliche Fachbegriffe mit Definitionen, Literaturverweisen, einem Begriffsnetz und interessanten Beiträgen im WWW.

        zwei Seminare 1998/99 zum Werk von Alfred Gulden: HTML-Projekte, Werkschau als Datenbank

Hauptziel der Seminare mit und über Alfred Gulden war es, die Möglichkeiten des WWW für die Darstellung verschiedener künstlerischen Ausdrucksformen (Roman, Lyrik, Film, Kurzgeschichte ...) auszuloten. Herausgekommen ist eine Sammlung von Darstellungen, die über die Gulden-Website im WWW zugänglich ist. Das Besondere – im Hinblick auf die Verwertung der Ergebnisse in ELSA – war die individuelle Gestaltung von Webangeboten mihilfe der HTML-Technologie und besonderer Gestaltungstechniken (Javascript, Flash, Shockwave), aber auch ein datenbankgestütztes Verzeichnis der Werke Guldens.

        Seminar 2000/01 über Friedrich Nietzsche: Annäherung an die XML-Welt

Schließlich möchte ich noch das Nietzsche-Seminar aus dem Wintersemester 2000/2001 nennen, das sich die Erstellung eines Online-Angebots über Friedrich Nietzsche mit Hilfe der XML-Technologie zur Aufgabe gemacht hat. Sie sehen den Ausschnitt einer Webseite, die den Zugang zu häufig gestellten Fragen (und Antworten dazu) über eine Schlagwortliste bietet. Die Anwendung der XML-Technologie bietet sich hier an, weil damit die inhaltliche Strukturierung und die detaillierte Verknüpfung von „Informationsobjekten“ (Briefen, Texten, Personenbeschreibungen, Frage und Antwort etc.) in idealer Weise möglich ist.

  • Verfügbare Technologien: HTML, XML, Datenbank-Ansatz

Die drei genannten Beispielprojekte repräsentieren also die wichtigsten im WWW eingesetzten Technologien HTML, XML und Datenbank, die im Projekt ELSA auf ihre Tauglichkeit im Bereich „elektronisches Archiv“ überprüft werden.

(Elektronisches) Rohmaterial

Der Output des ersten Arbeitsgangs, die bibliographische Erfassung und das Scannen der Archivobjekte, stellt das Rohmaterial für das Online-Archiv dar. Um welche Objekte es sich handelt, wird im Beitrag von Hermann Gaetje erläutert.

  • Große Mengen gleich strukturierter Objektbeschreibungen

Es sind zum einen die Objektbeschreibungen, die nach vorgegebenen Mustern bzw. Formularen erfaßt werden.

  • Strukturierte, verknüpfbare Texte (z.B. Briefe)

Zum anderen sind dies die durch Scannen, OCR (= optical character recognition) bzw. von Hand erfassten Texte (Briefe, Sekundärliteratur) und die von anderen Medien in digitale Objekte umgewandelten Archivobjekte (Bilder, Fotos, Tondateien, Videos).

Motive der Informationswissenschaft

Für die Informationswissenschaft ist das Projekt ELSA aus verschiedenen Gründen von großem Interesse.

  • Analyse, Planung, Entwicklung unterschiedlicher Informationssysteme

Die Arbeit von Informationswissenschaftlern kann man sich als die von Informationsarchitekten vorstellen, deren Aufgabe die Planung und Entwicklung der unterschiedlichsten Informationssysteme ist. Wie der Bau eines Hauses ist auch die Entwicklung eines Informationssystems eine so komplexe Aufgabe und erfordert so viele unterschiedliche Kompetenzen, dass die wichtigste Aufgabe vor allem in der Koordinierung der Arbeiten liegt. Jedes neue Informationssystem und jeder neue Typus „Informationssystem“ bietet neue Herausforderungen.

  • Erprobung neuer Informationstechnologien

Im Bereich Forschung und Entwicklung ist vor allem die Erprobung neuer Informationstechnologien von Interesse. Die drei geschilderten Technologien sind alle noch so neu und entwickeln sich ständig so rasch fort, dass ihre Anwendung auf neue Aufgaben eine Daueraufgabe der Informationswissenschaft ist.

  • Benutzungs- und Bedarfsanalyse: redundante Zugangsmöglichkeiten

Im Mittelpunkt des informationswissenschaftlichen Interesses hat immer der Mensch als Nutzer von Informationssystemen gestanden. Das bedeutet, dass ein besonderes Augenmerk auf der Benutzbarkeit der zu entwickelnden Systeme liegt. „Redundante“ Zugangsmöglichkeiten heisst hier, dass die Systembenutzer unterschiedliche, also individuelle Wege zur Information verfolgen können, im Sinne von „Viele Wege führen nach Rom“.

  • Information Retrieval: Suchen und Finden in großen Datenmengen

Traditionell liegt ein Hauptaugenmerk der informationswissenschaftlichen Arbeit auf Verfahren der Informationssuche in großen Datensammlungen. Es hängt von den Voraussetzungen der Informationssuchenden ab, welche Verfahren eingesetzt werden können:

Wenn ein Informationssuchender seine Frage nicht präzise formulieren kann oder sich einen Überblick über das vorhandene Material verschaffen möchte, bietet sich die Suche in geordneten Listen an. Diese enthalten die Beschreibungen der Archivobjekte, nach Typ geordnet, und verweisen auf die mit ihnen verbundenen elektronisch erfassten Texte, Bilder, Tonaufnahmen etc.>

Die XML-Technologie bietet optimale Voraussetzungen für die Verbindung strukturierter Texte zu einem Netz. Der Vorteil für die Nutzung liegt darin, dass die Suche nach Informationen auf bestimmte Suchräume eingeengt werden und gleichzeitig die Nachbarschaft von Dokumenten dargestellt und ausgenutzt werden kann, z.B. die Relation zwischen Briefen (Vorgänger, Nachfolger, erster Brief eines ganzen Briefwechsels ...).

Wenn ein Informationssuchender einen präzisen Suchbegriff nennen kann, bietet sich die Stichwortsuche an, die den Suchbegriff in bestimmten Textfeldern der Datenbank sucht und die Dokumente nennt, die den Begriff enthalten (vgl. die Beiträge zu Information Retrieval und zur Indexierung im Online-Handbuch der Informationswissenschaft). Diese Fragestellung ist insofern außerordentlich komplex, als die Suchfunktion gleichzeitig sehr einfach zu bedienen und sehr leistungsstark sein soll. Auf der einen Seite soll sie die Möglichkeit bieten, die Suchanfrage detailliert zu spezifizieren, also möglichst genau das inhaltliche Profile der gesuchten Dokumente anzugeben, auf der anderen Seite muss die Suchfunktion auch für Laien verständlich sein, was in der Regel nur die Eingabe einfacher Suchbegriffe erlaubt. Diesem Aspekt wird im Projekt noch durch eine Aufspaltung der Suchfunktion in eine einfache und eine komplexe Funktion Rechnung getragen werden.

Eine andere wichtige Frage ist die, inwiefern Stichwörter geeignet sind, den Inhalt eines Dokument zu beschreiben: soll man nicht eher mit Schlagwörtern - also normierten Bezeichnungen - arbeiten, anstatt nur mit Wörtern aus dem Text (Stichwörtern), mit allen bekannten Problemen durch Synonymie und Homonymie? In dieser ersten Projektphase lässt sich sich diese Frage nur damit beantworten, dass eine Beschreibung der Objekte mit (vorgegebenen) Schlagwörtern weit über die Möglichkeiten des Projekts hinausgehen.

Neben den traditionellen Retrievalmöglichkeiten ist die Idee eines thematischen Netzes entstanden, das eines der Werkzeuge sein könnte, um das Archivmaterial zu durchsuchen. Dies gründet darauf, dass sich bei dem Autor Gulden verschiedene wiederkehrende Motive finden (Grenze, Welt und Winkel, Identität und Distanz ...). Für das Thema „Grenze“ ist der Versuch gemacht worden, relevante Dokumente zu einem Netz zu verbinden und über eine zunächst noch primitive Schnittstelle zugänglich zu machen.

Informationstechnische Alternativen

Die informationstechnischen Alternativen haben ihre Vor- und Nachteile, die im Folgenden kurz miteinander verglichen werden sollen.

Systemunabhängigkeit

Nur XML ist systemunabhängig. Es ist ein offenes Format, das nicht von der Systemplattform abhängt. Bei den Datenbanken muss man sich für einen Typ entscheiden (obwohl es hier natürlich Schnittstellen zwischen verschiedenen Typen gibt). HTML birgt in dieser Hinsicht einige Probleme, da nicht alle Elemente system- d.h. browserunabhängig sind.

Erweiterbarkeit

XML ist auf Erweiterbarkeit angelegt, HTML kann nicht individuell erweitert werden. Datenbanken sind in ihrer Struktur – wenn sie einmal angelegt sind – mit Einschränkungen erweiterbar.

Strukturierbarkeit

Informationsobjekte lassen sich mit XML und in Datenbanken inhaltlich gut strukturieren. HTML bietet nur die Möglichkeit der optischen Strukturierung. Dieser Aspekt wirkt sich besonders auf die gezielte inhaltliche Suche in strukturierten Objekten aus, d.h. XML und Datenbanken haben hier große Vorteile gegenüber HTML.

Aufwand

Mit HTML sind schnell WWW-Angebote zu erstellen, die aber dann einen relativ hohen Aufwand an Wartung erfordern. XML erfordert einen sehr hohen Anfangsaufwand (Analyse der Dokumentenmenge, Entwurf der DTDs, Erstellung / Generierung der XML-Dateien, Programmierung der Formatierungsfunktionen). Änderungen lassen sich dann relativ rasch und systematisch durchführen. Datenbanken erfordern informatisches Know-How, d.h. Entwickler müssen in Informatik geschult sein.

Ausgabe auf unterschiedliche Medien

XML-Dokumente lassen sich in die unterschiedlichsten Ausgabe- und Austauschmedien überführen, auch Datenbanken bieten hier einige Möglichkeiten. HTML-Dokumente sind in dieser Hinsicht äußerst problematisch.

Verknüpfung von Informationsobjekten

Die Verknüpfung von Dokumenten oder Dokumentteilen ist mit allen drei Alternativen leicht möglich, wobei HTML die flexibelsten und XML bzw. Datenbanken systematischere Verknüpfungsmöglichkeiten bieten.

Nutzung der Vorteile der unterschiedlichen Technologien

Ausgehend von den vorstehenden Überlegungen wurden in Abhängigkeit vom Objekttyp die Entwurfsentscheidungen für das elektronische Archiv getroffen.

DB: Datenbanken sind von Vorteil, wenn es um die Verwaltung großer Mengen gleichartiger Daten geht. Damit ist

  • die automatische Konversion von Daten mit einfachen Programmen,
  • einfache Zugriffsfunktionen über automatische erzeugte Linklisten,
  • die einfache Suche in definierten Datenfeldern

leicht möglich.

XML: Der Einsatz von XML bietet sich in erster Linie bei grossen Datenmengen an, die inhaltlich strukturiert werden müssen und die ständig erweitert und gepflegt werden sollen. Mit XML sind die flexiblere Strukturierung und eine leichtere und komplexere Verknüpfung von Elementen als in Datenbanken möglich.

HTML: Mit HTML ist die einfache Darstellung weniger strukturierter, adhoc zu verknüpfender Sachverhalte möglich.

Geplante Systemeigenschaften

Das elektronische Archiv soll nach der ersten Projektphase den folgenden Anforderungen genügen:

einfache Datenerfassung

Die bisherigen Arbeiten habe gezeigt, dass die gewählten Verfahrensweisen eine einfache Erfassung der unterschiedlichen Daten ermöglichen.

einfache Überführung der erfassten Daten in andere Formate

Am Ende der ersten Phase werden Prozeduren entwickelt sein, mit denen in Zukunft der Ausbau der Datenbanken problemlos möglich sein wird.

einfacher Zugang zu allen Funktionen über WWW-Oberfläche

Der Zugang zum Archiv über eine Website steht in einer ersten Version zur Verfügung, die entsprechend den Möglichkeiten des WWW jederzeit angepasst und ausgebaut werden kann.

Erweiterbarkeit um neue Objekt-/Dokumenttypen, Inhalte, Funktionen

Da sich die Verfahren zur Erfassung und Umsetzung für die bisher berücksichtigten Objekttypen bewährt haben, lassen sich auf ihrer Grundlage bis zum Ende dieser Projektphase Standards für die Einbettung neuer Objekttypen erstellen.

Portierbarkeit auf andere Betriebssysteme

Das ELSA-System, das derzeit unter LINUX läuft, ist jederzeit auf andere Plattformen portierbar, die die Einrichtung von Webservern mit PHP-Laufzeitumgebung erlauben.

Die ELSA-Website

Die Eingangsseite: ein Blick ins Archiv

Das ELSA-Archiv empfängt die Besucher auf der Begrüßungsseite mit einer Photographie aus dem Archiv, die Alfred Gulden bei den Vorarbeiten zu seinem Roman „Die Leidinger Hochzeit“ aufgenommen hat. Die Entscheidung für dieses Photo hat das Design der gesamten Website beeinflusst, da aus ihm die identitätsstiftende Farbgebung abgeleitet wurde, d.h. alle Farben entstammen dem Bild. Diese Vorgehensweise, d.h. die besondere Hervorhebung eines einzelnen Archivobjekts bzw. eines besonderen Motivs, ist sicher diskussionswürdig, lässt sich aber auch bei anderen Archiven beobachten.

Die Systemfunktionen

Nach wenigen Sekunden wird man auf die Inhaltsseite geleitet, von der aus alle Systemfunktionen erreicht werden. Neben Informationen über das Projekt, den Vorlass Alfred Guldens und den technischen Hintergrund ist hier auch die eigentliche Funktion der Website erreichbar, nämlich die Suche im elektronischen Archiv.

Die Suchfunktionen

Von den vier Suchfunktionen wurden die ersten beiden datenbankgestützt, die dritte mit XML und die vierte mit HTML realisiert.

Suche in Listen von Objekten (Bestandsübersicht)

Die Objektlisten, ihre Inhaltsverzeichnisse und die Verweise auf digitalisierte Objekte wie Texte oder Bilder werden aus der Datebank dynamisch erzeugt.

Suche nach bestimmten Wörtern in allen Objektbeschreibungen

Bei der Stichwortsuche kann über ein Suchformular ein zu suchendes Wort eingegeben werden. Die Suche erfolgt nicht im Volltext, sondern in den Kurzbeschreibungen der Objekte.

Suche nach strukturierten/vernetzten Objekten (Briefen)

Für einen Ausschnitt der Briefsammlung wurde eine XML-Anwendung erstellt, die exemplarisch die Möglichkeiten von XML zeigt: die inhaltliche Strukturierung von Objekten und ihre Verknüpfbarkeit mit anderen Objekten/Objektbeschreibungen.

Stöbern in einem thematischen Netz

Die Idee eines thematischen Netzes wurde für das Thema „Grenze“ anhand einiger Texte bzw. Archivmaterialien über dieses Thema realisiert.

 
Kontakt: Dr. Heinz-Dirk LuckhardtInformationswissenschaft
 
  home der workshop das programm die referenten die beiträge