Skizze zur Entwicklung elektronischer Editionen

von Michael Nedo


Elektronische Publikationen wie sie heute als Alternative zu gedruckten Büchern von Verlagen angeboten werden, sind im wesentlichen durchsuchbare PDFs konventionell gesetzter Texte. Eine erste rein elektronische Edition war die ‚Bergen Electronic Wittgenstein Edition’, eine CD-ROM Ausgabe, entwickelt für das Betriebssystem WindowsNT die allerdings auf heutigen Rechnern bereits nicht mehr gelesen werden kann. Die heutigen Online-Portale des Wittgenstein Archivs in Bergen (Wittgenstein-Source) sowie die an der Universität München in Entwicklung befindlichen Suchwerkzeuge für diese Edition, WiTTFind, basieren auf einer digitalen-Edition die derzeit in Bergen erstellt wird, der Bergen Nachlass Edition, BNE. Ein fehlerfreier, eindeutiger und zitierfähiger Gebrauch dieser Online-Portale ist derzeit jedoch nur eingeschränkt gewährleistet. Gründe hierfür sind zum einen die Komplexität der Schriften Wittgensteins, vor allem aber das Editionsmodell der BNE: Komplexe Strukturen wie die der Manuskripte Wittgensteins in diesem Editionsmodell abzubilden führt unweigerlich zu komplizierten und idiosynkratrischen Lösungen die nur schwer interdisziplinär zu bearbeiten und zu benutzen sind und deshalb zu Interpretations­und Suchfehlern in den Online-Portalen führen.

Der erste Einsatz der Computertechnologie im Bereich der Philologie reicht zurück in das Jahr 1946, also in eine Zeit in der die hierfür notwendigen Computersysteme noch nicht zur Verfügung standen: Pater Roberto Busa war überzeugt, daß er seinen Index Thomisticus mit Hilfe der Lochkarten-Technologie in nur vier Jahren erstellen könnte was sonst ein halbes Jahrhundert dauern würde. Es hat dann doch 40 Jahre gedauert, trotz der massiven Unterstützung durch die IBM und dem Einsatz der damals leistungsstärksten Computer und modernster Computertechnologien. Mit dieser gigantischen Arbeit wurde Roberto Busa de facto zum Pionier und Begründer der „digitalen Geisteswissenschaften“ und bereits 1998 spekulierte er über die Möglichkeiten des World Wide Web für elektronische Editionen. Eine Web-Basierte Version seines Index Thomisticus erschien 2005.

Die ersten, mit elektronischen Mitteln erstellten Nachfolgeprojekte in der Philologie waren: 1966 die Metrik-Analysen lateinischer Hexameter von Wilhelm Ott, am Rechenzentrum der Universität Tübingen, auf der die noch heute verwendete Editionssoftware TUSTEP basiert, 1970 bis 1975 die Kierkegaard Indices von Alastair MacKinnon und 1975 die Concordance to Wittgenstein’s Philosophische Untersuchungen von Hans Kaal und Alastair MacKinnon; mein Konzept für eine Wittgenstein Gesamtausgabe aus dem Jahre 1972 war das erste Projekt einer rein elektronischen Edition.

Ich war, und bin nach wie vor überzeugt, daß es nur in einer elektronischen Edition möglich sein würde die vielfältigen und überaus komplexen Beziehungen innerhalb von Wittgensteins Werk zu erschließen, die formalen und graphischen Darstellungen zu erfassen, die Wittgenstein wie Worte in seinen Sätzen gebraucht sowie das an Hölderlin erinnernde Aufbrechen seiner Sätze in eine Art Mehrstimmigkeit. Führende Experten im Bereich der Computerwissenschaft erklärten mir damals, so wünschenswert und richtig ein solches Vorhaben auch sei, daß dies auf der Basis der existierenden Computertechnologie zu unseren Lebzeiten wohl nicht möglich sein würde. Ich bin bei meinem Konzept geblieben und die Entwicklung von Computer Hard-und Software war dann doch rascher als von den Experten vorhergesagt.

Für die Erfassung der Quellen habe ich ein System mnemonischer Markierungen entwickelt, in einer Struktur abgeleitet aus der Schaltalgebra auf der Basis von Markov Ketten der Bool’schen Algebra. Damals wie heute war und bin ich der Überzeugung, daß sich die Kriterien und die Werkzeuge für die Erfassung schriftlichen Kulturerbes, für dessen Archivierung, Edition und Verbreitung allein aus den Texten herleiten sollen und nicht durch das bestimmt werden was die Computerwissenschaft an Möglichkeiten zur Verfügung stellt.

Nachdem ein erheblicher Teil der Wittgenstein-Texte in maschinenlesbare Form übertragen war zeigte sich, daß die Qualität des Korrekturlesens in diesem Format äußerst mangelhaft war und somit auch die korrekte Abbildung der Texte. Experimente dies zu verbessern zeigten, daß die Qualität des Korrekturlesens, und damit auch der Zugang zu und das Verständnis von einem Text, abhängig sind von der typographischen Qualität in der ein Text gelesen wird. Aufgrund dieser Erfahrung habe ich mich entschieden, die elektronische durch eine gedruckte Edition, durch die Wiener Ausgabe zu ergänzen und zu erweitern.

Zugang zu und Verständnis von einem Text ist im gedruckten Buch nach wie vor unübertroffen und deshalb ist es auch nur über die typographische Realisierung möglich die Richtigkeit einer Übertragung eines Textes in ein elektronisches Format zu überprüfen: die typographische Realisierung ist der ultimative und unverzichtbare Test dafür, ob eine Textquelle korrekt und vollständig erfasst wurde, unabhängig davon ob der Text am Ende auch gedruckt wird oder allein elektronisch bzw. im Internet zur Verfügung steht.

Zudem ist es nur in der relativen Stabilität einer typographischen Realisierung möglich einen Text zuverlässig zu strukturieren, vergleichbar den Siglen in einer Bibliothek, und nur ein Text-Korpus welcher bis auf die Zeichenebene stabil und eindeutig strukturiert ist erlaubt eine vernünftige und zuverlässige Anwendung von elektronischen Such-und Sortiermaschinen.

Eine weitere, äußerst wichtige Konsequenz aus der Erfahrung elektronische Textdaten in eine typographische Gestalt zu übertragen war, daß nur das ediert und typographisch repräsentiert werden kann was man verstanden hat, also die Textgestalt und nicht, womit ich meine Arbeit begonnen hatte und was noch immer die Grundlage der meisten digitalen Editionen ist, die visuelle Gestalt. Diese Information wird in Form von Metadaten erfasst welche eineindeutig von außen auf den Text weisen.

Die Zahl elektronisch erstellter Editionen ist seit dieser Zeit rasant angewachsen aber trotz der offenkundigen Vorteile für die Editionswissenschaften sind derzeitige digitale Text-Daten im besonderen in Bezug auf Langlebigkeit und Kollationierbarkeit dem Gedruckten unterlegen. Thematisiert werden diese Probleme seit geraumer Zeit in den USA als "Digital Dark Ages II: When the Digital Data Die", in England als "Bit Rot, The World is Losing its Ability to Reconstruct History” und in Deutschland als "Digitales Vergessen": Eine wachsende Anzahl digitaler Editionen ist heute bereits nicht mehr lesbar, entweder in der Folge geänderter Computerarchitektur, von Betriebssystemen und/oder Software, und das geschieht heute alle 14 Jahre, oder weil die Mittel für den Betrieb der entsprechenden Server gestrichen wurden.

Zur Sicherung von Interoperabilität zwischen der rasch wachsenden Zahl weitgehend idiosynkratischer Computereditionen wurden 1988, als Standard für die Transkription literarischer und wissenschaftlicher Texte sowie anderer Textformen, die "Text Encoding Initiative Guidelines" etabliert. Diese sollen die Austauschbarkeit digitaler Editionen auf der Auszeichnungsebene garantieren. Der vom TEI-Konsortium adaptierte Industriestandart XML soll die Texte auf der Zeichenebene austauschbar machen und langfristig sichern. Beide Ziele wurden nicht erreicht:

Das Auszeichnungssystem TEI ist ein nach oben offenes System in welchem Editoren ihre Auszeichnungen auf ihre Texte optimieren, und das bedeutet, daß TEI-Editionen de facto nicht interoperabel sind, also das Desiderat der Austauschbarkeit auf der Auszeichnungsebene nicht erfüllen. Darüberhinaus lassen sich Informationen zur wissenschaftlichen Texterschließung sowie Textergänzungen nicht standardisieren, wie zum Beispiel Informationen zur visuellen Gestalt der Quellen, zu Klassifizierungen, Textbeschreibungen, Interpretationen und Kommentare sowie biographische Informationen und solche, die einen Text in seinen weiteren kulturhistorischen Kontext einbetten. Informationen dieser Art dürfen auch nicht – wie in den TEI Guidelines vorgesehen – in den Text selbst eingebettet werden da sie diesen überfrachten und letztlich unleserlich machen; vielmehr müssen sie als Metadaten in einer ein-eindeutigen Form von außen auf den Text weisen.  
Der Industriestandard XML sichert eine gewisse Langlebigkeit und in seinem Datenmodell, der Baumstruktur, lassen sich auch einfache, lineare und eindimensionale Texte eindeutig und interoperabel auf der Zeichenebene abbilden; für die Abbildung nicht linearer und hierarchischer Texte ist diese Struktur jedoch nicht geeignet. Der wesentliche Grund hierfür ist, daß in einer Baumstruktur ein Knoten immer nur auf einem einzigen Weg erreicht werden kann was bedeutet, daß jeder Versuch nicht lineare und mehrfach-hierarchische Texte in der Baumstruktur von XML abzubilden unweigerlich zu hoch-komplexen und damit ambivalenten Kodierungen führt, die zudem durch Metadaten ergänzt werden müssen. Derartige Daten lassen sich nicht mehr eindeutig ausmultiplizieren, d.h. sie erlauben keine eindeutige Auflösung eines Textes in seine varianten Bestandteile – die wesentliche Voraussetzung für jeden sinnvollen Einsatz von Such-und Sortiermaschinen.
Das heute wohl größte Problem für Editoren und Philologen ist aber die Belastung ihrer Arbeit durch fachfremde, computer-und softwarebedingte Strukturen welche die Qualität der Arbeit erheblich beeinträchtigen. Der Verlust der Unmittelbarkeit von Papier und Bleistift sowie die für den Philologen weitgehend unlesbaren XML-TEI Daten sind nicht akzeptabel: daß zum Lesen von in XML-TEI erfasster Texte Computerexperten notwendig sind; daß XML-TEI Editionen mit einem Verfallsdatum versehen sind; daß sie nicht wie die guten alten Bücher vergleichend gelesen und kollationiert werden können; daß diese Daten nicht interoperabel sind.

Wesentliche Werke schriftlichen Kulturerbes werden auch in Zukunft als gedruckte Bücher erscheinen, denn der Zugang zu und das Verständnis von einem Text ist in dieser Form nach wie vor unübertroffen. Der Wert und die Brauchbarkeit gedruckter Bücher kann allerdings durch begleitende Apparate, besonders durch elektronische mit ihren weit größeren Möglichkeiten erheblich gesteigert werden. Beide Editionsformen bedingen einander: Die Buchedition der Werke Wittgensteins, die Wiener Ausgabe wäre ohne elektronische Textverarbeitung nicht möglich gewesen und ebensowenig sind die sie begleitenden elektronischen Apparate ohne der stabilen Textstruktur des gedruckten Buches nicht möglich.     
Die notwendigen Voraussetzungen für die Erstellung vernünftiger und brauchbarer Computer-Editionen sind:

die Entwicklung von Benutzeroberflächen von der Unmittelbarkeit von Papier und Bleistift: a) die Entwicklung einer Struktur vergleichbar dem Papier auf dem letztlich ein jeder Gedanke ausgedrückt werden kann und b) die Entwicklung von Computer-Schnittstellen über die der Editor sich weitgehend unbelastet von textfremden Strukturen ganz auf die Erfassung seiner Quellen konzentrieren kann;

  1. die Entwicklung von Computerwerkzeugen und Darstellungsformen, die einen transkribierten Text zur Überprüfung der Richtigkeit und Vollständigkeit der Transkription automatisch in seine Text-Varianten auflösen;  
  2. eine Darstellung der transkribierten Texte zur Sicherung und Archivierung die – anders als XML-TEI-Dateien – auch für den Editor lesbar sind;  
  3. die Erarbeitung von Strukturen in der Textdaten langfristig und interoperabel archiviert und zur Verfügung gestellt werden, in der sie, dem Buch vergleichbar, kollationiert und vergleichend gelesen werden können;
  4. die Entwicklung von sachgemäßen Such-, Sortier-und Kollationier-Werkzeugen wie sie von Geistes-und Editionswissenschaftlern und von den Endnutzern digitaler Editionen benötigt werden.
Klassische Ansicht