Unspektakulär klingt die Aufgabe nur auf den ersten Blick: Eine Datenbank für die literaturwissenschaftliche Forschung will ein Team aus den Fachbereichen Literaturwissenschaften, Computerlinguistik und Informatik der Universität Stuttgart aufbauen, das Science Data Center for Literature (SDC4Lit). Denn die Wissenschaftlerinnen und Wissenschaftler sehen darin eine Chance für ihre zukünftige Arbeit: „Der große Reiz liegt darin, dass man versucht, Forschung und Infrastruktur zusammenzudenken und zu verbinden“, erklärt Sandra Richter, Leiterin des DLA und Professorin für Neuere Deutsche Literatur an der Uni Stuttgart. „Die eigentlich entscheidende Frage ist: In welcher Form und mit welchen Daten soll Literatur aufgenommen werden, damit man mit ihr arbeiten kann? Diese Frage hat man sich zwar schon immer gestellt. Unter den Bedingungen der Digitalität gelingt es jetzt, sehr präzise Antworten darauf zu geben.“
27. Apr 2021
HLRS-Projekte
Digitale Geisteswissenschaften
Datenmanagement
Alle Nachrichten
Weil literarische Werke mittlerweile am Computer entstehen und digital publiziert werden, soll SDC4Lit eine Plattform bieten, diese zu erforschen. Sie muss Texte zunächst erfassen und archivieren. Forschende sollen diese dann mit intelligenten digitalen Werkzeugen auswerten können. Und die Ergebnisse sollen über SDC4Lit für Wissenschaft und Öffentlichkeit zugänglich gemacht werden. Das Land Baden-Württemberg fördert das Vorhaben mit 1,8 Millionen Euro.
„Im Idealfall speichern wir Texte als voll durchsuchbare Dokumente. Und dann ist die Frage, welche Daten man dazu aufnimmt“, erklärt Richter. Das gehe weit über Publikationsort, Jahr und Verfasser hinaus. Etwa bei Autorinnen und Autoren im Exil könnte man wissen wollen: Welche Geschichte hat der Text? Wo kommt er her? Was hat er bei einer Auktion gekostet? Diese Metadaten über einen Text lassen sich im Digitalen umfangreicher archivieren als früher in den Karteikarten der Bibliotheken. „Die Daten könnte man stetig erweitern, sodass Forschende damit arbeiten und aus den Metadaten eigene Analysen generieren können“, so Richter. Zum Beispiel: „Was lässt sich zur Provenienz eines Textes sagen? Wie sieht es bei anderen, ähnlich gestalteten Texten aus? Kann man daraus allgemeinere Schlüsse ziehen?“ Je größer die Corpora seien, desto weiter könnten diese Fragen reichen.
Inzwischen habe man die Software und die Speicherformen ausgewählt, berichtet die Forscherin über den Stand des 2019 gestarteten SDC4Lit. „Wir können mit dem Einpflegen der Texte beginnen.“ Bis zum Projektende 2023 soll es darum gehen, Konzepte zum Arbeiten mit den Texten auszuprobieren und umzusetzen. „Dabei agieren wir teilweise in völligem Neuland“, betont Prof. Michael Resch, Leiter des Höchstleistungsrechenzentrums Stuttgart (HLRS) und des Instituts für Höchstleistungsrechnen der Universität. Denn Literaturdaten unterschieden sich von den technischen, mit denen das HLRS üblicherweise arbeite.
Eine neue virtuelle Datenbank für die Literaturwissenschaft wird die Sammlung des Deutschen Literaturarchivs erweitern. Foto: Wikimedia Commons.
„Wenn ich über eine Strömungssimulation oder Ähnliches rede, geht es meistens um technische Parameter, die in der Forschergemeinschaft schon über eine sehr lange Zeit standardisiert sind“, so Resch. „Wenn wir über reine Bibliothekswissenschaften sprechen würden, wäre das in der Literatur ähnlich. Aber wir digitalisieren ja keine Bücher, sondern wir wollen einen kreativen Prozess abbilden, der sich nicht an standardisierten Normen orientiert.“ Reschs Team steuert die Methodik bei, digitale Daten für die nächsten 20, 30 oder 40 Jahre zu speichern, sowie das Know-how, wie man mit Informationen umgeht.
Wie dieses Neuland aussieht, erklärt Resch am Beispiel der Entstehungsgeschichte von Literatur: „Im DLA können Sie sich zum Beispiel die Originalmanuskripte von Franz Kafka ansehen. Hier sieht man, dass er ein Wort durchgestrichen und durch ein anderes ersetzt hat.“ Wenn Literatur im Digitalen entstehe, habe man einen unendlichen Veränderungsprozess vor sich, bei dem der Autor, die Autorin jeden Tag hingehen und das Werk verändern könne. „Hier geht es darum, einen kreativen Prozess zu erfassen und etwas daraus abzuleiten, was ich beim nächsten kreativen Prozess nutzen kann.“
Dass DLA und HLRS Partner im SDC4Lit sind, darin sieht Richter einen großen Vorteil: „Beide Einrichtungen sind in der Lage, solche Infrastrukturen langfristig zu hosten und der Forschung die Daten zur Verfügung zu stellen, die dann damit arbeiten kann.“ Ähnliches sei in den Projekten der Nationalen Forschungsdateninfrastruktur (NFDI) geplant. Die NFDI soll die Daten der gesamten deutschen Geisteswissenschaften erschließen, vernetzen und dauerhaft nutzbar machen. Zu Beginn fördert die Deutsche Forschungsgemeinschaft diese Projekte, langfristig sollen sie eigenständig weiterlaufen. Im Konsortium „Text+“ bewerben sich um diese Förderung derzeit die großen deutschen geisteswissenschaftlichen Institute. Sie wollen Sprach- und Textdaten von Sammlungen, Editionen und lexikalischen Ressourcen digitalisieren. „Vorstellbar wäre es, das SDC4Lit hier miteinzubringen“, sagt Richter. Ebenso könnte das DLA später seine Bestände in das NFDI-Projekt einspeisen. „Das DLA unterhält eine der bedeutendsten Bibliotheken für deutschsprachige Literatur und Literaturwissenschaft. Wenn die digitale Entwicklung sehr schnell weiterläuft und zum Teil Analoges ersetzt, müssen wir vorhalten, was wir vorhalten können. Natürlich sind die Ressourcen endlich, aber im Grunde umfasst unser Auftrag just diesen Bereich – und damit auch alles, was im Digitalen entsteht.“
— Daniel Völpel
Dieser Artikel wurde erstmals in der März-Ausgabe 2021 von "forschung leben", dem Magazin der Universität Stuttgart, veröffentlicht. Wiederveröffentlichung mit Genehmigung.