Vom Wert digitaler Tondokumente für die historische Forschung

Vom Wert digitaler Tondokumente für die historische Forschung

Organisatoren
Collegium Carolinum, München; Graduiertenschule für Ost- und Südosteuropastudien München/Regensburg
Ort
München
Land
Deutschland
Vom - Bis
11.02.2016 -
Url der Konferenzwebsite
Von
Johannes Gleixner / Arpine Maniero, Digital Humanities, Collegium Carolinum, München

Was sind „Forschungsdaten“? Handelt es sich nur um einen weiteren naturwissenschaftlichen Begriff, der ohne Rücksicht auf seinen Entstehungszusammenhang nun auch in die Geisteswissenschaften getragen wird? Oder sprechen wir doch von einem Gegenstand der Forschung, dessen Bedeutung in Zeiten wachsender Datenmengen – eben auch in den Geisteswissenschaften – noch nicht eindeutig erkannt wurde. Bezeichnet man damit jenes Kollateralmaterial der Forschung, das nach dem Abschluss von Dissertationen, Habilitationen und Forschungsprojekten nun ebenfalls publizistisch verwertet werden muss? Oder sind vielmehr neue Konzepte beim Entwurf von Forschungsprojekten gefragt?

Diese rege Debatte wird durch die immer präziseren Auflagen großer Förderinstitutionen zum Umgang mit solchen Daten zusätzlich vorangetrieben. Besondere Schwierigkeiten zeigen sich dabei im Umgang mit Audiodaten. Diese sind in der historischen Forschung verbreitet, werden aber längst nicht so systematisch beachtet wie in anderen Disziplinen, insbesondere den mit empirischer Datenerhebung stärker vertrauten Sozialwissenschaften.

Um diese Problematik zu diskutieren, veranstaltete das Collegium Carolinum gemeinsam mit der Graduiertenschule für Ost- und Südosteuropastudien am 11.02.2016 den Workshop „Vom Wert digitaler Tondokumente für die historische Forschung“, der bereits im Vorfeld großes Interesse erregte. Ziel war es, herauszufinden, was in der historischen Forschung hinsichtlich digitaler Tondokumente technisch möglich, was rechtlich erlaubt und was von Förderinstitutionen gewünscht ist. Dazu sollte auch die Perspektive verwandter Fachdisziplinen auf vergleichbare Daten berücksichtigt werden.

Wie schwer diese Fragen auf einmal zu beantworten sind, machten die Veranstalter, ARPINE MANIERO (München) und JOHANNES GLEIXNER (München) in Ihrer Einführung deutlich: So sei die Rechtslage bei der Publikation audiovisueller Forschungsdaten insofern unbefriedigend, als die Forscher – abgesehen von restriktiven, in der Praxis aber insuffizienten Lösungen – keine klare Handreichung haben. Außerdem könne man in der Praxis der historischen Forschung nach wie vor nur selten eine Wirkung der zahlreichen Angebote und Möglichkeiten zum Datenmanagement feststellen.

Die Position der Deutschen Forschungsgemeinschaft präzisierte im ersten Vortrag STEFAN WINKLER-NEES (Bonn), der auf die laufende Debatte um Forschungsdaten verwies. Die etablierten und funktionierenden Definitionen aus den Naturwissenschaften seien auf die Forschungspraxis der Geisteswissenschaften nicht ohne Weiteres übertragbar. Diese Frage könne aber nicht die DFG zentral lösen, vielmehr seien die einzelnen Disziplinen gefragt, passende Lösungen zu entwickeln. Deren Fachkollegien entschieden schließlich auch über die Förderwürdigkeit von Forschung. Ebenso wie die inhaltliche Begutachtung erfolge schließlich auch die Überprüfung des Umgangs mit Forschungsdaten nach den Regeln der eigenen Disziplin.

Winkler-Nees betonte weiterhin die Notwendigkeit, auf der politischen wie der fachwissenschaftlichen Ebene ein Bewusstsein für digitale Forschungsinfrastrukturen zu schaffen. Gewinnbringend, aber auch notwendig sei die enge Zusammenarbeit zwischen den jeweiligen Disziplinen und der Fachinformatik, aber auch die Kooperationen mit den vorhandenen Forschungsinfrastrukturen, wie etwa dem Serviceprojekt Informationsinfrastruktur (INF)1, das in Freiburg entwickelt wird. Solche Kooperationen zeigten auch, dass gegenwärtig nicht mehr der Aufbau einer Informationsdatenstruktur, als vielmehr die Weiterentwicklung des Bestehenden und die Vermeidung von Parallelentwicklungen ins Zentrum rücke. Als eines der in diesem Bereich vorhandenen Desiderate betonte er aber auch die fehlende institutionelle Finanzierung von digitalen Forschungsinfrastrukturen, ganz im Unterschied zu den institutseigenen Bibliotheken, für die im Normalfall ein festes Budget vorgesehen sei.

Die DFG als Institution könne hier nur Empfehlungen aussprechen, wie etwa im Positionspapier der AG Forschungsdaten der Allianz der Wissenschaftsorganisationen. Diese Vorgaben könnten aber nur als Rahmen dienen. Hinsichtlich der Förderlinien unterstrich Winkler-Nees, dass die Förderpraxis klar zwischen Datenmanagement (Infrastrukturförderung) und Datennutzung (Sachförderung) unterscheide, wobei IT-Projekte eher in die erste und wissenschaftliche in die zweite Kategorie fallen. In jedem Fall sei es schon heute sinnvoll, einen Datenmanagementplan bei Projektanträgen zu berücksichtigen bzw. entsprechende Kooperationen mit Informationsstrukturbetreibern rechtzeitig zu bedenken.

Daraus lässt sich der vorläufige Schluss ziehen, dass der mit Forschungsdaten planende Forscher im Moment sowohl Rahmenförderbedingungen, die einen Datenmanagementplan nahelegen, als auch die möglicherweise abweichende Reaktion der eigenen disziplinären Zunft, berücksichtigen muss. Im Gegensatz zu Linguisten und Sozialwissenschaftlern befinden sich die historischen Wissenschaften also erst am Beginn einer Übergangsphase. In absehbarer Zeit könnte die Vorlage von Datenmanagementplänen zum unumgänglichen Standard werden.

Im Anschluss sprach THOMAS SCHMIDT (Mannheim), der am Institut für deutsche Sprache (IDS) den Programmbereich „Mündliche Korpora“ leitet, über den Stand der Entwicklung am „Archiv für gesprochenes Deutsch“ (AGD)2. Die dort entwickelte Datenbank für gesprochenes Deutsch (DGD) stellt eine Korpusplattform dar, deren Audiodaten mit einem Text-Ton-Alignement versehen werden, sodass die Anzeige die abgespielten Audiodaten „mitliest“. Über DGD werden diese Daten der wissenschaftlichen Öffentlichkeit verfügbar gemacht. Die umfangreiche Datenbank des Instituts nutzen, so Schmidt, mittlerweile etwa 5000 registrierte Nutzer – Studierende wie Wissenschaftler – aus unterschiedlichen Fachrichtungen. Obwohl sich die im AGD befindenden Materialien vor allem für die linguistische Forschung eignen, wurde anhand der demonstrierten Beispiele deutlich, dass die mit völlig anderen Fragestellungen geführten linguistischen Untersuchungen auch für die historische Forschung von großem Wert sein können. Umso wichtiger sei die konsequente Einhaltung verbreiteter Erschließungsstandards.

Aus seiner langjährigen Praxis der Einwerbung und Übernahme archivierter Sprachkorpora gab Schmidt außerdem einige praktische Hinweise für Audioaufnahmen in Forschungsprojekten. Die heutige Technologie erleichtere die Vorbereitung zur Archivierung und strukturierten Aufbereitung der Daten, da man nunmehr auch unkomprimierte Datenformate mit hohen Abtastraten (Samplingraten) schon bei der Aufnahme erzeugen und speichern könne. Auch mit Blick auf die spätere Diskussion warb Schmidt bei der Datenbearbeitung für Programme, die offenen Standards genügten, so etwa die vom IDS mitentwickelten EXMARaLDA und FOLKER. Solche Überlegungen müssten Teil eines Projektdatenplans sein, da sie die Langzeitarchivierung sicherstellten. Nichtstandardisierte Sprachkorpora seien nur mit erheblichem Aufwand in die Plattformen zu integrieren.

ASTRID SCHOGER (München) von der Bayerischen Staatsbibliothek gab im Anschluss einen Einblick in die Praxis und Zukunft der Langzeitarchivierung von Dokumenten aller Art. Dabei sprach sie allgemeine Probleme an, die sich bei der Langzeitarchivierung stellen, beispielsweise die begrenzte Haltbarkeit der Datenträger, technologischer Wandel, kurzlebige Produktions-, Verwaltungs- und Abspielumgebungen, veraltende Dateiformate, rasant wachsende Datenmengen, steigende Komplexität der Daten und deren Vernetzung, aber auch das fehlende Problembewusstsein. Diesen Problemen wirkt die Langzeitarchivierung auf unterschiedlichen Wegen entgegen. Zu den grundsätzlichen strategischen Maßnahmen gehören dabei die Digitalisierung in der höchstmöglichen Qualität, Nutzung standardisierter Identifikatoren wie URNs, aber auch Qualitätskontrollen. Die Bayerische Staatsbibliothek bietet außerdem unter der Rubrik „Daten für die Forschung“ interessierten Wissenschaftlern den Zugriff auf hochauflösende Dokumente an. Momentan erstreckt sich dieses Angebot allerdings noch nicht auf Audiodaten.

FLORIAN SCHIEL (München), mitverantwortlich für das Bayerische Archiv für Sprachsignale (BAS) am Institut für Phonetik und Sprachverarbeitung der LMU München, führte im ersten Vortrag des Nachmittags dessen technische Möglichkeiten und Dienstleistungen vor. Ebenso wie das IDS zählt das BAS zu den Servicecentern der CLARIN-D-Infrastruktur und konzentriert sich unter anderem auf die Alignierung von Tonspuren mit Text. Schiel demonstrierte an einem konkreten Beispiel die Hilfsprogramme WebMAUS (vollautomatische Segmentierung und Auszeichnung von Audiodateien anhand einer orthographischen Transkription), WebMINNI (Automatische phonetische Segmentierung und Auszeichnung für mehrere Sprachen ohne Text-Input) sowie Chunk Preparation (Erstellung von BAS-Partitur-Dateien mit einem speech chunk tier (TRN) aus verschiedenen Eingabeformaten)3. Die Nutzung dieser Programme ist plattformunabhängig und daher für alle Interessierten möglich. Trotz bestehender technischer Grenzen bestätigte dieses Beispiel ebenso wie die Ausführungen von Thomas Schmidt zuvor eine zentrale Aussage von Stefan Winkler-Nees: Die Förderung und Bereitstellung einer digitalen Infrastruktur für Forschungsdaten ist bereits weit fortgeschritten. Eigentliche Aufgabe ist nun, eine verbreitete Nutzung der Dienste zu erzielen. Infrastrukturdienst und wissenschaftliches Nutzerverhalten scheinen aber im Gesamtbild eine kritische Schwelle überschritten zu haben. Schiel selbst gab ebenfalls Einblicke in das Nutzungsverhalten der Wissenschaftler, die eine Vorliebe für bestimmte Tools entwickelten, andere wiederum nahezu ignorierten. Deswegen appellierten die Entwickler einstimmig an die Fachwelt, Dienste, die etwa im Rahmen von CLARIN-D zur Verfügung stehen, zu nutzen und vor allem: Rückmeldungen zu geben, um die weitere Entwicklung besser steuern zu können.

Zum Abschluss folgten zwei Berichte aus der Praxis der Sprachforschung. Zunächst resümierte KLAAS-HINRICH EHLERS (Berlin) einige Erfahrungen aus der Praxis eines von der DFG geförderten, abgeschlossenen Forschungsprojekts zur kontaktlinguistischen Untersuchung unter Heimatvertriebenen in Mecklenburg vor. Im Laufe dieses Projekts entstand umfangreiches Audiodatenmaterial, dessen Erhebung aber, so Ehlers, nicht mit den zuvor empfohlenen Programmen und in den gewünschten Formaten erfolgen konnte. Außerdem bereiten solche Schwierigkeiten wie etwa die Kompatibilität der Betriebssysteme auf den Rechnern angestellter Hilfskräfte bzw. menschliche Fehlinterpretationen bei der Erhebung von Audiodaten vor allem bei kleineren Projekten ein wesentliches und auch durch neue Technik nicht zu behebendes Problem. Erschwerend hinzukommt die Frage des Datenschutzes: Um dem Persönlichkeitsrecht Genüge zu tun, müssten Interviewdaten– je nach Kreis der Befragten – in einem Maße anonymisiert werden, dass nur noch verwertbare Metadaten übrig blieben. Ehlers betonte, dass auch ein Datenmanagementplan angesichts dieser, in der Forschung üblichen Bedingungen nicht so umgesetzt worden wäre wie ursprünglich geplant. Damit wurde wieder den Anschluss auf die am Anfang des Workshops gestellte Frage geschaffen, ob überhaupt mehr als nur Förderrahmenbedingungen formuliert werden könnten.

Im Anschluss stellte STEPHAN LÜCKE (München) von der IT-Gruppe Geisteswissenschaften der LMU das Projekt „Audioatlas siebenbürgisch-sächsischer Dialekte“ vor, in dem umfangreiche Tondokumentation siebenbürgisch-sächsischer Dialekte zugänglich gemacht worden ist4. Dieser Audioatlas liegt vollständig als Weboberfläche vor und beruht auf einem älteren Sprachkorpus, der im Zuge des Projekts transkribiert und digital aufbereitet wurde. Das Material ist nach den Kriterien Ort, Jahr, Alter, Subcorpus und Inhalt im Gesamtbestand recherchierbar und mit einzelnen Dateien verlinkt. Für die inhaltliche Analyse wurden zudem unterschiedliche Methoden angewandt. Neben diesem werden auch andere Projekte von der ITG selbstständig langzeitgesichert, so dass weitere Datenaufnahmen auch nach Projektende möglich und erwünscht sind. Um das Datenformat einer solchen langfristigen Speicherung herrschte unter den Beteiligten jedoch Uneinigkeit.

Über die Nachhaltigkeit als Problem wurde auch in der Abschlussdiskussion nachgedacht. Ob die Datensicherung in relationalen Datenbanken bzw. mit einer XML-Strukturierung erfolgt, oder mit welchen Datenträgern und Formaten (wav oder mp3) die Forscher arbeiten, können für die Nachhaltigkeit erzeugter Dokumente gravierende Folgen haben. Als ein generelles Problem, in dem zumindest mittelfristig grundsätzliche Lösungsansätze gefunden werden müssten, stellt nach allgemeiner Auffassung die rechtliche Situation dar. Die Forscher vernachlässigen diese Fragen oft angesichts einer komplizierten und unklaren Rechtslage. Eine nachträgliche Rechteklärung wiederum erweist sich in den meisten Fällen als schwierig bzw. nicht mehr möglich. Darunter leidet vor allem die Veröffentlichung bzw. Zugänglichkeit der Forschungsdaten.

Als vorläufiges Fazit ließe sich feststellen: Die Frage nach dem Umgang mit den generierten Daten der Forschung erfordert in naher Zukunft auch von der historischen Forschung eine Antwort. Diese Antwort muss nicht eindeutig ausfallen, sollte aber die Vorzüge von Standardisierungen, insbesondere bei Audiodaten, weitestgehend berücksichtigen.

Konferenzübersicht:

Stefan Winkler-Nees (Deutsche Forschungsgemeinschaft (DFG), Wissenschaftliche Literaturversorgungs- und Informationssysteme): "Bereitstellung und Nachnutzung von Forschungsdaten: die Sicht der Deutschen Forschungsgemeinschaft"

Thomas Schmidt (IDS Mannheim): „Arbeiten mit mündlichen Korpora am Ar-chiv für Gesprochenes Deutsch“

Astrid Schoger (BSB, München): "Rahmenbedingungen der Langzeitarchivierung von Tondokumenten"

Florian Schiel (LMU München): „Text-Alignierung von Multimedia-Daten – Praktische Anleitungen“

Fallbeispiele aus der Forschung

Klaas-Hinrich Ehlers (Collegium Carolinum)

Stephan Lücke (LMU München)

Anmerkungen:
1https://www.sfb1015.uni-freiburg.de/info (19.04.2016).
2http://agd.ids-mannheim.de/index.shtml (19.04.2016).
3https://clarin.phonetik.uni-muenchen.de/BASWebServices/#/services (19.04.2016).
4http://www.asd.gwi.uni-muenchen.de/ (19.04.2016).


Redaktion
Veröffentlicht am
Beiträger
Klassifikation
Region(en)
Weitere Informationen
Land Veranstaltung
Sprache(n) der Konferenz
Deutsch
Sprache des Berichts