
Forschende der Universität Passau haben ein innovatives Projekt zur Fehlermethodologie in der automatischen Handschriftenerkennung ins Leben gerufen. Professores Malte Rehbein und Alexander Werth leiten das Vorhaben, das in der Förderlinie „Aufbruch“ der VolkswagenStiftung angesiedelt ist. Die Projektdauer erstreckt sich von 2025 bis 2027, und trägt den Namen „Methodology of the Inaccurate“.
Das zentrale Ziel dieses Projekts ist es, zu untersuchen, inwieweit auch fehlerhafte Daten eine wissenschaftliche Arbeit ermöglichen können. Hierbei kommen automatisch transkribierte historische Handschriften aus Ratsprotokollen des 17. bis 19. Jahrhunderts zum Einsatz, die mit einer Akkuratheit von rund 90 % versehen sind. Im Rahmen des Projekts werden diese Transkriptionen mit manuell transkribierten Daten verglichen, die eine Akkuratheit von 100 % erreichen.
Wissenschaftszentrum „Methodikum“
Das Projekt ist Teil des Wissenschaftszentrums „Methodikum“, das von Lehrstühlen für multilinguale Computerlinguistik, Computational Humanities und Deutsche Sprachwissenschaft gegründet wurde. Ziel des „Methodikum“ ist die methodologische Grundlagenforschung in den Geisteswissenschaften sowie die Unterstützung computergestützter und digitaler Methoden.
Die Relevanz automatischer Handschriftenerkennung wird auch durch die Herausforderungen unterstrichen, denen sich Maschinen gegenübersehen. Menschen sind in der Lage, Handschriften zu entziffern, wohingegen diese Fähigkeit für Maschinen wesentlich komplexer ist. Tobias Hodel vom Staatsarchiv Zürich berichtet von den Fortschritten im Bereich der automatisierten Handschriftenerkennung in Projekten wie READ, das von der Europäischen Kommission gefördert wird und darauf abzielt, große Mengen an handschriftlichen Dokumenten zu transkribieren.
Technologische Unterstützung und Entwicklungsstand
Ein zentrales Werkzeug in diesem Kontext ist die kostenlose Software Transkribus, die nicht nur die automatische Erkennung und Transkription, sondern auch die Durchsuchung historischer Dokumente ermöglicht. Diese Software hat sich als wertvolles Instrument für Archive, Bibliotheken und Dokumentationsinstitutionen etabliert.
Die Nutzung von Transkribus erfordert die Erstellung von Trainingsdaten durch manuelle Transkription, was zwar zeitaufwendig ist, jedoch die Qualität der Erkennung erheblich verbessern kann. Aktuelle Ergebnisse zeigen, dass einige Modelle der Software eine Character Error Rate (CER) von unter 1 % erreichen können, was für spezifische Textcorpora eine bemerkenswerte Genauigkeit darstellt. Transkribus bietet zudem verschiedene Tools zur Erstellung eigener Modelle, angepasst an die jeweiligen Bedürfnisse der Nutzer.
Mit der Fortschrittlichkeit der Technologie haben sich in den letzten Jahren signifikante Verbesserungen in der Handschriftenerkennung ergeben. Dabei hängt die Qualität der automatischen Transkriptionen vor allem von der verwendeten Schriftart sowie der Anzahl der eingesetzten Hände ab. Trotz dieser Fortschritte bleibt die Herausforderung bestehen, dass Maschinen derzeit nicht in der Lage sind, eine Fehlerquote von 0 % zu erreichen, wobei akzeptable Werte für menschliche Transkriptionen unter 10 % liegen.
Insgesamt zeigt die Entwicklung in der automatisierten Handschriftenerkennung, wie die Kombination aus menschlicher und maschineller Intelligenz wissenschaftliche Arbeiten bereichern und die Digitalisierung historischer Bestände maßgeblich voranbringen kann. Die steigende Effizienz der Transkription, unterstützt durch HTR-Technologie, eröffnet neue Möglichkeiten für die historische Forschung und die Erschließung wertvoller Informationen aus Archivmaterialien. Die Zusammenarbeit von Wissenschaftlern und modernen Technologien hat das Potenzial, die Forschung in den Geisteswissenschaften revolutionär zu verändern.
Für weitere Informationen und Einblicke in die technischen Aspekte der Handschriftenerkennung sind die Projektseiten von Universität Passau, DHC und Bop zu empfehlen.