Käsialantunnistuksen vallankumous: uusia mahdollisuuksia tutkimukselle!
Professori tohtori Rehbein ja tohtori Werth Passaun yliopistosta aloittavat automaattisen käsialantunnistuksen tutkimusprojektin (2025-2027).

Käsialantunnistuksen vallankumous: uusia mahdollisuuksia tutkimukselle!
Passaun yliopiston tutkijat ovat käynnistäneet innovatiivisen projektin virhemetodologiasta automaattisessa käsinkirjoituksen tunnistuksessa. Professorit Malte Rehbein ja Alexander Werth johtavat hanketta, joka on osa Volkswagen-säätiön "Awakening" -rahoituslinjaa. Hankkeen kesto ulottuu vuodesta 2025 vuoteen 2027 ja on nimeltään "Epätarkkojen metodologia".
Hankkeen keskeisenä tavoitteena on selvittää, missä määrin virheellinen data voi mahdollistaa tieteellisen työn. Käytössä on automaattisesti kirjoitettuja historiallisia käsikirjoituksia 1600- ja 1800-luvuilta peräisin olevista valtuuston pöytäkirjoista, joiden tarkkuus on noin 90 %. Projekti vertaa näitä transkriptioita manuaalisesti transkriboituihin tietoihin saavuttaen 100 % tarkkuuden.
Tiedekeskus "Methodikum"
Hanke on osa "Methodikum" -tiedekeskusta, jonka perustivat monikielisen laskennallisen lingvistiikan, laskennallisen humanistisen ja saksalaisen kielitieteen oppilaitokset. "Methodikumin" tavoitteena on humanististen tieteiden metodologinen perustutkimus sekä tietokoneavusteisten ja digitaalisten menetelmien tukeminen.
Automaattisen käsialantunnistuksen merkitystä korostavat myös koneiden kohtaamat haasteet. Ihminen pystyy tulkitsemaan käsinkirjoituksen, kun taas tämä kyky on paljon monimutkaisempi koneille. Tobias Hodel Zürichin osavaltion arkistosta raportoi automatisoidun käsinkirjoituksen tunnistuksen edistymisestä sellaisissa projekteissa kuin READ, jota Euroopan komissio rahoittaa ja jonka tavoitteena on litteroida suuria määriä käsinkirjoitettuja asiakirjoja.
Tekninen tuki ja kehitystaso
Keskeinen työkalu tässä yhteydessä on ilmainen Transkribus-ohjelmisto, joka mahdollistaa automaattisen tunnistamisen ja transkription lisäksi myös historiallisten asiakirjojen haun. Tämä ohjelmisto on vakiinnuttanut asemansa arvokkaana työkaluna arkistoissa, kirjastoissa ja dokumentaatiolaitoksissa.
Transkribusin käyttäminen edellyttää harjoitustietojen luomista manuaalisella transkriptiolla, mikä on aikaa vievää, mutta voi parantaa merkittävästi tunnistuksen laatua. Nykyiset tulokset osoittavat, että jotkin ohjelmistomallit voivat saavuttaa alle 1 %:n merkkivirhesuhteen (CER), mikä edustaa huomattavaa tarkkuutta tietyille tekstikorpeille. Transkribus tarjoaa myös erilaisia työkaluja omien mallien luomiseen, jotka on mukautettu käyttäjän tarpeisiin.
Tekniikan kehittyessä käsinkirjoituksen tunnistamisessa on tapahtunut merkittäviä parannuksia viime vuosina. Automaattisten transkriptioiden laatu riippuu ensisijaisesti käytetystä fontista ja käytettyjen käsien määrästä. Näistä edistysaskelista huolimatta haasteena on edelleen se, että koneet eivät tällä hetkellä pysty saavuttamaan 0 prosentin virhetasoa, ja ihmisen transkriptioten hyväksyttävät tasot ovat alle 10 prosenttia.
Kaiken kaikkiaan automaattisen käsialantunnistuksen kehitys osoittaa, kuinka ihmisen ja koneälyn yhdistäminen voi rikastuttaa tieteellistä työtä ja edistää merkittävästi historiallisten aineistojen digitalisointia. HTR-teknologian tukeman transkription tehostaminen avaa uusia mahdollisuuksia historialliseen tutkimukseen ja arvokkaan tiedon kehittämiseen arkistomateriaalista. Tiedemiesten ja modernin teknologian yhteistyö voi mullistaa humanistisen tutkimuksen.
Lisätietoja ja näkemyksiä käsialantunnistuksen teknisistä näkökohdista löytyy projektin sivuilta Passaun yliopisto, DHC ja Bop suositellaan.