Революция в разпознаването на ръкописен текст: Нови възможности за изследване!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Проф. д-р Rehbein и д-р Werth от университета в Пасау започват изследователски проект за автоматично разпознаване на ръкописен текст (2025-2027 г.).

Prof. Dr. Rehbein und Dr. Werth der Uni Passau starten ein Forschungsprojekt zur automatischen Handschriftenerkennung (2025-2027).
Проф. д-р Rehbein и д-р Werth от университета в Пасау започват изследователски проект за автоматично разпознаване на ръкописен текст (2025-2027 г.).

Революция в разпознаването на ръкописен текст: Нови възможности за изследване!

Изследователи от университета в Пасау стартираха иновативен проект за методология за грешки при автоматично разпознаване на ръкописен текст. Професорите Малте Ребейн и Александър Верт ръководят проекта, който е част от линията за финансиране „Пробуждане“ на фондация Volkswagen. Продължителността на проекта се простира от 2025 до 2027 г. и се нарича „Методология на неточното“.

Основната цел на този проект е да се проучи степента, в която неправилните данни могат да позволят научна работа. Използват се автоматично преписани исторически ръкописи от съборни протоколи от 17-ти до 19-ти век, които имат точност около 90%. Проектът ще сравни тези транскрипции с ръчно преписани данни, постигайки 100% точност.

Научен център "Методикум"

Проектът е част от научния център „Методикум”, основан от катедрите по многоезична компютърна лингвистика, компютърна хуманитарна наука и немска лингвистика. Целта на „Методикума“ е основно методологично изследване в хуманитарните науки, както и подкрепа на компютърно-подпомогнати и цифрови методи.

Уместността на автоматичното разпознаване на ръкописен текст се подчертава и от предизвикателствата, пред които са изправени машините. Хората са в състояние да дешифрират почерка, докато тази способност е много по-сложна за машините. Tobias Hodel from the Zurich State Archives reports on the progress in automated handwriting recognition in projects such as READ, which is funded by the European Commission and aims to transcribe large amounts of handwritten documents.

Технологична поддръжка и ниво на развитие

Централен инструмент в този контекст е безплатният софтуер Transkribus, който позволява не само автоматично разпознаване и транскрипция, но и търсене на исторически документи. Този софтуер включва създадени инструменти за архивиране, библиотека и документация.

Използването на Transkribus изисква създаване на данни за обучение чрез ръчна транскрипция, което отнема време, но може значително да подобри качеството на разпознаване. Настоящите резултати показват, че някои модели на софтуера могат да постигнат честота на грешки в знаци (CER) от по-малко от 1%, което представлява забележителна точност за конкретни текстови корпуси. Transkribus предлага и различни инструменти за създаване на собствени модели, адаптирани към съответните нужди на потребителя.

С напредването на технологиите през последните години има значителни подобрения в разпознаването на ръкописен текст. Качеството на автоматичните транскрипции зависи основно от използвания шрифт и броя на използваните ръце. Въпреки този напредък, остава предизвикателството, че машините в момента не са в състояние да постигнат процент грешки от 0%, като приемливите нива за човешки транскрипции са под 10%.

Като цяло, развитието на автоматизираното разпознаване на ръкописен текст показва как комбинацията от човешки и машинен интелект може да обогати научната работа и значително да напредне в цифровизацията на историческите фондове. Нарастващата ефективност на транскрипцията, подкрепена от HTR технологията, разкрива нови възможности за исторически изследвания и разработване на ценна информация от архивни материали. Сътрудничеството между учени и модерни технологии има потенциала да революционизира изследванията в хуманитарните науки.

За допълнителна информация и вникване в техническите аспекти на разпознаването на ръкописен текст вижте страниците на проекта Университет на Пасау, DHC и Bop препоръчително.