In der Welt der natürlichen Sprachverarbeitung (NLP) hat sich in letzter Zeit viel getan, insbesondere im Bereich der portugiesischen Sprachmodelle. Ein spannendes Projekt, das diesbezüglich Aufsehen erregt, ist „Tucano: Advancing Neural Text Generation for Portuguese“. Hierbei steht der neu entwickelte Datensatz GigaVerbo im Zentrum, der eine zentrale Ressource schaffen soll, um die Kluft in der portugiesischen NLP zu schließen. Das Universität Bonn berichtet, dass GigaVerbo aus 200 Milliarden deduplizierten Tokens besteht und sich besonders durch seine hohe Qualität und Vielfalt auszeichnet.
Die Forscher um Nicholas Kluge Correa und seine Kollegen Aniket Sen, Sophia Falk und Shiza Fatimah haben sich das Ziel gesetzt, leistungsstarke Sprachmodelle für ressourcenarme Sprachen wie Portugiesisch zu entwickeln. In einem Gebiet, das im Vergleich zu Englisch oft noch hinterherhinkt, stellt GigaVerbo eine bedeutende Errungenschaft dar. Wie die CST Bonn weiter vermelden, wurde der Datensatz aus einer Vielzahl von Quellen zusammengestellt, um die sprachliche Vielfalt und Qualität zu gewährleisten. Er ist das Ergebnis umfangreicher Filter- und Evaluierungsprozesse auf dem Marvin-Supercomputer.
Erstklassige Ressourcen für Portugiesisch
Das Projekt adressiert gleich zwei wesentliche Herausforderungen im Bereich der portugiesischen NLP: den Mangel an umfangreichen Open-Source-Ressourcen und die begrenzte Entwicklung von Open-Source-LLMs (Large Language Models). Das Team hat bereits mehrere Decoder-Modelle auf Basis des GigaVerbo-Datensatzes trainiert und verfolgt nun die nächsten Schritte, um die Entwicklungen weiter zu skalieren und das Modell zu verbessern.
Durch die Schaffung hochwertiger Datensätze und Sprachmodelle fördert das Projekt nicht nur den Zugang zu NLP-Ressourcen, sondern auch die wissenschaftliche Reproduzierbarkeit. Ein entscheidendes Anliegen ist es, auch als Grundlage für andere, weniger verbreitete Sprachen wie Bengalisch und Hindi zu dienen. So zeigt sich, dass das Engagement für Fortschritt und Gleichheit in der Sprachverarbeitung weit über die Grenzen des Portugiesischen hinausgeht.
Innovationen in der Open-Source-Community
Parallel dazu läuft die Initiative Occiglot, die am Deutschen Forschungszentrum Künstliche Intelligenz (DFKI) und am Hessischen Zentrum für Künstliche Intelligenz (hessian.AI) ins Leben gerufen wurde. Ihr Ziel ist es, generative Open Source-Sprachmodelle für europäische Sprachen zu entwickeln. Laut DFKI konzentriert sich Occiglot darauf, weniger verbreiteten Sprachen innovative Ansätze bereitzustellen und vereint dafür eine Gemeinschaft aus Forschenden und Experten.
Mit einer ersten Version, die bereits zehn Sprachmodelle umfasst, steht auch die zukünftige Integration aller 24 offiziellen EU-Sprachen auf der Agenda. Durch die Verwendung von über 700 Milliarden mehrsprachigen Tokens für das Pretraining wird versucht, ein kohärentes und leistungsstarkes Sprachmodell zu entwickeln, das den aktuellen Anforderungen gerecht wird.
Die Fortschritte, die sowohl im Projekt Tucano als auch in der Occiglot-Initiative gemacht werden, bieten nicht nur die Möglichkeit, die benachteiligten Sprachen zu fördern, sondern auch die weltweite Zusammenarbeit in der NLP-Community zu unterstützen. Die Forschungsanstrengungen sind ein vielversprechender Schritt in Richtung einer gerechteren und inklusiven Zukunft in der Sprachverarbeitung.