Die Universität Göttingen hat ein neues Forschungsprojekt ins Leben gerufen, das sich mit der Erkennung von KI-generierten Texten beschäftigt. Dieses Projekt trägt den Titel „Paraphrase Types“ und wird von der Deutschen Forschungsgemeinschaft (DFG) mit ca. 340.000 Euro für die Dauer von drei Jahren gefördert. Dr. Terry Ruas leitet das Projekt und bringt seine Expertise aus der Forschungsgruppe „Analyse wissenschaftlicher Informationsressourcen“ ein.

Das Hauptziel des Projektes besteht darin, die sprachlichen Feinheiten von KI-generierten Texten zu verstehen und deren Identifikation zu verbessern. Wie uni-goettingen.de berichtet, arbeiten bisherige Systeme zur Erkennung solcher Texte in der Regel binär: Sie prüfen lediglich die Ähnlichkeit von Absätzen. Die Forschung zu den Gründen für Unterschiede in Texten ist jedoch noch nicht weit fortgeschritten.

Fingerabdrücke der Künstlichen Intelligenz

Ein zentrales Anliegen der Wissenschaftler ist es, die sogenannten „Fingerabdrücke“ von KI-Texten zu entschlüsseln, um diese zuverlässiger zu identifizieren. Der Einsatz von großen Sprachmodellen, wie etwa ChatGPT, könnte die Kommunikation mit Maschinen revolutionieren. Es wird angenommen, dass diese Modelle bestimmte Änderungen in der Textgenerierung anders umsetzen als menschliche Autoren.

Eine praktische Relevanz des Projektes zeigt sich auch in der Verbesserung der Plagiatserkennung. Der Einsatz herkömmlicher Erkennungsprogramme stößt häufig an Grenzen, da KI-Systeme in der Lage sind, große Textmengen umzuschreiben und somit typisches Plagiat oft nicht erfasst wird.

Das Projektteam plant darüber hinaus die Entwicklung von Anwendungen, die komplexe Texte in eine einfachere Sprache umwandeln können. Ein wichtiger Schritt zur Förderung der Transparenz von KI-Systemen ist die öffentliche Zugänglichkeit aller Modelle und Datensätze, die im Rahmen der Forschung erstellt werden.

Fortschritte in der KI-Literatursuche

Parallel zur Forschung in Göttingen entwickeln verschiedene Anbieter von KI-Tools innovative Lösungen zur Unterstützung von Wissenschaftlern. Dazu gehört die semantische Suche und Literaturbewertung, wie sie von Plattformen wie Elicit, SciSpace und ScienceOS angeboten werden. Diese Tools ermöglichen eine differenzierte Analyse und Bewertung von Quellen anhand ihrer semantischen Ähnlichkeit. Elicit bietet Funktionen zur Vorbereitung von systematischen Reviews sowie die Erstellung von Reports.

  • Elicit: KI-Literatursuche via Forschungsfrage und Bewertungen von Quellen.
  • SciSpace: Semantische Suche und Datenextraktion aus PDFs.
  • scienceOS: Literaturverwaltung und die Analyse eigener PDFs.
  • Research Rabbit: Interaktive Karten von Publikationsnetzwerken zur Zitationsanalyse.
  • Julius AI: Datenanalyse ohne Programmierkenntnisse, ideal für Studierende und Lehrende.

Die Vielzahl an Funktionen, die diese Tools bieten, reichen von der Identifizierung relevanter wissenschaftlicher Literatur bis hin zur Datenvisualisierung und Analyse von Zitationsnetzwerken. uni-due.de hebt hervor, dass für viele dieser Tools eine Anmeldung erforderlich ist und dass die kostenlosen Funktionen oft begrenzt sind.

Langfristige Entwicklung der Sprachmodelle

In einem Blogbeitrag auf der Website von Fraunhofer word gesammelt, berichtet eine Gruppe von KI-Expertinnen und -Experten über die Fortschritte in der Entwicklung von Sprachmodellen. Diese Entwicklungen basieren hauptsächlich auf Transformator-Modellen, die durch den „Attention“-Mechanismus Unterstützung finden. Die aktuelle Architektur dieser Modelle ermöglicht eine effiziente Bearbeitung von langen Texten und deren Training.

Die Funktionsweise dieser großen Sprachmodelle (LLMs) lässt sich in vier Hauptteile unterteilen: Tokenisierung, Einbettung, Berechnung der Wahrscheinlichkeit des nächsten Tokens und Dekodierung. Ein tieferes Verständnis dieser Mechanismen kann dabei helfen, geeignete Modelle für spezifische Anwendungen auszuwählen und deren Funktionalität zu erweitern.

In Anbetracht des technologischen Fortschritts und der Vielzahl an Anwendungsmöglichkeiten in der Wissenschaft ist die Untersuchung von KI-generierter Textverarbeitung von enormer Bedeutung. Insbesondere das Göttinger Forschungsprojekt spricht essentielle Fragen an, die die Nutzung von KI im akademischen Bereich betreffen, während das Angebot an KI-basierten Werkzeugen eine Unterstützung für Forschende darstellt.