
Am 23. Juni 2025 veröffentlichte ein Forschungsteam der Justus-Liebig-Universität Gießen und des Max-Planck-Instituts für Kognitions- und Neurowissenschaften bedeutende Ergebnisse zur Objekterkennung durch Künstliche Intelligenz (KI). Diese Erkenntnisse wurden in der renommierten Zeitschrift Nature Machine Intelligence veröffentlicht. Die Erstautoren Florian Mahner und Lukas Muttenthaler und der Letztautor Prof. Dr. Martin Hebart präsentierten einen neuen Ansatz zur Identifikation und zum Vergleich von Schlüsseldimensionen, auf die sowohl Menschen als auch KI beim Sehen von Objekten achten.
Im Rahmen der Studie wurden rund 5 Millionen Odd-One-Out-Urteile aus 1.854 Objektbildern analysiert, um herauszufinden, welche visuellen und semantischen Eigenschaften Menschen und KI bevorzugen. Es zeigt sich, dass Menschen ihren Fokus auf bedeutungsbezogene Dimensionen, wie etwa „tierbezogen“ oder „feuerbezogen“, legen, während KI-Modelle vorrangig visuelle Eigenschaften wie „rund“ oder „weiß“ in den Vordergrund stellen. Dieses Phänomen wird als „visuelle Bevorzugung“ bezeichnet und könnte das Vertrauen in KI-Systeme erheblich beeinflussen, wenn es zu unterschiedlichen Strategien bei der Objekterkennung kommt.
Methodik und Ergebnisse der Forschung
Die wissenschaftlichen Arbeiten nutzen mehrere tiefe neuronale Netze (DNNs), um Bilder ähnlich wie Menschen zu erkennen und die Schlüsseldimensionen der Bilder zu ermitteln. Der Vergleich der Dimensionen zwischen Menschen und DNNs ergab, dass KI zwar Annäherungen an diese Dimensionen erzielt, jedoch nicht vollständig mit der menschlichen Wahrnehmung übereinstimmt. Besonders auffällig war, dass bei tierbezogenen Dimensionen viele Bilder nicht tierischer Natur nicht in die Analyse einbezogen wurden, was die Ergebnisse der KI-Technologie weiter beeinflusste.
Die Forscher hoffen, dass zukünftige Projekte einen direkten Vergleich zwischen menschlicher und KI-Wahrnehmung ermöglichen werden, was zu einem besseren Verständnis der Wahrnehmung von KI und zur Verbesserung der Technologie selbst führen könnte. Der Kontakt zu Prof. Dr. Martin Hebart wird hierbei als Möglichkeit für diejenigen genannt, die an weiteren Informationen zu diesem Forschungsfeld interessiert sind.
Anwendungen von KI in der Bilderkennung
Die Erkenntnisse über die Unterschiede in der Objekterkennung finden breite Anwendung in verschiedenen Bereichen. Oftmals wird KI zur Unterstützung in der Logistik, bei der Bildklassifizierung oder in der Kundenstrukturanalyse im E-Commerce eingesetzt. In diesem Zusammenhang bietet Teachable Machines ein Tool zur schnellen und einfachen Programmierung von KI-Systemen an, was die Erkennung von Bildern, Tönen oder Posen durch Computer ermöglicht.
Beispielanwendungen sind die Unterstützung bei der Inventur oder das Sortieren von Waren. Die Bedeutung der Trainingsdaten qualifiziert sich hier als entscheidend für die Leistung der KI-Modelle. Ein praktisches Beispiel: Wenn im Hintergrund einer Trainingsszene eine Alexa sichtbar ist, wird die KI dazu verleitet, das Bild lediglich aufgrund dieser Präsenz zu klassifizieren, unabhängig vom Hauptfokus des Bildes.
Zukünftige Herausforderungen und Entwicklungen
Die KI-Technologie, insbesondere in der Bilderkennung, zeigt enormes Potenzial, hat jedoch auch Herausforderungen zu bewältigen. Bedenken bezüglich Datenschutz, Bias in den Trainingsdaten und die Notwendigkeit klarer gesetzlicher Rahmenbedingungen sind zentrale Themen, die angegangen werden müssen. Darüber hinaus müssen KI-Modelle robust gegenüber verschiedenen Bedingungen wie Beleuchtung und Rauschen sein, um in der Praxis effektiv arbeiten zu können.
Mit fortschreitenden Entwicklungen im Bereich des maschinellen Lernens und der neuronalen Netze bleibt die Zukunft der KI-gestützten Bilderkennung vielversprechend. Unternehmen können durch die Optimierung von Prozessen und gezielte Marketingstrategien profitieren, während die umfassende Forschung zur Verbesserung von KI-Kapazitäten weitergeführt wird.