©iStock

Informatik Zwei, drei oder fünf Katzen?

Wer mit künstlicher Intelligenz über Bilder spricht, erlebt ein freundliches, aber oft halluzinierendes Genie: KI versteht vieles, aber häufig das Falsche. Forschende untersuchen, wo die Missverständnisse zwischen Bild und Sprache entstehen

von Dr. Letiția Pârcălăbescu

„Hallo KI, wie viele Katzen siehst du auf diesem Bild?“ – „Zwei.“ – „Falsch. Wo siehst du zwei?“ – „Entschuldigung, drei.“ – „Auch falsch. Warum erklärst du nicht, wieso du zuerst zwei und dann drei sagst? Es sind fünf Katzen!“ – „Oh, stimmt.“ Was wie ein lustiger Dialog klingt, zeigt ein ernstes Problem: Sprach­modelle wie ChatGPT und DeepSeek beeindrucken zwar durch ihre Leistung, stoßen aber schnell an Grenzen, wenn sie Bild- und Sprach­­informationen kombinieren sollen.

Die Künstliche Intelligenz (KI) tut sich schwer bei Dingen, die unser Gehirn mühelos meistert: Ein Freund schickt ein Bild von einem vollen Park­platz und schreibt, sein Auto sei das rote, gegenüber der Einfahrt – sofort wissen wir, wo er auf uns wartet. Im Allgemeinen orientieren wir uns im Alltag vor allem durch visuelle Eindrücke und sprechen über das, was wir sehen. Doch vieles davon sprechen wir nicht aus, weil es intuitiv verstanden wird.

Wenn KI verstehen soll, worüber wir reden, und uns im Alltag helfen soll, muss sie Bild und Sprache nahtlos verbinden können. Und das ist leichter gesagt als getan: „Ein Bild sagt mehr als tausend Worte“ – das stimmt eben nicht ganz. Worte abstrahieren unzählige Bilder, sind flexibel, viel­schichtig und oft mehr­deutig. Bilder hingegen zeigen konkrete Details. Diese Kluft erschwert es, Bild und Sprache zu vereinen. Für KI ist das schwierig, da sie Texte als Worte und Wortteile verarbeitet, Bilder hingegen anhand ihrer Pixel. Die Verbindung dieser unterschiedlichen Repräsentationen bleibt eine zentrale Herausforderung.

Weil wir Menschen Bild und Sprache intuitiv verknüpfen, nutzen wir das herkömmliche Training für Sprach-KI auch für Bild- und Sprach­modelle – was oft nicht gut funktioniert. Ein Beispiel: Eine KI soll auf die Frage „Was macht die Katze auf dem Bild?“ antworten. Es reicht nicht, die Katze zu erkennen; der Algorithmus muss auch verstehen, dass ihr Spiel mit einem Ball zur Frage passt. Genau daran scheitern viele Modelle. Wir konnten zeigen, dass sie zwar Objekte wie „Katze“ oder „Ball“ sicher erkennen, bei Relationen, etwa räumlichen Beziehungen oder Handlungen, aber versagen. Sie erkennen nicht, ob die Katze mit dem Ball spielt oder nur entspannt neben dem Ball liegt, ignorieren Bild- oder Textteile und raten meistens.

Die Physikerin und Informatikerin Letiția Pârcălăbescu entwickelte ein Verfahren, mit dem sich die Zuverlässigkeit von Bild- und Sprach­modellen verbessern lässt
©Annette Mueck
Die Physikerin und Informatikerin Letiția Pârcălăbescu entwickelte ein Verfahren, mit dem sich die Zuverlässigkeit von Bild- und Sprach­modellen verbessern lässt

Seine Wurzeln hat das Problem im Training: Die KI wird mit Bildern, deren Text­beschreibungen und mit Fragen gefüttert. Doch die von Menschen erstellten Texte sind oft ober­flächlich und beschränken sich auf das Offensichtliche. Menschen sind meist zu pragmatisch, um detaillierte und anspruchs­volle Beschreibungen zu verfassen. Typische Texte lauten: „Es gibt X Objekte im Bild.“ X ist meist „zwei“, manchmal „eins“ und selten „drei“, denn ab sieben zählt kaum noch jemand. Die KI lernt daraus eine einfache Strategie: Auf „Wie viele“-Fragen antwortet sie oft mit „zwei“, weil das die häufigste Antwort im Training war. Solche Häufigkeiten sind einfacher zu lernen als tiefes Verständnis der Zusammen­hänge und wirken im Training erfolg­reich – auch wenn sie an der Realität vorbeigehen.

Doch wir müssen nicht nur wissen, ob ein Modell die richtige Antwort liefert – wir müssen auch verstehen, warum. Das ist schwierig, denn kombinierte Bild- und Sprach­modelle sind noch komplexer und ihre Antworten schwerer nach­zu­voll­ziehen als die neuronalen Netze herkömmlicher Sprachmodelle. Denn die Antworten neuronaler Netze beruhen auf dem Zusammen­spiel von Milliarden künstlicher Neuronen – viel zu viele, um den Beitrag einzelner Neuronen direkt interpretieren zu können. Anders als bei klassischen Computer­programmen kann man also nicht den Code einsehen und nach­voll­ziehen, wie eine Entscheidung zustande kommt.

Deshalb haben wir eine Methode entwickelt, die die Antworten dieser Modelle erklärbarer macht. Sie misst, wie stark einzelne Eingabe­wörter und Bild­regionen die Antwort beeinflussen. Dabei entdeckten wir einen entscheidenden Schwach­punkt: Die neuesten Modelle verlassen sich fast voll­ständig auf den Text und ignorieren das Bild. Nur 4 bis 10 Prozent der Informationen stammen aus dem Bild. So entstehen die bisweilen wirren Antworten, bei denen man sich fragt, ob die KI das Bild überhaupt angeschaut hat – sie hat es eben nicht. Angesichts des enormen Rechen­aufwandes von kombinierten Bild- und Sprach­modellen im Vergleich zu reinen Sprach­­modellen sind dringend Verbesserungen nötig.

Aber warum sollten wir, wie oben beschrieben, aufwendige Methoden entwickeln, wenn wir das Modell einfach nach seiner „Gedanken­welt“ fragen könnten? Modelle wie GPT-o1 erklären ihre Entscheidungen in natürlicher Sprache. Doch wie verlässlich sind diese Erklärungen? Entsprechen sie den inneren Prozessen des Modells, oder sind sie geschickt inszeniert, um plausibel zu klingen? Die Forschung zeigte bereits, dass diese Erklärungen oft manipulierbar sind: Man kann dem Modell eine alternative oder falsche „Gedanken­führung“ aufzwingen, ohne dass die finale Antwort davon beeinflusst wird. Das bedeutet, dass wir womöglich Erklärungen bekommen, die mit dem tatsächlichen Entscheidungs­prozess nichts zu tun haben – ein gefährliches Miss­verständnis.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Deshalb haben wir ein Verfahren entwickelt, das sowohl bei Sprach­modellen als auch bei kombinierten Bild- und Sprach­modellen prüft, ob die in der Erklärung genannten Informationen tatsächlich zur Antwort bei­getragen haben. Ein Beispiel: Erklärt das Modell, dass es die Katze im Bild erkannt hat, müssen dafür die Bild­bereiche entscheidend gewesen sein, in der die Katze tatsächlich abgebildet ist. Andernfalls gibt unser Verfahren einen hohen Inkonsistenz­wert aus. Ist dieser hoch, deutet das darauf hin, dass das Modell „Erklärungen“ erfindet, die plausibel klingen, aber nicht den tatsächlichen Entscheidungs­prozess widerspiegeln. Unsere Ergebnisse waren ernüchternd: Oft benutzen aktuelle Modelle andere Bild­aus­schnitte oder Text­passagen für die Generierung der Antwort als für die Erklärung. Nutzer:innen sollten solche Erklärungen also mit Vorsicht bewerten.

Dabei ist gerade hier Vertrauen in die KI so wichtig. So soll sie eines Tages beispiels­weise zuverlässige Bild­beschreibungen für Sehbehinderte liefern, Berichte aus Foto­sequenzen erstellen oder komplexe Zusammen­hänge zwischen wissenschaftlichen Grafiken und Texten analysieren.

Unsere Forschung zeigt: Zwar sind heutige KI-Systeme noch nicht so weit. Doch unsere Messungen belegen eine klare Entwicklung – sie sind deutlich weiter als noch vor wenigen Jahren. Und was wir messen können, können wir auch trainieren: Wir können vertrauens­würdige „Gedanken“ belohnen und eine ausgewogenere Nutzung von Text- und Bild­informationen fördern. So lassen sich KI-Modelle gezielt in Richtung eines konsistenteren und nach­voll­zieh­bareren Denkens entwickeln.

Mit unseren Methoden erfassen wir in jeder Interaktion zwischen Nutzer:in und KI, wie stark die KI tatsächlich Bild- und Text­informationen nutzt und wie hoch der Inkonsistenz­wert ist. Das ist besonders wichtig in Situationen, in denen unsere eigene Expertise begrenzt ist und wir die Richtigkeit einer Antwort nicht selbst einschätzen können – etwa wenn wir ChatGPT um Haus­aufgaben­hilfe oder um medizinische Empfehlungen bitten. Hier können wir Nutzer:innen warnen, wenn eine Antwort auf nicht vertrauens­würdigen Wegen zustande kam.

Zum Thema

Nicht nur Dumm …

… sondern auch gefährlich. Chatbots sind anders, als wir denken

Fragt man ChatGPT nach den Unzulänglichkeiten Künstlicher Intelligenz, liefert der Chatbot eine Liste mit teils skurrilen, teils auch höchst beunruhigenden Beispielen. Dass Forschende einen Algorithmus mit kleinen Stickern auf Straßen­schildern verwirren können, ist eigentlich eine alte Geschichte von 2017: Statt eines Stopp­schilds „sah“ die KI ein Tempo­limit­schild. Überraschend ist, dass Anthony Etim und Jakub Szefer Anfang 2025 Ähnliches berichteten. Ein kleiner Sticker auf einem Verkehrs­schild machte demnach eine Bild­erkennung in fast allen Fällen unmöglich. „KI-Modelle sind häufig nicht nur dumm, sondern folgen anderen Mustern als wir (sic!) Menschen“, kommentiert ChatGPT den Fall. „Gerade in sicherheits­relevanten Bereichen – autonomes Fahren, Gesichts­erkennung – ist das alarmierend.“ Stimmt.

Anderes Beispiel: Prompt Injection. Dabei verstecken Angreifer:innen beispiels­weise in einer PDF-Datei Anweisungen. Bittet jemand arglos den Chatbot um eine Zusammen­fassung des Dokuments, weicht die KI von diesem Auftrag ab und generiert einen anderen Text oder schöpft sensible Informationen ab. Auch der Chatbot selbst lässt sich durch geeignete Anfragen manipulieren. So zeigten Forschende um Meysam Alizadeh von der Universität Zürich kürzlich, dass KI-Anwendungen in Bankumgebungen durch gezielte Prompt-Injection-Angriffe dazu gebracht werden können, persönliche Daten wie Konto­informationen preis­zu­geben.

Geradezu menschlich, nämlich autoritätshörig, zeigte sich ein Bot in einer Studie der University of Pennsylvania. Ein Team um Lennart Meincke belegte, dass man leichter an Drogen­rezepte kommt, wenn im Prompt der Name einer:s prominenten KI-Forschenden vorkommt. Konkret hieß das: Ohne Namens­nennung folgte die KI in 5 Prozent der Fälle der Anfrage. Mit dem Namen stieg die Quote auf 95 Prozent. — J. Schüring

Sie verwenden einen veralteten Browser oder haben Javascript in Ihrem Browser deaktiviert.
Bitte aktualisieren Sie Ihren Browser oder aktivieren Sie Javascript.
x