Informatik Zwei, drei oder fünf Katzen?
Wer mit künstlicher Intelligenz über Bilder spricht, erlebt ein freundliches, aber oft halluzinierendes Genie: KI versteht vieles, aber häufig das Falsche. Forschende untersuchen, wo die Missverständnisse zwischen Bild und Sprache entstehen
„Hallo KI, wie viele Katzen siehst du auf diesem Bild?“ – „Zwei.“ – „Falsch. Wo siehst du zwei?“ – „Entschuldigung, drei.“ – „Auch falsch. Warum erklärst du nicht, wieso du zuerst zwei und dann drei sagst? Es sind fünf Katzen!“ – „Oh, stimmt.“ Was wie ein lustiger Dialog klingt, zeigt ein ernstes Problem: Sprachmodelle wie ChatGPT und DeepSeek beeindrucken zwar durch ihre Leistung, stoßen aber schnell an Grenzen, wenn sie Bild- und Sprachinformationen kombinieren sollen.
Die Künstliche Intelligenz (KI) tut sich schwer bei Dingen, die unser Gehirn mühelos meistert: Ein Freund schickt ein Bild von einem vollen Parkplatz und schreibt, sein Auto sei das rote, gegenüber der Einfahrt – sofort wissen wir, wo er auf uns wartet. Im Allgemeinen orientieren wir uns im Alltag vor allem durch visuelle Eindrücke und sprechen über das, was wir sehen. Doch vieles davon sprechen wir nicht aus, weil es intuitiv verstanden wird.
Wenn KI verstehen soll, worüber wir reden, und uns im Alltag helfen soll, muss sie Bild und Sprache nahtlos verbinden können. Und das ist leichter gesagt als getan: „Ein Bild sagt mehr als tausend Worte“ – das stimmt eben nicht ganz. Worte abstrahieren unzählige Bilder, sind flexibel, vielschichtig und oft mehrdeutig. Bilder hingegen zeigen konkrete Details. Diese Kluft erschwert es, Bild und Sprache zu vereinen. Für KI ist das schwierig, da sie Texte als Worte und Wortteile verarbeitet, Bilder hingegen anhand ihrer Pixel. Die Verbindung dieser unterschiedlichen Repräsentationen bleibt eine zentrale Herausforderung.
Weil wir Menschen Bild und Sprache intuitiv verknüpfen, nutzen wir das herkömmliche Training für Sprach-KI auch für Bild- und Sprachmodelle – was oft nicht gut funktioniert. Ein Beispiel: Eine KI soll auf die Frage „Was macht die Katze auf dem Bild?“ antworten. Es reicht nicht, die Katze zu erkennen; der Algorithmus muss auch verstehen, dass ihr Spiel mit einem Ball zur Frage passt. Genau daran scheitern viele Modelle. Wir konnten zeigen, dass sie zwar Objekte wie „Katze“ oder „Ball“ sicher erkennen, bei Relationen, etwa räumlichen Beziehungen oder Handlungen, aber versagen. Sie erkennen nicht, ob die Katze mit dem Ball spielt oder nur entspannt neben dem Ball liegt, ignorieren Bild- oder Textteile und raten meistens.
Seine Wurzeln hat das Problem im Training: Die KI wird mit Bildern, deren Textbeschreibungen und mit Fragen gefüttert. Doch die von Menschen erstellten Texte sind oft oberflächlich und beschränken sich auf das Offensichtliche. Menschen sind meist zu pragmatisch, um detaillierte und anspruchsvolle Beschreibungen zu verfassen. Typische Texte lauten: „Es gibt X Objekte im Bild.“ X ist meist „zwei“, manchmal „eins“ und selten „drei“, denn ab sieben zählt kaum noch jemand. Die KI lernt daraus eine einfache Strategie: Auf „Wie viele“-Fragen antwortet sie oft mit „zwei“, weil das die häufigste Antwort im Training war. Solche Häufigkeiten sind einfacher zu lernen als tiefes Verständnis der Zusammenhänge und wirken im Training erfolgreich – auch wenn sie an der Realität vorbeigehen.
Doch wir müssen nicht nur wissen, ob ein Modell die richtige Antwort liefert – wir müssen auch verstehen, warum. Das ist schwierig, denn kombinierte Bild- und Sprachmodelle sind noch komplexer und ihre Antworten schwerer nachzuvollziehen als die neuronalen Netze herkömmlicher Sprachmodelle. Denn die Antworten neuronaler Netze beruhen auf dem Zusammenspiel von Milliarden künstlicher Neuronen – viel zu viele, um den Beitrag einzelner Neuronen direkt interpretieren zu können. Anders als bei klassischen Computerprogrammen kann man also nicht den Code einsehen und nachvollziehen, wie eine Entscheidung zustande kommt.
Deshalb haben wir eine Methode entwickelt, die die Antworten dieser Modelle erklärbarer macht. Sie misst, wie stark einzelne Eingabewörter und Bildregionen die Antwort beeinflussen. Dabei entdeckten wir einen entscheidenden Schwachpunkt: Die neuesten Modelle verlassen sich fast vollständig auf den Text und ignorieren das Bild. Nur 4 bis 10 Prozent der Informationen stammen aus dem Bild. So entstehen die bisweilen wirren Antworten, bei denen man sich fragt, ob die KI das Bild überhaupt angeschaut hat – sie hat es eben nicht. Angesichts des enormen Rechenaufwandes von kombinierten Bild- und Sprachmodellen im Vergleich zu reinen Sprachmodellen sind dringend Verbesserungen nötig.
Aber warum sollten wir, wie oben beschrieben, aufwendige Methoden entwickeln, wenn wir das Modell einfach nach seiner „Gedankenwelt“ fragen könnten? Modelle wie GPT-o1 erklären ihre Entscheidungen in natürlicher Sprache. Doch wie verlässlich sind diese Erklärungen? Entsprechen sie den inneren Prozessen des Modells, oder sind sie geschickt inszeniert, um plausibel zu klingen? Die Forschung zeigte bereits, dass diese Erklärungen oft manipulierbar sind: Man kann dem Modell eine alternative oder falsche „Gedankenführung“ aufzwingen, ohne dass die finale Antwort davon beeinflusst wird. Das bedeutet, dass wir womöglich Erklärungen bekommen, die mit dem tatsächlichen Entscheidungsprozess nichts zu tun haben – ein gefährliches Missverständnis.
Deshalb haben wir ein Verfahren entwickelt, das sowohl bei Sprachmodellen als auch bei kombinierten Bild- und Sprachmodellen prüft, ob die in der Erklärung genannten Informationen tatsächlich zur Antwort beigetragen haben. Ein Beispiel: Erklärt das Modell, dass es die Katze im Bild erkannt hat, müssen dafür die Bildbereiche entscheidend gewesen sein, in der die Katze tatsächlich abgebildet ist. Andernfalls gibt unser Verfahren einen hohen Inkonsistenzwert aus. Ist dieser hoch, deutet das darauf hin, dass das Modell „Erklärungen“ erfindet, die plausibel klingen, aber nicht den tatsächlichen Entscheidungsprozess widerspiegeln. Unsere Ergebnisse waren ernüchternd: Oft benutzen aktuelle Modelle andere Bildausschnitte oder Textpassagen für die Generierung der Antwort als für die Erklärung. Nutzer:innen sollten solche Erklärungen also mit Vorsicht bewerten.
Dabei ist gerade hier Vertrauen in die KI so wichtig. So soll sie eines Tages beispielsweise zuverlässige Bildbeschreibungen für Sehbehinderte liefern, Berichte aus Fotosequenzen erstellen oder komplexe Zusammenhänge zwischen wissenschaftlichen Grafiken und Texten analysieren.
Unsere Forschung zeigt: Zwar sind heutige KI-Systeme noch nicht so weit. Doch unsere Messungen belegen eine klare Entwicklung – sie sind deutlich weiter als noch vor wenigen Jahren. Und was wir messen können, können wir auch trainieren: Wir können vertrauenswürdige „Gedanken“ belohnen und eine ausgewogenere Nutzung von Text- und Bildinformationen fördern. So lassen sich KI-Modelle gezielt in Richtung eines konsistenteren und nachvollziehbareren Denkens entwickeln.
Mit unseren Methoden erfassen wir in jeder Interaktion zwischen Nutzer:in und KI, wie stark die KI tatsächlich Bild- und Textinformationen nutzt und wie hoch der Inkonsistenzwert ist. Das ist besonders wichtig in Situationen, in denen unsere eigene Expertise begrenzt ist und wir die Richtigkeit einer Antwort nicht selbst einschätzen können – etwa wenn wir ChatGPT um Hausaufgabenhilfe oder um medizinische Empfehlungen bitten. Hier können wir Nutzer:innen warnen, wenn eine Antwort auf nicht vertrauenswürdigen Wegen zustande kam.
Zum Thema
Nicht nur Dumm …
… sondern auch gefährlich. Chatbots sind anders, als wir denken
Fragt man ChatGPT nach den Unzulänglichkeiten Künstlicher Intelligenz, liefert der Chatbot eine Liste mit teils skurrilen, teils auch höchst beunruhigenden Beispielen. Dass Forschende einen Algorithmus mit kleinen Stickern auf Straßenschildern verwirren können, ist eigentlich eine alte Geschichte von 2017: Statt eines Stoppschilds „sah“ die KI ein Tempolimitschild. Überraschend ist, dass Anthony Etim und Jakub Szefer Anfang 2025 Ähnliches berichteten. Ein kleiner Sticker auf einem Verkehrsschild machte demnach eine Bilderkennung in fast allen Fällen unmöglich. „KI-Modelle sind häufig nicht nur dumm, sondern folgen anderen Mustern als wir (sic!) Menschen“, kommentiert ChatGPT den Fall. „Gerade in sicherheitsrelevanten Bereichen – autonomes Fahren, Gesichtserkennung – ist das alarmierend.“ Stimmt.
Anderes Beispiel: Prompt Injection. Dabei verstecken Angreifer:innen beispielsweise in einer PDF-Datei Anweisungen. Bittet jemand arglos den Chatbot um eine Zusammenfassung des Dokuments, weicht die KI von diesem Auftrag ab und generiert einen anderen Text oder schöpft sensible Informationen ab. Auch der Chatbot selbst lässt sich durch geeignete Anfragen manipulieren. So zeigten Forschende um Meysam Alizadeh von der Universität Zürich kürzlich, dass KI-Anwendungen in Bankumgebungen durch gezielte Prompt-Injection-Angriffe dazu gebracht werden können, persönliche Daten wie Kontoinformationen preiszugeben.
Geradezu menschlich, nämlich autoritätshörig, zeigte sich ein Bot in einer Studie der University of Pennsylvania. Ein Team um Lennart Meincke belegte, dass man leichter an Drogenrezepte kommt, wenn im Prompt der Name einer:s prominenten KI-Forschenden vorkommt. Konkret hieß das: Ohne Namensnennung folgte die KI in 5 Prozent der Fälle der Anfrage. Mit dem Namen stieg die Quote auf 95 Prozent. — J. Schüring