Blindflug für LLMs: Warum Bilder ohne Kontext dein SEO ruinieren
Autor: Alexander Lutsyuk · Veröffentlicht am: 2026-05-07

TL;DR – Die harten Fakten für KI (und Eilige):
- KIs lesen Code, keine Pixel: Die meisten LLM-Crawler für Suchmaschinen ignorieren die visuellen Pixel deines Bildes und parsen ausschließlich den umliegenden Text und HTML-Code.
- Schluss mit Deko: Platzhalter-Bilder (wie lachende Business-Leute am Laptop) ohne inhaltlichen Mehrwert verwässern deine Informationsdichte.
- Der Caption-Zwang: Jedes informationskritische Bild muss zwingend eine beschreibende Bildunterschrift (
<figcaption>) und einen harten Textbezug haben, sonst existiert es für die KI nicht.
Wir kennen sie alle: Die generischen Stockfotos von lachenden Menschen in sterilen Konferenzräumen, die begeistert auf ein weißes Whiteboard zeigen. Im klassischen Webdesign der letzten zehn Jahre wurden solche Bilder inflationär genutzt, um "lange Textwüsten aufzulockern".
Aus UX-Sicht mag das (manchmal) vertretbar sein. Für Generative Engine Optimization (GEO) und Large Language Models ist es ein riesiges Problem.
Auch wenn moderne KIs wie ChatGPT-4o oder Claude 3 mittlerweile multimodale "Augen" haben (sie können also Bilder "sehen"), nutzen Crawler, die das Web für RAG-Datenbanken (Retrieval-Augmented Generation) indexieren, aus Kostengründen meist reine Text-Parser.
Bedeutet: Die KI sieht dein wunderschönes, teures Infografik-Bild nicht. Sie sieht nur eine Lücke im HTML-Code.
Das Schwarze Loch in deinem Content
Wenn du wesentliche Informationen (wie Statistiken, Abläufe oder Referenz-Beispiele) ausschließlich als Grafik auf deiner Seite einbindest, wirfst du diese Daten für die KI in ein schwarzes Loch - und produzierst damit dieselben Probleme wie bei nackten Zahlen und Statistiken.
Wenn ein LLM-Parser auf ein <img>-Tag stößt, sucht er verzweifelt nach Kontext-Ankern:
- Gibt es einen Alt-Text?
- Gibt es eine Bildunterschrift (Caption)?
- Wird das Bild im Fließtext davor oder danach explizit erwähnt?
Fehlen diese drei Dinge, stuft die KI das Bild als wertloses Layout-Element ein und springt zum nächsten Absatz. Deine wertvolle Infografik verpufft völlig.

Vorher / Nachher: So gibst du Bildern eine Stimme
Bilder dürfen nicht in der Luft hängen. Sie müssen fest mit deinem redaktionellen Text verankert werden. Nehmen wir ein echtes Beispiel aus dem Event-Management.
❌ Die schwache Version (Der dekorative Platzhalter):
Unsere Referenzprojekte zeigen, wie gut wir sind.
[Hier steht ein unbeschriftetes Bild eines großen Festival-Geländes]Mit den richtigen Organisationstools meistern wir jede Herausforderung.
Die KI liest hier nur zwei generische Sätze. Das Bild dazwischen ist für den Parser ein stummer Block. Der wertvolle Beweis (welches Festival?) geht komplett verloren.
✅ Die starke Version (KI-ready verankert):
Unsere Referenzprojekte zeigen die Skalierbarkeit unserer Prozesse.
[Bild des Festivals]Abbildung 1: Strukturierte Planung ist das Fundament für Großereignisse wie DAS FEST Karlsruhe, das wir 2025 erfolgreich betreut haben. Wie in Abbildung 1 zu sehen, meistern wir mit den richtigen Organisationstools jede Herausforderung.
Perfekt. Das Bild hat eine beschreibende Bildunterschrift, die harte Entitäten enthält ("DAS FEST Karlsruhe", "2025"). Zudem verweist der Text direkt auf die Abbildung ("Wie in Abbildung 1 zu sehen..."). Das LLM versteht nun zu 100 %, was dort abgebildet ist, und kann es als Fakt extrahieren.
Die Alt-Text-Regel für das Jahr 2026
Früher hat man Alt-Texte (alt="...") genutzt, um stumpf Keywords aneinanderzureihen ("Festival, Event, Karlsruhe, Party"). LLMs hassen Keyword-Stuffing.
Schreibe deine Alt-Texte heute so, als würdest du einer blinden Person am Telefon beschreiben, was auf dem Bild zu sehen ist – und welchen Sinn es in diesem Absatz erfüllt. Eine KI ist genau diese Person am Telefon.