Ein oder zwei Wörter in ein KI-Tool tippen und auf ein Wunder hoffen – so läuft es bei KI-Bildgeneratoren wie Midjourney, DALL·E, Stable Diffusion oder Leonardo nur selten. Wer gezielt arbeitet, bekommt dagegen Illustrationen, Mockups und Szenen, die sich wirklich für Social Media, Präsentationen oder Prototypen eignen.
Der folgende Guide erklärt Schritt für Schritt, wie gute Prompts für KI-Bilder aufgebaut sind, welche Stellschrauben die Qualität bestimmen und wie sich ein wiederverwendbarer Prompt-Baukasten für den Alltag anlegen lässt.
Grundlagen: Wie KI-Bildgeneratoren Prompts verstehen
KI-Bildgeneratoren (Image-Modelle) wandeln eine Texteingabe in ein Bild um. Sie arbeiten dabei nicht wie eine Suchmaschine, sondern „erfinden“ ein neues Bild auf Basis von Mustern, die während des Trainings gelernt wurden.
Was im Prompt wirklich wichtig ist
Für praktisch alle Tools – ob Midjourney, DALL·E, Stable Diffusion, Leonardo AI, Ideogram oder weitere – lässt sich der Prompt grob in vier Teile gliedern:
- Motiv: Was ist zu sehen? (Objekte, Personen, Szene)
- Stil: Zeichenstil, Foto-Look, Epoche, Referenzkünstler (ohne geschützte Namen zu missbrauchen)
- Technik: Kameraeinstellungen, Licht, Renderstil, Farbstimmung
- Format & Komposition: Perspektive, Bildausschnitt, Hoch-/Querformat
Je konkreter diese Bausteine beschrieben sind, desto konsistenter werden die Ergebnisse. Wer häufig mit Text-KI arbeitet, profitiert von den gleichen Prinzipien wie beim Strukturieren von Chat-Prompts: Klarheit, Kontext und Ziel.
Prompt-Struktur für Bilder: ein einfaches Baukasten-Modell
Damit Bild-Prompts nicht jedes Mal neu erfunden werden müssen, hilft eine feste Struktur. Sie kann in jedem Tool genutzt werden – die Syntax (z. B. Parameter bei Midjourney) kommt nur „obendrauf“.
Ein universelles Prompt-Schema
Ein bewusst einfach gehaltenes Schema sieht zum Beispiel so aus:
- Motiv: "Was genau ist im Fokus?"
- Szene: "Wo spielt das Ganze, welche Umgebung?"
- Stil: "Illustration, Foto, 3D, Comic, Flat Design, Aquarell …?"
- Stimmung: "Emotionaler Ton: ruhig, dramatisch, lebendig, düster …?"
- Technische Details: "Licht, Linse, Auflösung, Rendering-Stil, Farben"
- Format/Komposition: "Close-up, Totale, Vogelperspektive, quadratisch …"
Ein fertiger Prompt könnte dann so aussehen:
„Futuristische Straßenkreuzung bei Nacht, nasse Straße mit spiegelnden Neonlichtern, einzelne Person im Mantel mit Regenschirm, weitwinklige Fotografie, cinematischer Look, weiches Seitenlicht, starke Kontraste, dezente Blautöne, Querformat, leicht von oben“.
Vorteil dieser Struktur: Sie lässt sich als Vorlage abspeichern und für viele Motive nur noch ausfüllen, anstatt jedes Mal bei Null anzufangen.
Beispiele: von schwachen zu starken Bild-Prompts
Es ist leichter zu verstehen, was gute Eingaben ausmacht, wenn schwache und starke Varianten nebeneinander stehen. Die folgende Mini-Tabelle zeigt typische Unterschiede.
| Schwacher Prompt | Stärkerer Prompt |
|---|---|
| „Hund im Park“ | „Kleiner brauner Hund, rennt durch einen sonnigen Stadtpark, eingefroren im Sprung, scharfe Sportfotografie, leichter Bokeh-Hintergrund, warme Farben, Querformat“ |
| „Büro Illustration“ | „Minimalistische Flat-Design Illustration eines modernen Coworking-Spaces, Menschen an Laptops, große Fenster, neutrale Pastellfarben, isometrische Perspektive, sauberer Vektor-Look, geeignet als Headergrafik“ |
| „Sci-Fi Stadt“ | „Weitläufige Sci-Fi Megacity bei Sonnenuntergang, Hochhäuser mit Hologramm-Werbung, fliegende Fahrzeuge, detailreiche 3D-Rendering-Optik, atmosphärischer Nebel, high dynamic range, Kinofilm-Mood“ |
Häufige Fehler in Prompts vermeiden
Typische Stolperfallen bei KI-Bildern:
- Zu viele Motive in einem Bild (besser: mehrere Varianten mit unterschiedlichen Schwerpunkten erzeugen)
- Keine klare Bildsprache (Foto, Illustration, 3D – die KI muss raten)
- Widersprüchliche Angaben („dunkle Szene, aber knalliges Volllicht“)
- Markennamen oder geschützte Figuren verlangen (rechtlich heikel und oft blockiert)
Besser ist es, gezielt einzelne Aspekte zu testen: erst das Motiv sauber formulieren, dann Stil ausprobieren, dann Licht und Perspektive variieren.
Unterschiede der Tools: Midjourney, DALL·E, Stable Diffusion, Leonardo
Während der Aufbau von Prompts ähnlich ist, reagieren die verschiedenen Tools unterschiedlich auf Anweisungen. Das ist für den Alltag wichtig, wenn Ergebnisse zwischen Tools verglichen werden sollen.
Midjourney: starke Ästhetik, eigene Syntax
Midjourney (Discord-basiert) ist bekannt für starke, oft sehr stilisierte Ergebnisse. Der Prompt selbst kann in natürlicher Sprache formuliert werden, wird aber häufig durch Parameter ergänzt:
- Seitenverhältnis: z. B. „–ar 16:9“
- Detailgrad: etwa „–v“ für Modellversion
- Stilregler: z. B. „–stylize“
Wichtig: Midjourney reagiert stark auf Stilbegriffe wie „cinematic“, „editorial photography“, „studio lighting“. Es lohnt sich, Bildsprachen aus der Film- oder Fotowelt gezielt zu nutzen.
DALL·E (z. B. in ChatGPT): natürlichsprachlich und kontextfähig
Modelle wie DALL·E 3 (in ChatGPT integriert) legen viel Wert auf verständliche Sätze und Kontext. Statt Listen funktionieren hier komplette Beschreibungen besonders gut, etwa:
„Erzeuge ein ruhiges Titelbild für einen Blogartikel über KI-Bildgeneratoren: moderne Illustration eines Schreibtischs mit Laptop, daneben Skizzenblätter, warme neutrale Farben, flache Perspektive, viel Freiraum rechts für Text, cleanes Design.“
Praktisch: Über mehrere Chat-Nachrichten lässt sich das Bild iterativ verbessern – ähnlich wie bei KI-Workflows mit ChatGPT. Statt jedes Mal neu zu starten, kann das Modell Bildanweisungen nachträglich anpassen (“gleiche Szene, aber abends mit warmem Kunstlicht”).
Stable Diffusion & Leonardo: mehr Kontrolle, mehr Technik
Open-Source-Modelle wie Stable Diffusion und darauf aufbauende Plattformen (z. B. Leonardo) bieten oft mehr Kontrolle: Negativ-Prompts (was NICHT im Bild erscheinen soll), Modelle für bestimmte Stile und viele Einstellmöglichkeiten.
- Positiver Prompt: beschreibt Motiv, Stil, Licht, Farben und Komposition
- Negativer Prompt: listet Dinge auf, die die KI vermeiden soll (z. B. „deformed hands, extra fingers, text, watermark“)
Gerade bei Händen, Text im Bild oder komplexen Posen helfen Negativ-Prompts, typische Fehler zu reduzieren. Viele Plattformen bieten außerdem vorgefertigte Styles, die als Ausgangspunkt dienen können.
Praxis-Checkliste: gute KI-Bildprompts in 7 Schritten
Die folgende kompakte Checkliste eignet sich als Mini-Workflow für alle, die wiederkehrend mit KI-Bildgeneratoren arbeiten – ob im Marketing, Design oder für interne Präsentationen.
So geht’s – Schritt-für-Schritt-Checkliste
- Zweck klären: Social-Post, Headergrafik, Präsentationsfolie, Icon, Mockup? Der Einsatzzweck bestimmt Bildformat und Stil.
- Motiv definieren: Wer oder was soll im Fokus stehen? Möglichst konkret und in einem Satz formulieren.
- Stil festlegen: Foto, Illustration, Comic, 3D, Flat-Design – und optional Realismusgrad („hyperrealistic“, „minimalistic“).
- Stimmung hinzufügen: Welche Emotion soll das Bild transportieren? Ruhig, inspirierend, dramatisch, verspielt?
- Technik ergänzen: Lichtquelle, Perspektive, Farbschema, Bildformat (16:9, 9:16, 1:1) notieren.
- Serien erzeugen: Mehrere Varianten mit kleinen Änderungen erzeugen, nicht alle Wünsche in einen Prompt packen.
- Best-of speichern: Gute Prompts als eigene Bibliothek archivieren – z. B. in Notion, Confluence oder einem einfachen Dokument.
Wer bereits einen strukturierten Content-Workflow nutzt – etwa mit Content-Baukästen für Social Media – kann Bild-Prompts dort direkt integrieren und standardisieren.
Fortgeschritten: Konsistente Charaktere und Serien aufbauen
Einer der größten Praxis-Nutzen von KI-Bildern entsteht, wenn wiedererkennbare Serien gebaut werden: gleiche Charaktere, ähnliche Szenerien, passender Stil über mehrere Motive hinweg.
Wiedererkennbare Figuren definieren
Um einen Charakter wiederholt zu erzeugen, helfen klare Beschreibungen:
- Körperbau, Alter, Haut- und Haarfarbe
- Typische Kleidung und Accessoires
- Wiederkehrende Merkmale: Brille, Sommersprossen, bestimmte Frisur
Ein Beispiel:
„Junge Frau Ende 20, mittellange lockige dunkle Haare, leichte Sommersprossen, runde Brille, bequemer Kapuzenpulli in Pastellgrün, Jeans, freundlicher Ausdruck“.
Dieser Charakter wird dann in allen Prompts gleich beschrieben, ergänzt um die jeweilige Szene („im modernen Büro“, „im Park“, „im Homeoffice vor Laptop“). So entsteht eine Serie, die sich für Blog-Artikel, interne Schulungsunterlagen oder Social-Kampagnen eignet.
Stil-Guides und Prompt-Bibliothek anlegen
Für Teams lohnt es sich, einen kleinen Stil-Guide für KI-Bildgeneratoren zu erstellen:
- Bevorzugte Stile (z. B. „minimalistische Flat-Design Illustration in sanften Pastelltönen“)
- No-Gos (z. B. „kein Fotorealismus bei erklärenden Infografiken“)
- Vorgefertigte Prompt-Templates für typische Use-Cases
Diese Bibliothek kann ähnlich aufgebaut werden wie ein Designsystem – angelehnt an Prinzipien, die auch bei Design-Tokens im Webdesign genutzt werden: zentrale Definition, dann wiederverwenden.
Qualität prüfen: Wie sich KI-Bilder systematisch bewerten lassen
Auch mit guten Prompts entstehen manchmal „fast passende“ Bilder. Statt sich auf das Gefühl zu verlassen, hilft eine kurze Checkliste zur Bewertung.
Mini-Ratgeber: Bildqualität schnell einschätzen
- Lesbarkeit: Ist auf den ersten Blick klar, worum es geht? Oder ist das Bild überladen?
- Motivtreue: Entspricht das Bild wirklich der Aufgabenstellung (Thema, Kontext, Zielgruppe)?
- Details: Hände, Gesichter, Text im Bild – wirken sie stimmig oder „kaputt“?
- Stil-Konsistenz: Passt der Look zu bestehenden Bildern, Markenfarben oder Corporate Design?
- Verwendbarkeit: Gibt es genug Freiraum für Überschriften, Logos oder UI-Elemente?
Passend bewertete Beispiele und ein kurzes Feedback-Protokoll (z. B. „Version B nehmen, aber Hintergrund vereinfachen“) helfen, Prompts in den nächsten Runden gezielt zu verbessern.
Recht & Ethik: worauf bei KI-Bildern geachtet werden sollte
Auch wenn die rechtliche Lage je nach Land unterschiedlich ist, gibt es ein paar Grundsätze, die sich in vielen Teams als Best Practices etabliert haben.
Marken, Personen und sensible Inhalte meiden
- Real existierende Markenlogos und geschützte Figuren nicht imitieren.
- Echte Personen nur mit klarer Einwilligung und transparentem Umgang mit KI-Bildern darstellen.
- Sensible Themen (Gesundheit, Politik, Religion u. a.) besonders sorgsam prüfen – vor allem, wenn die Bilder öffentlich verbreitet werden.
Viele Unternehmen definieren eigene Guidelines für den Umgang mit KI-Inhalten – ähnlich wie bei Social Media Guidelines im Team. Das reduziert Unsicherheiten und sorgt für konsistente Entscheidungen.
Transparenz und Kennzeichnung
Gerade im professionellen Kontext ist es sinnvoll, intern klar zu kennzeichnen, welche Bilder KI-generiert sind. Das erleichtert spätere Anpassungen und verhindert Missverständnisse etwa bei Agentur- oder Kundenprojekten.
Ein pragmatischer Ansatz:
- Dateinamen oder Metadaten mit einem „AI-“ Präfix versehen
- Im Projekt- oder Ticket-System kurz vermerken, über welches Tool das Bild entstanden ist
- Prompts beim Speichern des Bildes dokumentieren, um Varianten nacherzeugen zu können
Damit werden KI-Bilder zu reproduzierbaren Assets statt zu einmaligen Zufallsfunden.
Quellen
- Eigene Praxis-Erfahrungen mit aktuellen KI-Bildgeneratoren (Midjourney, DALL·E, Stable Diffusion, Leonardo AI)
- Allgemeine Dokumentation und Nutzungsbedingungen gängiger KI-Plattformen

