In vielen Teams ist KI längst Alltag: Texte, Zusammenfassungen, Bilder, Recherche, Code. Trotzdem scheitern Projekte oft nicht an der Technik, sondern an Sprache. Wenn die eine Person „Modell“ sagt und die andere „Tool“ meint, entstehen falsche Erwartungen. Wenn „Halluzination“ nur als Witz verstanden wird, fehlt die Qualitätskontrolle. Dieses Glossar hilft dabei, KI-Begriffe einheitlich zu verwenden – verständlich, praxisnah und ohne Buzzwords.
Warum ein gemeinsames KI-Vokabular Probleme verhindert
Missverständnisse kosten Zeit, Geld und Vertrauen
KI-Projekte starten häufig mit einer Mischung aus Neugier und Druck. In dieser Phase werden Begriffe schnell „übernommen“, ohne sie zu klären. Das führt zu typischen Reibungen: Ein Team erwartet verlässliche Fakten, bekommt aber kreative Vorschläge. Oder eine Abteilung denkt, ein Tool könne „mit internen Daten trainiert werden“, obwohl tatsächlich nur eine Suche in Dokumenten gemeint ist. Ein gemeinsames Glossar ist kein akademisches Extra, sondern ein praktisches Kontrollinstrument.
Ein Glossar macht Anforderungen messbarer
Wenn die Begriffe klar sind, werden Aufgaben besser formulierbar: Welche Eingaben sind nötig? Welche Ausgabeform wird erwartet? Welche Risiken sind akzeptabel? Das ist besonders wichtig, wenn mehrere Tools genutzt werden (z. B. ChatGPT, Claude, Gemini, DeepSeek oder Grok) und Ergebnisse zusammenfließen.
Grundbegriffe: Tool, Modell, Chat und Agent
Tool vs. Modell: Was ist was?
Ein Tool ist die Anwendung, die genutzt wird (Webseite, App oder API). Ein Modell ist der „Motor“ darunter, der Text, Bilder oder andere Ausgaben erzeugt. Ein Tool kann mehrere Modelle anbieten, und ein Modell kann in mehreren Tools stecken. Diese Unterscheidung spart Diskussionen, wenn es um Qualität, Kosten oder Datenschutz geht.
LLM: Sprachmodell in einfach
Ein LLM (Large Language Model) ist ein KI-Modell, das Sprache verarbeitet: es kann Texte fortsetzen, Fragen beantworten, Inhalte umformulieren, strukturieren oder Code schreiben. Wichtig: Ein LLM „weiß“ nicht wie ein Mensch. Es berechnet plausible nächste Wörter auf Basis von Trainingsdaten und Kontext. Darum wirkt es oft sicher, kann aber trotzdem falsch liegen.
Agent: Wenn KI Aufgaben selbstständig abarbeitet
Ein Agent ist ein Setup, bei dem ein Modell nicht nur antwortet, sondern mehrere Schritte ausführt: planen, Zwischenresultate prüfen, Tools aufrufen, wiederholen. In der Praxis kann das heißen: „Suche Informationen, erstelle eine Liste, formatiere sie als Tabelle und prüfe Widersprüche.“ Agenten klingen nach Autopilot, bleiben aber nur so gut wie die Regeln, Daten und Grenzen, die ein Team setzt.
Prompts, Rollen und Anweisungen: Wie KI gelenkt wird
Prompt: nicht nur eine Frage
Ein Prompt ist die Eingabe an die KI: Frage, Aufgabe, Kontext, Beispiele und gewünschtes Format. Gute Prompts sind weniger „magische Formeln“ als klare Arbeitsaufträge. Sinnvoll ist, neben dem Ziel auch Einschränkungen zu nennen (z. B. Ton, Länge, Struktur) und die Daten, auf die sich die Antwort stützen soll.
System- und Nutzeranweisung: Priorität verstehen
Viele KI-Tools arbeiten mit mehreren Ebenen von Anweisungen. Grob gilt: System-Einstellungen (z. B. Stil, Grenzen, Sicherheitsregeln) haben höhere Priorität als Nutzertexte. Das ist relevant, wenn ein Team sich wundert, warum ein Modell trotz genauer Eingabe etwas verweigert oder anders formatiert.
Few-shot: Lernen durch Beispiele
„Few-shot“ bedeutet: Das Modell bekommt 1–5 Beispiele, wie eine Aufgabe gelöst werden soll. Beispiel: Zwei Beispiel-Produkttexte plus die Struktur, die am Ende herauskommen soll. Diese Methode ist oft stabiler als lange Erklärungen, weil sie das gewünschte Muster zeigt.
Kontext, Token und Grenzen: Warum lange Chats kippen
Kontextfenster: Der Arbeitsbereich der KI
Modelle können nur eine bestimmte Menge Text „gleichzeitig“ berücksichtigen. Dieses Limit heißt Kontextfenster. Wird es überschritten, werden frühere Teile gekürzt oder weniger stark berücksichtigt. In der Praxis merkt man das, wenn ein Chat anfängt zu widersprechen oder Details „vergisst“.
Token: Zähleinheit für Text
Ein Token ist eine kleine Texteinheit (oft Wortteile). Token sind relevant für Limits und Kosten in APIs. Wichtig für Teams: Lange Dokumente, viele Beispiele und große Tabellen verbrauchen Token schnell. Wer regelmäßig große Inhalte nutzt, sollte Prozesse bauen: erst strukturieren, dann verdichten, dann final schreiben.
Warum „Erinnere dich“ nicht dasselbe ist wie Memory
In einem laufenden Chat kann ein Modell nur im Rahmen des Kontextfensters „erinnern“. Manche Tools bieten zusätzlich Memory-Funktionen, die Informationen über Sessions hinweg speichern. Das ist nützlich, aber auch ein Datenschutzthema: Teams sollten klären, welche Informationen überhaupt dauerhaft gespeichert werden dürfen.
Qualität und Risiken: Halluzination, Bias und Overconfidence
Halluzination: plausibel, aber falsch
Halluzination bedeutet: Das Modell erzeugt Aussagen, die überzeugend klingen, aber nicht stimmen. Das passiert besonders bei Detailfragen, Zahlen, rechtlichen Aussagen oder „Nischenthemen“. Ein Team sollte Halluzinationen nicht als Ausnahme behandeln, sondern als normales Risiko generativer KI.
Bias: Verzerrungen aus Daten und Kontext
Bias sind systematische Verzerrungen. Sie können aus Trainingsdaten stammen (z. B. Stereotype) oder aus dem Prompt (z. B. eine suggestive Fragestellung). Praktischer Umgang: neutral formulieren, Alternativen abfragen („Nenne Gegenargumente“) und Ergebnisse gegen echte Kriterien prüfen.
Overconfidence: Ton klingt sicher, Inhalt ist es nicht
Viele Modelle formulieren flüssig und bestimmt. Diese Sicherheit ist kein Qualitätsbeweis. Sinnvoll sind klare Team-Regeln: Wo müssen Quellen geprüft werden? Wo reicht Plausibilität? Welche Inhalte brauchen Freigabe?
Daten, Training und RAG: Was wirklich mit eigenen Infos passiert
Training vs. Feintuning vs. „mit Dokumenten arbeiten“
„Training“ wird im Alltag oft als Sammelbegriff genutzt. Praktisch gibt es Unterschiede: Beim allgemeinen Training werden riesige Datensätze genutzt (das macht man als Team normalerweise nicht). Feintuning heißt: ein Modell wird gezielt mit Beispielen nachjustiert. Und häufig gemeint ist eigentlich: Das Modell soll auf interne Dokumente zugreifen, ohne selbst neu trainiert zu werden.
RAG: Antworten mit Dokumentenbezug
RAG (Retrieval-Augmented Generation) bedeutet: Vor der Antwort sucht ein System passende Textstellen in Dokumenten und gibt sie als Kontext mit. Das Modell „erfindet“ dadurch nicht automatisch weniger, aber es kann sich auf konkrete Passagen stützen. Wichtig ist die Qualität der Dokumente, die Suche (Treffer) und die klare Anweisung, nur mit dem gelieferten Kontext zu arbeiten.
Embeddings: Text wird für Suche „übersetzt“
Embeddings sind Zahlen-Vektoren, die Bedeutung abbilden. Damit kann ein System ähnliche Inhalte finden, auch wenn die Wörter nicht identisch sind. In der Praxis steckt das oft hinter „semantischer Suche“ in Wissensdatenbanken oder Chatbots mit eigenen Dokumenten.
Multimodal: Wenn KI nicht nur Text verarbeitet
Text + Bild + Audio: Was multimodal heißt
Multimodal bedeutet, dass ein Modell mehrere Eingabearten versteht (z. B. Text und Bild) und ggf. auch mehrere Ausgabearten erzeugt. Beispiele: Screenshot analysieren und eine Fehlermeldung erklären; ein Foto beschreiben; eine Skizze in Anforderungen übersetzen.
Praktischer Tipp: Aufgaben trennen
Multimodale Modelle sind stark, aber in Workflows hilft oft Aufteilung: Erst Bild verstehen (Beschreibung/Extraktion), dann strukturieren (Tabelle/Checklist), dann Text produzieren (Mail/Briefing). Das macht Ergebnisse nachvollziehbarer.
Ein Mini-Glossar zum Nachschlagen (inkl. Missverständnissen)
| Begriff | Einfach erklärt | Typisches Missverständnis |
|---|---|---|
| Modell | Der KI-Motor, der Inhalte erzeugt. | „Das Tool ist das Modell“ (nein: Tool kann Modelle wechseln). |
| Tool | App/Website/API, die ein oder mehrere Modelle nutzt. | „Ein Abo = ein Modell“ (oft sind mehrere enthalten). |
| Prompt | Arbeitsauftrag an die KI inkl. Kontext und Format. | „Nur eine Frage“ (oft fehlen Ziel, Daten, Output-Format). |
| Kontextfenster | Maximaler Textumfang, den das Modell gleichzeitig berücksichtigt. | „Es erinnert sich an alles im Chat“ (nur bis zur Grenze). |
| Token | Zähleinheit für Text; beeinflusst Limits und Kosten. | „Wörter zählen reicht“ (Token sind oft Wortteile). |
| RAG | Suche in Dokumenten + Antwort mit gefundenen Passagen. | „Das ist Training“ (meist keine Modelländerung). |
| Embedding | Zahlen-Vektor, der Bedeutung für semantische Suche abbildet. | „Das sind Keywords“ (es geht um Ähnlichkeit, nicht nur Wörter). |
| Halluzination | Plausibel klingende, aber falsche Aussage. | „Passiert nur selten“ (Risiko ist normal, je nach Aufgabe). |
| Temperatur | Einstellung, wie variabel/kreativ Antworten werden. | „Höher = besser“ (für Fakten oft niedriger sinnvoll). |
Kurze Praxisbox: Glossar im Team wirklich nutzen
In 20 Minuten zu gemeinsamen Begriffen
- 10 Kernbegriffe auswählen, die in Meetings ständig auftauchen (z. B. Modell, Prompt, Kontextfenster, RAG).
- Pro Begriff eine Ein-Satz-Definition vereinbaren und ein Negativbeispiel notieren („Das ist es nicht“).
- In Vorlagen ergänzen: Briefing-Template, Meeting-Protokoll, Ticket-Template.
- Bei neuen Kolleg:innen: Glossar als Teil des Onboardings verankern.
- Alle 4–8 Wochen kurz prüfen: Welche Begriffe sind dazugekommen, welche werden falsch verwendet?
Typische Fragen aus der Praxis
Warum liefern zwei Tools unterschiedliche Antworten auf denselben Prompt?
Weil Modelle sich unterscheiden (Trainingsdaten, Sicherheitsregeln, Systemvorgaben) und weil kleine Unterschiede im Kontext große Effekte haben können. Für Teams lohnt sich ein kleines Testset mit 5–10 Standardaufgaben, um Erwartungen realistisch zu halten. Passend dazu hilft KI-Tool-Ergebnisse vergleichen – fair testen statt Bauchgefühl.
Wie lässt sich Qualität sichern, ohne jedes Ergebnis manuell zu prüfen?
Mit klaren Output-Formaten, kurzen Prüfschritten und Verantwortlichkeiten. Oft reicht ein zweistufiger Ablauf: KI erstellt Entwurf + zweite Person prüft nur die kritischen Stellen (Zahlen, Namen, rechtliche Aussagen). Für praktische Prüfschritte ist KI-Output bewerten – Qualität prüfen mit 5 einfachen Tests hilfreich.
Welche Begriffe sind für Datenschutz-Diskussionen entscheidend?
Wichtig sind: personenbezogene Daten, sensible Inhalte, Aufbewahrung, Weitergabe an Dritte sowie der Unterschied zwischen „Chat-Eingabe“ und „dauerhaft gespeichertes Memory“. Für einen praxisnahen Einstieg eignet sich Datenschutz mit KI – sensible Inhalte sicher bearbeiten.
Ein gutes KI-Glossar muss nicht lang sein. Es muss im Alltag funktionieren: kurz, eindeutig und in den Stellen eingebaut, an denen Entscheidungen fallen (Briefings, Tickets, Freigaben). Dann wird aus „KI kann das doch“ ein gemeinsamer, realistischer Anspruch.

