Wie LLMs funktionieren
- LLMs sind Muster-Maschinen: Sie sagen das wahrscheinlichste naechste Wort voraus -- kein echtes "Verstehen"
- Sie halluzinieren, weil sie kein "Ich weiss nicht" kennen -- sie fuellen Luecken immer mit plausibel klingendem Text
- Kontext steuert die Qualitaet: Je mehr Ankerpunkte du setzt, desto besser das Ergebnis
- Modellgroesse = Wissenstiefe: Haiku (schnell, guenstig) vs. Opus (tief, teuer) -- wie Praktikant vs. erfahrene Kollegin
LLMs raten immer -- auch wenn sie sich sicher anhören. Dein Job ist, ihnen genug Kontext zu geben, damit sie gut raten.
Der Generationssprung
- In 2 Jahren: 10-25x groesser, kann nachdenken, sieht 8x mehr Kontext
- Extended Thinking: Modell plant und prueft sich selbst -- GPQA stieg von ~51% auf 87-91%
- Context Window von 128K auf 1M -- das sind ~2.500 Seiten, die das Modell gleichzeitig "sieht"
- Opus 4.6 und GPT-5.4 liegen auf Augenhöhe -- beide weit jenseits von GPT-4o
Alles, was du letztes Jahr über AI-Limitierungen gelernt hast, ist veraltet. Frontier-Modelle 2026 sind eine andere Kategorie als GPT-4o.
Prompt vs. Skill -- Das Spektrum
- Das Spektrum: Einzelprompt --> Template --> Prompt-Chain --> Skill --> Agent
- Break-even bei etwa ~6 Nutzungen -- danach lohnt sich die Investition in Struktur
- Prompts fuer Exploration und Kreativitaet. Skills fuer wiederkehrende Aufgaben mit Qualitaetsanspruch
- Sweet Spot fuer Product Owner: Template bis Skill/Workflow -- nicht Agent
Wenn du eine Aufgabe zum dritten Mal gleichartig promptest, bau ein Template. Das ist der größte Hebel für Produktivität.
MCP -- Die Steckdosenleiste
- USB-C fuer AI -- ein universeller Standard, damit LLMs mit beliebigen Tools kommunizieren
- Offener Standard, ueber 1.000+ MCP-Server bereits verfuegbar
- Orchestrator-Workers Pattern: Ein LLM entscheidet, welche Tools es braucht -- Jira, Confluence, Calendar, Slack
- Jeder Worker beschreibt seine Faehigkeiten selbst (Tool Discovery) -- Plug-and-Play
MCP bedeutet: Ein LLM kann auf alle Tools zugreifen, die den Standard sprechen. Fragt euer IT-Team: "Welche MCP-Server gibt es für unsere Tools?"
Halluzinationen
- Halluzinationsraten variieren massiv nach Aufgabe: Zusammenfassungen (1-3%) vs. Quellenangaben (bis 94%)
- Reasoning-Modelle halluzinieren bei offenen Fragen teilweise mehr, nicht weniger (o3: 51-79% auf SimpleQA)
- RAG (Retrieval-Augmented Generation) reduziert Halluzinationen um ~71%
- Historisch: Von 21,8% auf 0,7% bei Summarization (2021-2025) -- eine 96% Verbesserung
Vertraue niemals einer AI-generierten Quellenangabe blind. Halluzinationsraten bei Zitaten liegen bei bis zu 94%. Immer prüfen.
Bias -- Was POs wissen müssen
- 85% der AI-Resume-Screener bevorzugen weiss klingende Namen (UW 2024)
- 5-Minuten-Bias-Check: Swap, Challenge, Flip, Source, Compare -- kein ML-Wissen noetig
- EU AI Act Timeline: Verbote seit Feb 2025, GPAI seit Aug 2025, Hochrisiko ab Aug 2026
Wenn ein AI-Output "zu glatt" klingt -- keine Widersprüche, keine Unsicherheit -- ist Sycophancy wahrscheinlich. Fordere explizit Gegenargumente ein.
IP und Datenschutz
- 3 Tiers: Public (Free) = keine Vertraulichkeit. Business = Training abschaltbar. Enterprise = AVV + EU-Hosting
- DSGVO greift bei LLMs, sobald personenbezogene Daten im Prompt stehen -- auch wenn das Modell selbst keine speichert
- Anonymisierung ist Pflicht -- Pseudonymisierung reicht fuer interne Dokumente
- EU AI Act: Verbotene Praktiken seit Feb 2025, GPAI seit Aug 2025, Hochrisiko ab Aug 2026
Faustregel: Wenn du es nicht auf eine Postkarte schreiben würdest, gib es nicht ins LLM. Im Zweifel anonymisieren, Enterprise-Tier nutzen, oder den DSB fragen.
Produktivität -- echte Zahlen
- Harvard/BCG: 758 Berater, +12,2% Tasks, 25,1% schneller -- aber Jagged Frontier: nicht jeder Task profitiert
- ~90% der Unternehmen messen keinen Produktivitaetseffekt (NBER 2026)
- Leveling-Effekt: Die schwaechsten Mitarbeiter profitieren am meisten (+43%), die besten kaum
- Wahrnehmungsluecke: 39 Punkte zwischen gefuehlter und tatsaechlicher Beschleunigung (METR 2025)
Die Grenze ist gezackt, nicht linear. Wer sie nicht kennt, überlässt AI Aufgaben, die sie nicht kann. Kenne deine Jagged Frontier.
QA-Toolkit -- Die 4 QA-Momente
- DoR zuerst: Qualitaetskriterien definieren, bevor AI generiert -- nicht danach
- Rollenwechsel: "Du bist jetzt ein skeptischer Senior Developer. Review jede Sub-Story gegen unsere DoR."
- Stress-Test: AI als haertester Kritiker einsetzen, bevor echte Stakeholder den Output sehen
- Forensisch: AI prueft ihre eigenen Outputs gegen Quellen -- gedeckt vs. interpretiert vs. hinzugedichtet
QA ist kein Schritt am Ende, sondern 4 Momente während der Arbeit. Die Reihenfolge ist: sachlich --> peer review --> adversarial --> forensisch.
RAG erklärt -- Wenn eure AI Firmenwissen braucht
- RAG = Retrieval-Augmented Generation -- KI schlaegt erst nach, dann antwortet
- Beispiel: AllianzGPT -- 60.000 Nutzer, kennt das Confluence der Allianz, 95% woechentliche Nutzung
- Reduziert Halluzinationen um ~71% -- weil die AI auf echte Dokumente zurueckgreift
- RAG vs. MCP: RAG = Wissen nachschlagen. MCP = Aktionen ausfuehren. Beide ergaenzen sich
RAG ist das Nachschlagewerk für eure AI. Aber es ist nur so gut wie eure Daten. Datenqualität ist und bleibt eine PO-Aufgabe.