AI für Product Owner - Nachschlagewerk: LLMs, DSGVO, MCP, Halluzinationen

Abschnitt 1

Wie LLMs funktionieren

PO-Insight

Wie LLMs funktionieren -- in 60 Sekunden

Die Hand-Analogie

Spreize deine Hand. Die Finger = Wissen des Modells. Die Luft dazwischen = Luecken.

Auf den Fingern weiss die AI. In den Luecken raet sie -- kreativ, manchmal inspirierend, manchmal falsch.

Wissen (Finger) Luecken (Luft)

Kleines Modell = mehr Luft. Grosses Modell = weniger Luft, dichteres Wissen.

Die Raum-Analogie

?

Ohne Kontext

Generisches Wohnzimmer

OK

Mit Ankerpunkten

Dein Badezimmer

Kontext = Ankerpunkte setzen. Mehr Kontext = genaueres Ergebnis. Weniger Kontext = mehr Raten.

LLMs sind Muster-Maschinen: Sie sagen das wahrscheinlichste naechste Wort voraus -- kein echtes "Verstehen"
Sie halluzinieren, weil sie kein "Ich weiss nicht" kennen -- sie fuellen Luecken immer mit plausibel klingendem Text
Kontext steuert die Qualitaet: Je mehr Ankerpunkte du setzt, desto besser das Ergebnis
Modellgroesse = Wissenstiefe: Haiku (schnell, guenstig) vs. Opus (tief, teuer) -- wie Praktikant vs. erfahrene Kollegin

Merke dir

LLMs raten immer -- auch wenn sie sich sicher anhören. Dein Job ist, ihnen genug Kontext zu geben, damit sie gut raten.

Abschnitt 2

Der Generationssprung

GPT-4o (2024) vs. Frontier 2026

Der Generationssprung -- verifizierte Zahlen

PhD-Reasoning (GPQA)

~51% --> 87-91%

+70-80% relativ

Real-World Coding (SWE)

33% --> 75-81%

+127-145% relativ

Halluzinationen

-45% bis -80%

mit Web / mit Thinking

Context Window

128K --> 1M

8x mehr -- ~2.500 Seiten

Chatbot Arena ELO

~1290 --> 1504

Opus 4.6 Thinking = #1

Neues Feature

Extended Thinking

Modell "denkt nach" vor der Antwort

Quellen: OpenAI, Anthropic, LMSYS, FutureSearch | April 2026

In 2 Jahren: 10-25x groesser, kann nachdenken, sieht 8x mehr Kontext
Extended Thinking: Modell plant und prueft sich selbst -- GPQA stieg von ~51% auf 87-91%
Context Window von 128K auf 1M -- das sind ~2.500 Seiten, die das Modell gleichzeitig "sieht"
Opus 4.6 und GPT-5.4 liegen auf Augenhöhe -- beide weit jenseits von GPT-4o

Merke dir

Alles, was du letztes Jahr über AI-Limitierungen gelernt hast, ist veraltet. Frontier-Modelle 2026 sind eine andere Kategorie als GPT-4o.

Abschnitt 3

Prompt vs. Skill -- Das Spektrum

Entscheidungshilfe

Wann was? -- Die Entscheidungsmatrix

Prompt reicht

Exploration: Ideen generieren, Brainstorming

Einmalig: Frage, die sich nicht wiederholt

Kreativ: Keine festen Akzeptanzkriterien

Schnell: Ergebnis in unter 2 Min. noetig

Skill/Workflow besser

Wiederkehrend: Mehr als 3x pro Woche gleiche Aufgabe

Team: Mehrere Leute, gleicher Output noetig

Qualitaet: Definierte Akzeptanzkriterien

Compliance: Audit Trail, Nachvollziehbarkeit

Faustregel: 1x = Prompt. 5x = Template. 50x = Skill mit Qualitaetschecks.

Das Spektrum: Einzelprompt --> Template --> Prompt-Chain --> Skill --> Agent
Break-even bei etwa ~6 Nutzungen -- danach lohnt sich die Investition in Struktur
Prompts fuer Exploration und Kreativitaet. Skills fuer wiederkehrende Aufgaben mit Qualitaetsanspruch
Sweet Spot fuer Product Owner: Template bis Skill/Workflow -- nicht Agent

Merke dir

Wenn du eine Aufgabe zum dritten Mal gleichartig promptest, bau ein Template. Das ist der größte Hebel für Produktivität.

Abschnitt 4

MCP -- Die Steckdosenleiste

MCP erklaert

Die Steckdosenleiste fuer euer LLM

Vorher: Fuer jedes Tool ein eigener Adapter. Jira braucht eine Integration, Gmail eine andere, Confluence eine dritte.

Nachher: Ein genormter Stecker (MCP). Jedes Tool, das den Standard spricht, laesst sich einfach einstecken.

Offener Standard von Anthropic (Nov 2024). Heute unterstuetzt von OpenAI, Google, Microsoft.

LLM

Gmail

Jira

Kalender

DB

Eigenes Tool

USB-C fuer AI -- ein universeller Standard, damit LLMs mit beliebigen Tools kommunizieren
Offener Standard, ueber 1.000+ MCP-Server bereits verfuegbar
Orchestrator-Workers Pattern: Ein LLM entscheidet, welche Tools es braucht -- Jira, Confluence, Calendar, Slack
Jeder Worker beschreibt seine Faehigkeiten selbst (Tool Discovery) -- Plug-and-Play

Merke dir

MCP bedeutet: Ein LLM kann auf alle Tools zugreifen, die den Standard sprechen. Fragt euer IT-Team: "Welche MCP-Server gibt es für unsere Tools?"

Abschnitt 5

Halluzinationen

AI-Powered Product Owner

Halluzinationen: Wie oft passiert das wirklich?

1-3%

Zusammen-
fassungen

niedrig

3-10%

Fakten-
fragen

mittel

bis 94%

Zitate &
Quellen

kritisch!

51-79%

Reasoning (o3)
offene Fragen

mehr, nicht weniger

-71%

Kontext (RAG)
reduziert Halluz.

gegenmassnahme

Quellen: Vectara 2025, Columbia Journalism Review 2025, AllAboutAI 2026

Halluzinationsraten variieren massiv nach Aufgabe: Zusammenfassungen (1-3%) vs. Quellenangaben (bis 94%)
Reasoning-Modelle halluzinieren bei offenen Fragen teilweise mehr, nicht weniger (o3: 51-79% auf SimpleQA)
RAG (Retrieval-Augmented Generation) reduziert Halluzinationen um ~71%
Historisch: Von 21,8% auf 0,7% bei Summarization (2021-2025) -- eine 96% Verbesserung

Merke dir

Vertraue niemals einer AI-generierten Quellenangabe blind. Halluzinationsraten bei Zitaten liegen bei bis zu 94%. Immer prüfen.

Abschnitt 6

Bias -- Was POs wissen müssen

AI-Powered Product Owner

Bias in LLMs: Was POs wissen muessen

85%

der AI-Resume-Screener bevorzugen weiss klingende Namen -- bei gleicher Qualifikation.

100%

von 17 getesteten LLMs zeigen Gender-Bias bei Berufsassoziationen.

62%

der Unternehmen verloren Umsatz durch AI-Bias-bedingte Fehlentscheidungen.

Was heisst das fuer dich als PO?

1. LLM-generierte Personas und Priorisierungen koennen Stereotypen verstaerken.

2. Sycophancy: LLMs sagen dir, was du hoeren willst -- nicht, was du wissen musst.

3. Ab Aug. 2026 ist Bias-Testing bei High-Risk-AI gesetzliche Pflicht (EU AI Act).

Praktischer Bias-Check

5-Minuten-Bias-Check fuer Nicht-Techniker

Swap

Namens-Swap-Test

Ersetze Name, Geschlecht, Herkunft. Aendert sich der Output?

Challenge

Devil's Advocate

"Was spricht dagegen? Welche Perspektiven fehlen?"

Flip

Umkehr-Test

"Gilt das auch fuer andere Gruppen?" Verallgemeinerungen entlarven.

Source

Quellen-Check

Kann das LLM seine Aussage belegen? Vage = vermutlich bias-gestuetzt.

Compare

Second Opinion

Gleiche Frage an ein zweites LLM. Unterschiede zeigen modell-spezifischen Bias.

85% der AI-Resume-Screener bevorzugen weiss klingende Namen (UW 2024)
5-Minuten-Bias-Check: Swap, Challenge, Flip, Source, Compare -- kein ML-Wissen noetig
EU AI Act Timeline: Verbote seit Feb 2025, GPAI seit Aug 2025, Hochrisiko ab Aug 2026

Merke dir

Wenn ein AI-Output "zu glatt" klingt -- keine Widersprüche, keine Unsicherheit -- ist Sycophancy wahrscheinlich. Fordere explizit Gegenargumente ein.

Abschnitt 7

IP und Datenschutz

PO Insight -- DSGVO und LLMs

Was darf ich? Was nicht? Wie sichere ich mich ab?

Darf ich -- sofort

Allgemeine Fachfragen an LLM
Anonymisierte / synthetische Daten
Oeffentlich verfuegbare Infos
Code-Reviews ohne Credentials
Brainstorming ohne PII

Nur mit Absicherung

Interne Dokumente: pseudonymisieren
Kundenfeedback: nur aggregiert
Enterprise-Tier mit AVV + EU-Hosting
DSFA durchfuehren + dokumentieren
KI-Nutzungsrichtlinie im Team

Niemals -- auch nicht "kurz mal"

Kundennamen + Kontaktdaten
Gesundheits-, Finanz-, Gehaltsdaten
Mitarbeiter-Personalakten
Passwoerter und API-Keys
Unveroeff. Geschaeftsgeheimnisse

Quellen: HmbBfDI Checkliste (Nov 2023), DSK Orientierungshilfe (Mai 2024 / Juni 2025)

3 Tiers: Public (Free) = keine Vertraulichkeit. Business = Training abschaltbar. Enterprise = AVV + EU-Hosting
DSGVO greift bei LLMs, sobald personenbezogene Daten im Prompt stehen -- auch wenn das Modell selbst keine speichert
Anonymisierung ist Pflicht -- Pseudonymisierung reicht fuer interne Dokumente
EU AI Act: Verbotene Praktiken seit Feb 2025, GPAI seit Aug 2025, Hochrisiko ab Aug 2026

Merke dir

Faustregel: Wenn du es nicht auf eine Postkarte schreiben würdest, gib es nicht ins LLM. Im Zweifel anonymisieren, Enterprise-Tier nutzen, oder den DSB fragen.

Abschnitt 8

Produktivität -- echte Zahlen

Die zentrale Erkenntnis fuer Product Owner

AI macht dich schneller. Aber nicht automatisch wertvoller.

+25%

schneller bei
Wissensarbeit

~90%

der Firmen: kein
Produktivitaetseffekt

95%

der AI-Piloten
scheitern

Mehr Output ist nicht gleich mehr Wert. Als PO optimierst du den Durchfluss des Systems, nicht deinen eigenen Output.

Harvard/BCG 2023 | NBER 2026 | MIT 2025

Die Jagged Frontier -- Dein Kompass

Wo AI dir wirklich hilft -- und wo sie dich schlechter macht

AI-Turbo

Feedback aggregieren

User Stories schreiben

Markt-Research

Business Writing -69%

AI-Falle

Strategische Entscheidungen

Stakeholder-Alignment

Critical Thinking

Mensch+AI unterperformt AI allein bei Urteilen

Harvard/BCG: 758 Berater, +12,2% Tasks, 25,1% schneller -- aber Jagged Frontier: nicht jeder Task profitiert
~90% der Unternehmen messen keinen Produktivitaetseffekt (NBER 2026)
Leveling-Effekt: Die schwaechsten Mitarbeiter profitieren am meisten (+43%), die besten kaum
Wahrnehmungsluecke: 39 Punkte zwischen gefuehlter und tatsaechlicher Beschleunigung (METR 2025)

Merke dir

Die Grenze ist gezackt, nicht linear. Wer sie nicht kennt, überlässt AI Aufgaben, die sie nicht kann. Kenne deine Jagged Frontier.

Abschnitt 9

QA-Toolkit -- Die 4 QA-Momente

AI-Powered Product Owner Training

Die 4 QA-Momente

Sachlich --> Peer Review --> Adversarial --> Forensisch

QA-MOMENT 1

Definition of Ready

3-5 Qualitaetskriterien definieren, bevor die Stakeholder-Mails kommen.

QA-MOMENT 2

AI als Senior Developer

Rollenwechsel im gleichen Chat: Gleicher Kontext, andere Perspektive.

QA-MOMENT 3

Pitch-Stress-Test

AI spielt den Gegner: haertester Kritiker, bevor echte Stakeholder den Pitch sehen.

QA-MOMENT 4

Halluzinations-Check

AI prueft eigene Outputs: gedeckt / interpretiert / hinzugedichtet.

DoR zuerst: Qualitaetskriterien definieren, bevor AI generiert -- nicht danach
Rollenwechsel: "Du bist jetzt ein skeptischer Senior Developer. Review jede Sub-Story gegen unsere DoR."
Stress-Test: AI als haertester Kritiker einsetzen, bevor echte Stakeholder den Output sehen
Forensisch: AI prueft ihre eigenen Outputs gegen Quellen -- gedeckt vs. interpretiert vs. hinzugedichtet

Merke dir

QA ist kein Schritt am Ende, sondern 4 Momente während der Arbeit. Die Reihenfolge ist: sachlich --> peer review --> adversarial --> forensisch.

Abschnitt 10

RAG erklärt -- Wenn eure AI Firmenwissen braucht

RAG fuer Product Owner

Was ist RAG? -- Die 30-Sekunden-Version

1. Frage

Nutzer stellt Frage

"Was ist unsere Rueckgabepolitik?"

2. Suchen

System findet Docs

Automatisch aus eurer Wissensbasis

3. Antwort

KI antwortet mit Quellen

Fundiert, nicht ausgedacht

Ohne RAG: KI raet aus dem Gedaechtnis. Mit RAG: KI schlaegt erst nach, dann antwortet.

RAG fuer Product Owner

Was POs ueber RAG entscheiden muessen

Wann RAG einsetzen

Grosse Wissensbasis (mehr als 200 Seiten)
Daten aendern sich regelmaessig
Antworten muessen belegbar sein
Firmenwissen soll erreichbar werden

Wann NICHT

Wenige Dokumente: Prompt Engineering reicht
Nur Stil/Ton anpassen: Fine-Tuning besser
Echtzeit-Aktionen noetig: MCP ist das Werkzeug
Datenqualitaet ist schlecht: erst aufraeumen

Wochen

bis zum ersten Prototyp

~40 Mrd. $

RAG-Markt 2035

Kein Allheilmittel

Datenqualitaet bleibt PO-Aufgabe

RAG = Retrieval-Augmented Generation -- KI schlaegt erst nach, dann antwortet
Beispiel: AllianzGPT -- 60.000 Nutzer, kennt das Confluence der Allianz, 95% woechentliche Nutzung
Reduziert Halluzinationen um ~71% -- weil die AI auf echte Dokumente zurueckgreift
RAG vs. MCP: RAG = Wissen nachschlagen. MCP = Aktionen ausfuehren. Beide ergaenzen sich

Merke dir

RAG ist das Nachschlagewerk für eure AI. Aber es ist nur so gut wie eure Daten. Datenqualität ist und bleibt eine PO-Aufgabe.