← Wissen

AI für Product Owner

Nachschlagewerk -- Die wichtigsten Konzepte aus dem Training

Wie LLMs funktionieren

PO-Insight

Wie LLMs funktionieren -- in 60 Sekunden

Die Hand-Analogie

Spreize deine Hand. Die Finger = Wissen des Modells. Die Luft dazwischen = Luecken.

Auf den Fingern weiss die AI. In den Luecken raet sie -- kreativ, manchmal inspirierend, manchmal falsch.

Wissen (Finger) Luecken (Luft)

Kleines Modell = mehr Luft. Grosses Modell = weniger Luft, dichteres Wissen.

Die Raum-Analogie
?
Ohne Kontext
Generisches Wohnzimmer
OK
Mit Ankerpunkten
Dein Badezimmer

Kontext = Ankerpunkte setzen. Mehr Kontext = genaueres Ergebnis. Weniger Kontext = mehr Raten.

  • LLMs sind Muster-Maschinen: Sie sagen das wahrscheinlichste naechste Wort voraus -- kein echtes "Verstehen"
  • Sie halluzinieren, weil sie kein "Ich weiss nicht" kennen -- sie fuellen Luecken immer mit plausibel klingendem Text
  • Kontext steuert die Qualitaet: Je mehr Ankerpunkte du setzt, desto besser das Ergebnis
  • Modellgroesse = Wissenstiefe: Haiku (schnell, guenstig) vs. Opus (tief, teuer) -- wie Praktikant vs. erfahrene Kollegin
Merke dir

LLMs raten immer -- auch wenn sie sich sicher anhören. Dein Job ist, ihnen genug Kontext zu geben, damit sie gut raten.

Der Generationssprung

GPT-4o (2024) vs. Frontier 2026

Der Generationssprung -- verifizierte Zahlen

PhD-Reasoning (GPQA)
~51% --> 87-91%
+70-80% relativ
Real-World Coding (SWE)
33% --> 75-81%
+127-145% relativ
Halluzinationen
-45% bis -80%
mit Web / mit Thinking
Context Window
128K --> 1M
8x mehr -- ~2.500 Seiten
Chatbot Arena ELO
~1290 --> 1504
Opus 4.6 Thinking = #1
Neues Feature
Extended Thinking
Modell "denkt nach" vor der Antwort
  • In 2 Jahren: 10-25x groesser, kann nachdenken, sieht 8x mehr Kontext
  • Extended Thinking: Modell plant und prueft sich selbst -- GPQA stieg von ~51% auf 87-91%
  • Context Window von 128K auf 1M -- das sind ~2.500 Seiten, die das Modell gleichzeitig "sieht"
  • Opus 4.6 und GPT-5.4 liegen auf Augenhöhe -- beide weit jenseits von GPT-4o
Merke dir

Alles, was du letztes Jahr über AI-Limitierungen gelernt hast, ist veraltet. Frontier-Modelle 2026 sind eine andere Kategorie als GPT-4o.

Prompt vs. Skill -- Das Spektrum

Entscheidungshilfe

Wann was? -- Die Entscheidungsmatrix

Prompt reicht
Exploration: Ideen generieren, Brainstorming
Einmalig: Frage, die sich nicht wiederholt
Kreativ: Keine festen Akzeptanzkriterien
Schnell: Ergebnis in unter 2 Min. noetig
Skill/Workflow besser
Wiederkehrend: Mehr als 3x pro Woche gleiche Aufgabe
Team: Mehrere Leute, gleicher Output noetig
Qualitaet: Definierte Akzeptanzkriterien
Compliance: Audit Trail, Nachvollziehbarkeit
Faustregel: 1x = Prompt. 5x = Template. 50x = Skill mit Qualitaetschecks.
  • Das Spektrum: Einzelprompt --> Template --> Prompt-Chain --> Skill --> Agent
  • Break-even bei etwa ~6 Nutzungen -- danach lohnt sich die Investition in Struktur
  • Prompts fuer Exploration und Kreativitaet. Skills fuer wiederkehrende Aufgaben mit Qualitaetsanspruch
  • Sweet Spot fuer Product Owner: Template bis Skill/Workflow -- nicht Agent
Merke dir

Wenn du eine Aufgabe zum dritten Mal gleichartig promptest, bau ein Template. Das ist der größte Hebel für Produktivität.

MCP -- Die Steckdosenleiste

MCP erklaert

Die Steckdosenleiste fuer euer LLM

Vorher: Fuer jedes Tool ein eigener Adapter. Jira braucht eine Integration, Gmail eine andere, Confluence eine dritte.

Nachher: Ein genormter Stecker (MCP). Jedes Tool, das den Standard spricht, laesst sich einfach einstecken.

Offener Standard von Anthropic (Nov 2024). Heute unterstuetzt von OpenAI, Google, Microsoft.
LLM
Gmail
Jira
Kalender
DB
Eigenes Tool
  • USB-C fuer AI -- ein universeller Standard, damit LLMs mit beliebigen Tools kommunizieren
  • Offener Standard, ueber 1.000+ MCP-Server bereits verfuegbar
  • Orchestrator-Workers Pattern: Ein LLM entscheidet, welche Tools es braucht -- Jira, Confluence, Calendar, Slack
  • Jeder Worker beschreibt seine Faehigkeiten selbst (Tool Discovery) -- Plug-and-Play
Merke dir

MCP bedeutet: Ein LLM kann auf alle Tools zugreifen, die den Standard sprechen. Fragt euer IT-Team: "Welche MCP-Server gibt es für unsere Tools?"

Halluzinationen

AI-Powered Product Owner

Halluzinationen: Wie oft passiert das wirklich?

1-3%
Zusammen-
fassungen
niedrig
3-10%
Fakten-
fragen
mittel
bis 94%
Zitate &
Quellen
kritisch!
51-79%
Reasoning (o3)
offene Fragen
mehr, nicht weniger
-71%
Kontext (RAG)
reduziert Halluz.
gegenmassnahme
  • Halluzinationsraten variieren massiv nach Aufgabe: Zusammenfassungen (1-3%) vs. Quellenangaben (bis 94%)
  • Reasoning-Modelle halluzinieren bei offenen Fragen teilweise mehr, nicht weniger (o3: 51-79% auf SimpleQA)
  • RAG (Retrieval-Augmented Generation) reduziert Halluzinationen um ~71%
  • Historisch: Von 21,8% auf 0,7% bei Summarization (2021-2025) -- eine 96% Verbesserung
Merke dir

Vertraue niemals einer AI-generierten Quellenangabe blind. Halluzinationsraten bei Zitaten liegen bei bis zu 94%. Immer prüfen.

Bias -- Was POs wissen müssen

AI-Powered Product Owner

Bias in LLMs: Was POs wissen muessen

85%
der AI-Resume-Screener bevorzugen weiss klingende Namen -- bei gleicher Qualifikation.
100%
von 17 getesteten LLMs zeigen Gender-Bias bei Berufsassoziationen.
62%
der Unternehmen verloren Umsatz durch AI-Bias-bedingte Fehlentscheidungen.
Was heisst das fuer dich als PO?
1. LLM-generierte Personas und Priorisierungen koennen Stereotypen verstaerken.
2. Sycophancy: LLMs sagen dir, was du hoeren willst -- nicht, was du wissen musst.
3. Ab Aug. 2026 ist Bias-Testing bei High-Risk-AI gesetzliche Pflicht (EU AI Act).
Praktischer Bias-Check

5-Minuten-Bias-Check fuer Nicht-Techniker

Swap
Namens-Swap-Test
Ersetze Name, Geschlecht, Herkunft. Aendert sich der Output?
Challenge
Devil's Advocate
"Was spricht dagegen? Welche Perspektiven fehlen?"
Flip
Umkehr-Test
"Gilt das auch fuer andere Gruppen?" Verallgemeinerungen entlarven.
Source
Quellen-Check
Kann das LLM seine Aussage belegen? Vage = vermutlich bias-gestuetzt.
Compare
Second Opinion
Gleiche Frage an ein zweites LLM. Unterschiede zeigen modell-spezifischen Bias.
  • 85% der AI-Resume-Screener bevorzugen weiss klingende Namen (UW 2024)
  • 5-Minuten-Bias-Check: Swap, Challenge, Flip, Source, Compare -- kein ML-Wissen noetig
  • EU AI Act Timeline: Verbote seit Feb 2025, GPAI seit Aug 2025, Hochrisiko ab Aug 2026
Merke dir

Wenn ein AI-Output "zu glatt" klingt -- keine Widersprüche, keine Unsicherheit -- ist Sycophancy wahrscheinlich. Fordere explizit Gegenargumente ein.

IP und Datenschutz

PO Insight -- DSGVO und LLMs

Was darf ich? Was nicht? Wie sichere ich mich ab?

Darf ich -- sofort
Allgemeine Fachfragen an LLM
Anonymisierte / synthetische Daten
Oeffentlich verfuegbare Infos
Code-Reviews ohne Credentials
Brainstorming ohne PII
Nur mit Absicherung
Interne Dokumente: pseudonymisieren
Kundenfeedback: nur aggregiert
Enterprise-Tier mit AVV + EU-Hosting
DSFA durchfuehren + dokumentieren
KI-Nutzungsrichtlinie im Team
Niemals -- auch nicht "kurz mal"
Kundennamen + Kontaktdaten
Gesundheits-, Finanz-, Gehaltsdaten
Mitarbeiter-Personalakten
Passwoerter und API-Keys
Unveroeff. Geschaeftsgeheimnisse
  • 3 Tiers: Public (Free) = keine Vertraulichkeit. Business = Training abschaltbar. Enterprise = AVV + EU-Hosting
  • DSGVO greift bei LLMs, sobald personenbezogene Daten im Prompt stehen -- auch wenn das Modell selbst keine speichert
  • Anonymisierung ist Pflicht -- Pseudonymisierung reicht fuer interne Dokumente
  • EU AI Act: Verbotene Praktiken seit Feb 2025, GPAI seit Aug 2025, Hochrisiko ab Aug 2026
Merke dir

Faustregel: Wenn du es nicht auf eine Postkarte schreiben würdest, gib es nicht ins LLM. Im Zweifel anonymisieren, Enterprise-Tier nutzen, oder den DSB fragen.

Produktivität -- echte Zahlen

Die zentrale Erkenntnis fuer Product Owner

AI macht dich schneller. Aber nicht automatisch wertvoller.

+25%
schneller bei
Wissensarbeit
~90%
der Firmen: kein
Produktivitaetseffekt
95%
der AI-Piloten
scheitern
Mehr Output ist nicht gleich mehr Wert. Als PO optimierst du den Durchfluss des Systems, nicht deinen eigenen Output.
Die Jagged Frontier -- Dein Kompass

Wo AI dir wirklich hilft -- und wo sie dich schlechter macht

AI-Turbo
Feedback aggregieren
User Stories schreiben
Markt-Research
Business Writing -69%
AI-Falle
Strategische Entscheidungen
Stakeholder-Alignment
Critical Thinking
Mensch+AI unterperformt AI allein bei Urteilen
  • Harvard/BCG: 758 Berater, +12,2% Tasks, 25,1% schneller -- aber Jagged Frontier: nicht jeder Task profitiert
  • ~90% der Unternehmen messen keinen Produktivitaetseffekt (NBER 2026)
  • Leveling-Effekt: Die schwaechsten Mitarbeiter profitieren am meisten (+43%), die besten kaum
  • Wahrnehmungsluecke: 39 Punkte zwischen gefuehlter und tatsaechlicher Beschleunigung (METR 2025)
Merke dir

Die Grenze ist gezackt, nicht linear. Wer sie nicht kennt, überlässt AI Aufgaben, die sie nicht kann. Kenne deine Jagged Frontier.

QA-Toolkit -- Die 4 QA-Momente

AI-Powered Product Owner Training

Die 4 QA-Momente

Sachlich --> Peer Review --> Adversarial --> Forensisch
QA-MOMENT 1
Definition of Ready
3-5 Qualitaetskriterien definieren, bevor die Stakeholder-Mails kommen.
QA-MOMENT 2
AI als Senior Developer
Rollenwechsel im gleichen Chat: Gleicher Kontext, andere Perspektive.
QA-MOMENT 3
Pitch-Stress-Test
AI spielt den Gegner: haertester Kritiker, bevor echte Stakeholder den Pitch sehen.
QA-MOMENT 4
Halluzinations-Check
AI prueft eigene Outputs: gedeckt / interpretiert / hinzugedichtet.
  • DoR zuerst: Qualitaetskriterien definieren, bevor AI generiert -- nicht danach
  • Rollenwechsel: "Du bist jetzt ein skeptischer Senior Developer. Review jede Sub-Story gegen unsere DoR."
  • Stress-Test: AI als haertester Kritiker einsetzen, bevor echte Stakeholder den Output sehen
  • Forensisch: AI prueft ihre eigenen Outputs gegen Quellen -- gedeckt vs. interpretiert vs. hinzugedichtet
Merke dir

QA ist kein Schritt am Ende, sondern 4 Momente während der Arbeit. Die Reihenfolge ist: sachlich --> peer review --> adversarial --> forensisch.

RAG erklärt -- Wenn eure AI Firmenwissen braucht

RAG fuer Product Owner

Was ist RAG? -- Die 30-Sekunden-Version

1. Frage
Nutzer stellt Frage
"Was ist unsere Rueckgabepolitik?"
2. Suchen
System findet Docs
Automatisch aus eurer Wissensbasis
3. Antwort
KI antwortet mit Quellen
Fundiert, nicht ausgedacht
Ohne RAG: KI raet aus dem Gedaechtnis. Mit RAG: KI schlaegt erst nach, dann antwortet.
RAG fuer Product Owner

Was POs ueber RAG entscheiden muessen

Wann RAG einsetzen
Grosse Wissensbasis (mehr als 200 Seiten)
Daten aendern sich regelmaessig
Antworten muessen belegbar sein
Firmenwissen soll erreichbar werden
Wann NICHT
Wenige Dokumente: Prompt Engineering reicht
Nur Stil/Ton anpassen: Fine-Tuning besser
Echtzeit-Aktionen noetig: MCP ist das Werkzeug
Datenqualitaet ist schlecht: erst aufraeumen
Wochen
bis zum ersten Prototyp
~40 Mrd. $
RAG-Markt 2035
Kein Allheilmittel
Datenqualitaet bleibt PO-Aufgabe
  • RAG = Retrieval-Augmented Generation -- KI schlaegt erst nach, dann antwortet
  • Beispiel: AllianzGPT -- 60.000 Nutzer, kennt das Confluence der Allianz, 95% woechentliche Nutzung
  • Reduziert Halluzinationen um ~71% -- weil die AI auf echte Dokumente zurueckgreift
  • RAG vs. MCP: RAG = Wissen nachschlagen. MCP = Aktionen ausfuehren. Beide ergaenzen sich
Merke dir

RAG ist das Nachschlagewerk für eure AI. Aber es ist nur so gut wie eure Daten. Datenqualität ist und bleibt eine PO-Aufgabe.

Diese Konzepte lernst du hands-on im Training

AI für Product People -- Termine ansehen