Wie du wiederverwendbare, testbare und optimierbare AI-Anweisungen baust -- und warum das ein Game-Changer fuer Product Owner ist.
Ein Skill ist eine wiederverwendbare Anweisung, die Claude Code automatisch aktiviert, wenn sie zum Kontext passt -- ohne dass du einen Slash-Command tippen musst.
Kern ist eine SKILL.md mit YAML-Frontmatter (Name, Description) und Markdown-Body. Dazu optional: scripts/, references/, assets/ -- ausfuehrbare Logik, Referenzdokumente und Templates.
Claude matched die description gegen den User-Input. Passt es? Skill wird geladen. Passt es nicht? Skill bleibt unsichtbar. Kein manueller Aufruf noetig.
Nur die Metadaten (Name + Description) sind immer im Kontext. Der Body wird erst geladen, wenn der Skill triggert. Das spart Tokens.
Skills koennen als .skill-Dateien gepackt und geteilt werden -- inklusive gebundelter Ressourcen, Templates und Beispiele.
--- name: frontend-design description: | Create distinctive, production-grade frontend interfaces. TRIGGER when: user asks to build web components, pages, or applications. --- # Frontend Design Skill ## Principles - Never use default Bootstrap/Tailwind look - Start with layout structure before colors - Mobile-first responsive design ## Process 1. Understand the intent -- ask clarifying questions 2. Generate complete, self-contained HTML 3. Use inline CSS, no external dependencies ...
Skills sind keine besseren Prompts. Sie loesen ein anderes Problem. Die Frage ist nicht "entweder/oder", sondern "wann welches Werkzeug".
| Dimension | Prompt | Skill |
|---|---|---|
| Aktivierung | Manuell -- du tippst ihn jedes Mal | Automatisch -- Claude erkennt den Kontext |
| Wiederverwendung | Copy-Paste oder Slash-Command | Einmal installiert, immer verfuegbar |
| Testbarkeit | Trial-and-Error im Chat | Eval-Framework mit Metriken + Vergleich |
| Optimierung | Du aenderst manuell und hoffst | Automatische Iteration mit Train/Test-Split |
| Token-Effizienz | Immer im Kontext (auch wenn irrelevant) | Nur geladen wenn getriggert |
| Teilbarkeit | Textdatei weitergeben | .skill-Paket mit Ressourcen + Evals |
| Versionierung | Welche Version war das nochmal? | Git-trackbar, Benchmark-Historie |
| Komplexitaet | Niedrig -- Text schreiben | Mittel -- Tooling lernen, Evals definieren |
CLAUDE.md)Der typische Weg: Du startest mit einem Prompt in deiner CLAUDE.md. Wenn er sich bewaehrt und du ihn staendig nutzt, extrahierst du ihn als Skill. Dann testest und optimierst du ihn mit dem Skill Creator. Das ist kein Entweder-Oder -- es ist eine Reifekurve.
Der Skill Creator ist selbst ein Plugin fuer Claude Code. Er fuehrt dich durch den Prozess: von der Idee bis zum getesteten, optimierten Skill.
/plugin install skill-creator@claude-plugins-official
Danach steht der Slash-Command /skill-creator zur Verfuegung -- plus die zugehoerigen Agenten und Skills.
Sag Claude einfach, was der Skill tun soll. Der Skill Creator startet ein kurzes Interview:
> Ich will einen Skill, der bei Code Reviews automatisch auf Security-Probleme hinweist. Skill Creator: "Welche Sprachen soll er abdecken?" Skill Creator: "Soll er auch Fixes vorschlagen oder nur warnen?" Skill Creator: "Gibt es spezifische OWASP-Kategorien?"
Aus deinen Antworten entsteht eine SKILL.md mit optimierter Description und detailliertem Body.
Du definierst Testcases in evals/evals.json:
[
{
"query": "Review this Express endpoint for SQL injection",
"should_trigger": true
},
{
"query": "Add a new button to the navbar",
"should_trigger": false
},
{
"query": "Check my auth middleware for vulnerabilities",
"should_trigger": true
},
{
"query": "Write a unit test for the calculator",
"should_trigger": false
}
]
Der Skill Creator fuehrt parallele Eval-Runs durch, bewertet die Ergebnisse und verbessert iterativ die Description. Details dazu im naechsten Kapitel.
Der Skill Creator ist kein simples Template-Tool. Er nutzt ML-Evaluierungsmethoden -- Train/Test-Splits, blinde Vergleiche und iterative Optimierung.
Interview → SKILL.md generieren. Der Skill Creator achtet auf klare, imperative Descriptions und erklaert das "Warum" im Body.
Parallele Runs mit und ohne Skill. 5 Schritte: Runs spawnen, Assertions entwerfen, Timing messen, Ergebnisse graden, Browser-Viewer oeffnen.
Das Herzstueck. Hier wird der Skill systematisch besser gemacht.
Ohne Test-Set wuerde der Optimierungs-Loop die Description so lange anpassen, bis sie genau fuer die bekannten Queries funktioniert -- aber fuer neue Queries versagt. Das nennt man Overfitting. Der Skill Creator erkennt das:
Training-Score: 95%
Test-Score: 90%
Die Description generalisiert gut.
Training-Score: 100%
Test-Score: 60%
Die Description ist zu spezifisch auf die Trainings-Queries zugeschnitten.
Die description im YAML-Frontmatter. Sie ist der Matching-Schluessel. Der Improvement-Algorithmus:
Der Skill Creator nutzt ein dreistufiges Bewertungssystem mit spezialisierten Agenten -- aehnlich wie ein kontrolliertes Experiment.
Prueft Transkripte gegen Assertions. Jede Expectation wird einzeln bewertet: Pass oder Fail, keine Teilpunkte. Bewertet Content (Korrektheit, Vollstaendigkeit) und Structure (Organisation, Formatierung) auf einer 1-5 Skala.
Blind A/B-Test: Bekommt zwei Outputs, weiss aber nicht welcher vom Skill kommt und welcher ohne Skill erzeugt wurde. Vergleicht rein nach Qualitaet. Das verhindert Bias.
Erklaert WARUM eine Version besser war als die andere. Identifiziert konkrete Staerken und Schwaechen. Dieses Feedback fliesst in die naechste Verbesserungs-Iteration ein.
Das System fuehrt identische Queries in zwei Konfigurationen aus:
| Metrik | Ohne Skill (Baseline) | Mit Skill | Delta |
|---|---|---|---|
| Pass Rate | 62% | 91% | +29% |
| Zeit | 34s | 28s | -6s |
| Tokens | 4200 | 3800 | -400 |
| Tool Calls | 8 | 5 | -3 |
Beispielwerte zur Illustration. Echte Ergebnisse variieren.
Ein Skill ist nicht nur eine SKILL.md. Er kann ausfuehrbare Skripte, Templates und Referenz-Dateien mitbringen. Das macht Skills zu echten Werkzeugen.
Ausfuehrbarer Code (Python, Shell, JS) fuer deterministische oder repetitive Aufgaben. Claude ruft diese Scripts per Bash-Tool auf, statt den Code jedes Mal neu zu generieren.
Dokumentation, Styleguides, API-Specs -- werden bei Bedarf in den Kontext geladen. Ideal fuer umfangreiche Referenzmaterialien, die nicht in die SKILL.md passen.
Dateien, die im Output verwendet werden: HTML-Templates, Icons, Fonts, Beispiel-Dateien. Werden nicht gelesen, sondern kopiert oder eingebettet.
my-skill/ ├── SKILL.md # Pflicht: Anweisungen + Frontmatter ├── scripts/ │ ├── analyze_data.py # Deterministische Analyse │ ├── generate_chart.py # Visualisierung erzeugen │ └── validate_input.sh # Input-Validierung ├── references/ │ └── style-guide.md # Wird in Kontext geladen ├── assets/ │ └── report_template.html# Output-Template └── evals/ └── evals.json # Testcases
Die SKILL.md sagt Claude, WANN und WIE die Scripts aufgerufen werden sollen:
--- name: data-report description: | Generate data analysis reports with charts. TRIGGER when: user asks for data analysis, reports, or dashboards. --- # Data Report Skill ## Process 1. Read the data file the user provides 2. Run the analysis script: ```bash python scripts/analyze_data.py input.csv --format json ``` 3. Generate charts from the analysis: ```bash python scripts/generate_chart.py analysis.json --output charts/ ``` 4. Combine results using the template in `assets/report_template.html`
create_docx.py oder build_chart.py), ist das ein klares Signal: Dieses Script gehoert gebuendelt. Einmal schreiben, in scripts/ ablegen -- jede zukuenftige Ausfuehrung spart Zeit und Tokens.
| Stufe | Was | Wann geladen | Token-Impact |
|---|---|---|---|
| 1. Metadata | Name + Description | Immer (bei jeder Nachricht) | Minimal (~100 Woerter) |
| 2. SKILL.md Body | Anweisungen | Wenn Skill triggert | Moderat (<500 Zeilen ideal) |
| 3. Bundled Resources | Scripts, References, Assets | Bei Bedarf (on-demand) | Scripts: null (werden ausgefuehrt, nicht gelesen) |
Der Skill Creator ist das beste Beispiel fuer gebundelte Scripts. Er enthaelt 8 Python-Scripts:
| Script | Aufgabe |
|---|---|
run_eval.py |
Eval-Runs parallel ausfuehren, Trigger-Rate messen |
run_loop.py |
Iterativen Optimierungs-Loop steuern |
improve_description.py |
Description mit Claude + Extended Thinking verbessern |
aggregate_benchmark.py |
Benchmark-Statistiken aggregieren (Mean, StdDev, Min, Max) |
generate_report.py |
Interaktiven HTML-Report generieren |
quick_validate.py |
Skill-Struktur validieren (Name, Description, Dateien) |
package_skill.py |
Skill als .skill-ZIP verpacken |
utils.py |
Geteilte Hilfsfunktionen |
Ohne diese Scripts waere der Skill Creator nur eine Anweisung. Mit den Scripts ist er ein vollstaendiges Werkzeug -- die SKILL.md orchestriert, die Scripts fuehren aus.
Ja, der Skill Creator laesst sich komplett lokal betreiben. Hier ist, was du brauchst.
Installiert und authentifiziert. Der Skill Creator nutzt claude -p fuer die Eval-Runs im Hintergrund.
Die Eval-Skripte (run_eval.py, run_loop.py, improve_description.py) sind Python. Keine speziellen Packages noetig ausser anthropic SDK.
Fuer den Improvement-Loop: improve_description.py nutzt die Claude API direkt mit Extended Thinking (10k Token Budget).
Falls du den Browser-Viewer im Live-Modus nutzen willst (Auto-Refresh waehrend Runs laufen).
# Option 1: Als Plugin (empfohlen) /plugin install skill-creator@claude-plugins-official # Option 2: Manuell klonen git clone https://github.com/anthropics/claude-plugins-official.git cd claude-plugins-official/plugins/skill-creator # Fuer den Improvement-Loop brauchst du: pip install anthropic export ANTHROPIC_API_KEY=sk-ant-...
# Neuen Skill erstellen (interaktiv) /skill-creator # Bestehenden Skill testen /skill-creator test my-skill # Skill optimieren (iterativer Loop) /skill-creator improve my-skill # Skill validieren python3 quick_validate.py path/to/skill/ # Skill packen fuer Distribution python3 package_skill.py path/to/skill/
my-skill/ ├── SKILL.md # Dein Skill ├── evals/ │ ├── evals.json # Testcases │ ├── runs/ # Eval-Ergebnisse │ └── benchmark.json # Aggregierte Metriken └── resources/ # Gebundelte Dateien (optional)
Als Product Manager denkst du in Outcomes, nicht in Outputs. Skills bringen genau dieses Denken in die AI-Nutzung.
Prompts sind Bauchgefuehl: "Klingt gut, passt schon." Skills haben Evals: du weisst exakt, wie oft sie triggern, wie gut die Ergebnisse sind, und ob Version 3 besser ist als Version 2.
Dein bester Prompt stirbt in deiner CLAUDE.md. Ein Skill ist ein Plugin -- installierbar, versionierbar, teilbar. Das Team arbeitet einheitlich.
Du vergisst manchmal, den richtigen Prompt zu verwenden. Ein Skill vergisst nie -- er triggert automatisch, wenn der Kontext stimmt.
Jede Verbesserung am Skill wirkt bei jeder zukuenftigen Nutzung. 5 Minuten Eval-Optimierung sparen Stunden ueber Wochen.
| Use Case | Als Prompt | Als Skill |
|---|---|---|
| User Story Format | "Schreibe im Format: Als... will ich... damit..." | Triggert automatisch bei Story-Erstellung, inkl. Akzeptanzkriterien-Template |
| Code Review | Jedes Mal dran denken, Security-Checklist einzufuegen | Erkennt Review-Kontext, checkt OWASP Top 10 automatisch |
| Meeting Notes | "Fasse zusammen mit Action Items und Owners" | Erkennt Transkripte, erstellt strukturierte Notes + Follow-ups |
| Stakeholder Update | Template raussuchen, manuell befuellen | Triggert bei "Update schreiben", kennt dein Format + Audience |
Automatisch getriggert basierend auf Description-Matching. Definiert in skills/SKILL.md. Fuer wiederkehrende Patterns.
Manuell aufgerufen via /command-name. Definiert in commands/. Fuer explizite Aktionen.
Spezialisierter Sub-Agent mit eigenem Toolset. Definiert in agents/. Der Skill Creator nutzt z.B. separate Grader-, Comparator- und Analyzer-Agenten fuer die Evaluierung.
< >)Ein fertig optimierter Skill kann als .skill-Datei gepackt werden. Das ist ein ZIP-Archiv das automatisch __pycache__, node_modules, .pyc, .DS_Store und den evals/-Ordner ausschliesst. Andere koennen es installieren -- inklusive aller gebundelten Ressourcen und Templates.
Der Skill Creator ist eines von 30+ offiziellen Plugins im claude-plugins-official Repo. Weitere spannende Plugins:
frontend-design -- Production-grade UI ohne generisches Bootstrap-Lookcode-review -- Strukturierte Code-Reviewsralph-loop -- Recurring Tasks auf Intervallplayground -- Experimentierumgebungagent-sdk-dev -- Custom Agents bauen