Claude Code Skill Creator: Schluss mit Vibe-Testing – so baust du datengetriebene Skills
Anthropic hat den Skill Creator für Claude Code grundlegend überarbeitet. Mit automatisierten Evals, A/B-Tests und Trigger-Optimierung wird aus Trial-and-Error ein systematischer Prozess.
Claude Code Skill Creator: Schluss mit Vibe-Testing – so baust du datengetriebene Skills
Bisher lief die Entwicklung von Skills für Claude Code und Claude Cowork bei den meisten nach dem gleichen Muster: einen Prozess einmal durchspielen, Claude bitten, daraus einen Skill zu machen, und hoffen, dass er funktioniert. Vibe-based Skill Development – kein Feedback, keine Metriken, keine Sicherheit.
Das hat gleich mehrere Probleme. Neue Modell-Updates können einen Skill überflüssig machen, wenn das Basismodell die Fähigkeit plötzlich nativ beherrscht. Und ohne systematische Tests lässt sich nicht nachvollziehen, ob Änderungen am Skill die Performance tatsächlich verbessern oder verschlechtern.
Anthropic hat jetzt den Skill Creator (erreichbar über /plugins) grundlegend überarbeitet – und damit einen echten Framework-Wechsel eingeleitet.
Zwei Kategorien von Skills
Der neue Skill Creator unterscheidet klar zwischen zwei Typen:
Capability Uplift
Skills, die eine aktuelle Schwäche des Modells ausgleichen – etwa bei Swift Concurrency, dem Ausfüllen von PDF-Formularen oder der Erstellung von PowerPoint-Präsentationen. Diese Skills haben implizit ein Ablaufdatum: Sobald das Basismodell die Fähigkeit eigenständig beherrscht, werden sie überflüssig.
Workflow- und Präferenz-Encoding
Skills, die spezifische interne Prozesse automatisieren – Compliance-Checks, persönliche Workflows oder wiederkehrende Aufgaben wie das Generieren wöchentlicher Reports aus Jira oder das Reviewen von NDAs. Diese Skills bleiben relevant, weil sie unternehmensspezifisches Wissen codieren, das kein Basismodell kennt.
Automatisierte Evals und A/B-Testing
Das Herzstück des Updates: Der Skill Creator kann jetzt Testfälle erstellen, Benchmarks ausführen und A/B-Tests durchführen.
In der Praxis sieht das so aus: Du erstellst einen Skill – zum Beispiel für SEO-Audits. Das System startet daraufhin parallele Sub-Agenten: eine Gruppe mit dem Skill und eine ohne. Ein sogenannter Comparator bewertet blind, welche Ausgabe besser ist.
Das Ergebnis sind konkrete Metriken:
- Erfolgsrate – wie oft liefert der Skill ein besseres Ergebnis als das Basismodell?
- Completion Time – wie wirkt sich der Skill auf die Bearbeitungszeit aus?
- Token Usage – wie viel zusätzlichen Kontext verbraucht der Skill?
Statt Bauchgefühl gibt es jetzt harte Zahlen, die zeigen, ob ein Skill tatsächlich einen Uplift liefert.
Trigger-Optimierung
Ein weiteres Problem bisher: Skills wurden zu oft oder zu selten ausgelöst. Der neue Skill Creator löst das mit einem automatischen Optimierungs-Loop.
Das System nutzt ein Training- und ein Test-Set, um die Skill-Beschreibung iterativ zu verfeinern – bis zu fünf Optimierungszyklen. Ziel ist, dass der Skill zuverlässig auslöst, wenn er gebraucht wird, und sich zurückhält, wenn nicht.
Das klingt trivial, ist aber entscheidend: Ein Skill, der bei jedem zweiten Prompt fälschlicherweise greift, stört den Workflow mehr als er hilft.
Lifecycle Management: Skills sind keine Fire-and-Forget-Lösung
Ein oft übersehener Punkt: Skills müssen gepflegt werden. Nach jedem größeren Modell-Update – etwa von Opus 4 auf Opus 5 – sollte man prüfen:
- Behalten: Der Skill liefert weiterhin messbaren Uplift.
- Aktualisieren: Das Modell ist besser geworden, aber der Skill muss angepasst werden.
- Löschen: Das Basismodell beherrscht die Fähigkeit jetzt nativ – der Skill ist überflüssig.
Wer das nicht tut, riskiert, dass veraltete Skills die Performance verschlechtern, anstatt sie zu verbessern.
Fazit
Der neue Skill Creator verwandelt Skill-Entwicklung von einer kreativen Übung in einen Engineering-Prozess. Automatisierte Evals, A/B-Tests und Trigger-Optimierung geben Entwicklern erstmals die Werkzeuge, um datengetrieben zu arbeiten.
Ja, das bedeutet mehr Aufwand pro Skill. Aber ein Skill, der nachweislich funktioniert und sich sauber in den Workflow integriert, ist langfristig mehr wert als zehn, die „irgendwie" laufen. Qualität schlägt Quantität – auch bei KI-Skills.
Claude Code, agents.md Mythen und der KI-Tsunami: Was du jetzt wissen musst
Die wichtigsten KI-News der Woche – Claude Code Remote Control, die agents.md-Studie der ETH Zürich, Nvidias Physical AI, Mercury 2, Perplexity Computer und der Arbeitsmarkt-Tsunami.
Getting Started with Large Language Models
A practical introduction to LLMs — what they are, how they work, and how to start building with them today.