Claude Code Skill Creator: Schluss mit Vibe-Testing – so baust du datengetriebene Skills

Bisher lief die Entwicklung von Skills für Claude Code und Claude Cowork bei den meisten nach dem gleichen Muster: einen Prozess einmal durchspielen, Claude bitten, daraus einen Skill zu machen, und hoffen, dass er funktioniert. Vibe-based Skill Development – kein Feedback, keine Metriken, keine Sicherheit.

Das hat gleich mehrere Probleme. Neue Modell-Updates können einen Skill überflüssig machen, wenn das Basismodell die Fähigkeit plötzlich nativ beherrscht. Und ohne systematische Tests lässt sich nicht nachvollziehen, ob Änderungen am Skill die Performance tatsächlich verbessern oder verschlechtern.

Anthropic hat jetzt den Skill Creator (erreichbar über /plugins) grundlegend überarbeitet – und damit einen echten Framework-Wechsel eingeleitet.

Zwei Kategorien von Skills

Der neue Skill Creator unterscheidet klar zwischen zwei Typen:

Capability Uplift

Skills, die eine aktuelle Schwäche des Modells ausgleichen – etwa bei Swift Concurrency, dem Ausfüllen von PDF-Formularen oder der Erstellung von PowerPoint-Präsentationen. Diese Skills haben implizit ein Ablaufdatum: Sobald das Basismodell die Fähigkeit eigenständig beherrscht, werden sie überflüssig.

Workflow- und Präferenz-Encoding

Skills, die spezifische interne Prozesse automatisieren – Compliance-Checks, persönliche Workflows oder wiederkehrende Aufgaben wie das Generieren wöchentlicher Reports aus Jira oder das Reviewen von NDAs. Diese Skills bleiben relevant, weil sie unternehmensspezifisches Wissen codieren, das kein Basismodell kennt.

Automatisierte Evals und A/B-Testing

Das Herzstück des Updates: Der Skill Creator kann jetzt Testfälle erstellen, Benchmarks ausführen und A/B-Tests durchführen.

In der Praxis sieht das so aus: Du erstellst einen Skill – zum Beispiel für SEO-Audits. Das System startet daraufhin parallele Sub-Agenten: eine Gruppe mit dem Skill und eine ohne. Ein sogenannter Comparator bewertet blind, welche Ausgabe besser ist.

Das Ergebnis sind konkrete Metriken:

Erfolgsrate – wie oft liefert der Skill ein besseres Ergebnis als das Basismodell?
Completion Time – wie wirkt sich der Skill auf die Bearbeitungszeit aus?
Token Usage – wie viel zusätzlichen Kontext verbraucht der Skill?

Statt Bauchgefühl gibt es jetzt harte Zahlen, die zeigen, ob ein Skill tatsächlich einen Uplift liefert.

Trigger-Optimierung

Ein weiteres Problem bisher: Skills wurden zu oft oder zu selten ausgelöst. Der neue Skill Creator löst das mit einem automatischen Optimierungs-Loop.

Das System nutzt ein Training- und ein Test-Set, um die Skill-Beschreibung iterativ zu verfeinern – bis zu fünf Optimierungszyklen. Ziel ist, dass der Skill zuverlässig auslöst, wenn er gebraucht wird, und sich zurückhält, wenn nicht.

Das klingt trivial, ist aber entscheidend: Ein Skill, der bei jedem zweiten Prompt fälschlicherweise greift, stört den Workflow mehr als er hilft.

Lifecycle Management: Skills sind keine Fire-and-Forget-Lösung

Ein oft übersehener Punkt: Skills müssen gepflegt werden. Nach jedem größeren Modell-Update – etwa von Opus 4 auf Opus 5 – sollte man prüfen:

Behalten: Der Skill liefert weiterhin messbaren Uplift.
Aktualisieren: Das Modell ist besser geworden, aber der Skill muss angepasst werden.
Löschen: Das Basismodell beherrscht die Fähigkeit jetzt nativ – der Skill ist überflüssig.

Wer das nicht tut, riskiert, dass veraltete Skills die Performance verschlechtern, anstatt sie zu verbessern.

Fazit

Der neue Skill Creator verwandelt Skill-Entwicklung von einer kreativen Übung in einen Engineering-Prozess. Automatisierte Evals, A/B-Tests und Trigger-Optimierung geben Entwicklern erstmals die Werkzeuge, um datengetrieben zu arbeiten.

Ja, das bedeutet mehr Aufwand pro Skill. Aber ein Skill, der nachweislich funktioniert und sich sauber in den Workflow integriert, ist langfristig mehr wert als zehn, die „irgendwie" laufen. Qualität schlägt Quantität – auch bei KI-Skills.

Claude Code Skill Creator: Schluss mit Vibe-Testing – so baust du datengetriebene Skills

Claude Code Skill Creator: Schluss mit Vibe-Testing – so baust du datengetriebene Skills

Zwei Kategorien von Skills

Capability Uplift

Workflow- und Präferenz-Encoding

Automatisierte Evals und A/B-Testing

Trigger-Optimierung

Lifecycle Management: Skills sind keine Fire-and-Forget-Lösung

Fazit

Related Articles

Claude Code, agents.md Mythen und der KI-Tsunami: Was du jetzt wissen musst

CMUX: Das Terminal, in dem KI-Agenten die Regie übernehmen

AI Weekly Recap: Sonnet 4.6, Alibaba's Qwen3.5, and the Global South Takes Center Stage