大家好,我是"不一样的猿生"。
如果你正在用 Claude 写 Skills(技能),肯定被这个痛点折磨过:
现在好了! Anthropic 刚刚发布了 Skill-Creator 的重大升级,把软件工程的「测试驱动开发(TDD)」直接搬进了技能创作流程!
今天这篇文章,专门写给所有需要自己动手写 Skill 的读者——不管你是产品经理、运营、开发者,还是像我一样天天折腾 Agent 的普通人。读完你就能立刻上手,用数据说话,让你的技能又准又稳。
简单说,它是 Claude 官方推出的「技能创建器」,专门帮你:
以前你写技能靠「感觉」,现在它给你一套完整的工程化闭环。官网直接在 Claude.ai、Cowork、Claude Code 插件里就能用,GitHub 开源仓库也同步更新。
① 内置自动测试(Evals)——再也不用手动试 20 遍 你只需写几条「用户可能会怎么问」的测试提示词 + 预期结果,Skill-Creator 就会自动跑一遍。 报告直接告诉你:
② 多 Agent 并行跑测试 以前一个一个排队,现在 20 个测试场景同时扔给 20 个独立 Agent,上下文互不污染,速度直接起飞!
③ A/B 对比盲测(Comparator Agents) 改完技能描述不确定好不好? 让「比较器 Agent」盲测两个版本(甚至技能版 vs 无技能版),它会客观告诉你哪个更好。彻底告别「我觉得好像强了一点」的直觉时代。

④ 描述自动优化(Description Tuning) 系统会分析你的描述 + 测试提示词,指出哪里容易误触发、哪里漏触发。 官方实测:6 个公开文档创建技能,5 个触发率都提升了!
⑤ Benchmark 模式 + 持续追踪 每次改完技能、Claude 模型更新后,一键跑基准测试,生成 pass rate、时间、Token 的数据报表。还能接入 CI 系统,真正做到「版本管理」。
一位 X 用户(@sitinme)总结得特别到位:「Agent 的世界正在从 Prompt 调参时代,走向 测试驱动开发(TDD)时代。」
根据官方 SKILL.md 和博客,我帮你精简成最适合「非程序员」也能上手的 5 步:
Step 1:说清楚你要干什么 直接对 Claude 说:「我想做一个 XXX 技能」 Skill-Creator 会问你:
Step 2:写 SKILL.md 草稿 它会自动帮你填充:
Step 3:写 3-5 个测试用例 直接在 evals/evals.json 里加提示词,Skill-Creator 会自动生成预期断言(assertions)。
Step 4:一键运行 + 看报告 它会同时跑「带技能版」和「无技能版」对比,生成完整 review 页面(含输出文件 + 数据指标)。
Step 5:迭代优化 看报告 → 改描述/逻辑 → 再跑一轮 Benchmark → 直到满意。 官方建议:先小范围测,满意后再扩到 20+ 测试用例。
小贴士(来自官方最佳实践):
之前官方的 PDF 技能遇到「不可填写表单」就崩。 新版 Skill-Creator 用 Evals 定位问题 → 改成「锚定提取文本坐标」→ 一次修复,彻底稳定。
你手上的技能,也能用同样的方法「救活」!
写完技能记得分享到社区,我们一起把技能库越做越强!
最后想问问你: 你目前最想做一个什么样的 Skill? 是自动化周报?PDF 处理?还是数据仪表盘? 评论区告诉我,我可以直接帮你用新 Skill-Creator 起个草稿~
点赞 + 转发给正在写 Skill 的朋友,这波更新真的让普通人也能做出「工业级」Agent 了!