首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Claude Skill-Creator 重磅更新!终于告别“玄学调试”,像写代码一样测试、测量、迭代你的 Agent Skills

Claude Skill-Creator 重磅更新!终于告别“玄学调试”,像写代码一样测试、测量、迭代你的 Agent Skills

作者头像
用户1640761
发布2026-07-01 21:51:51
发布2026-07-01 21:51:51
860
举报

大家好,我是"不一样的猿生"。

如果你正在用 Claude 写 Skills(技能),肯定被这个痛点折磨过:

  • • 写了个处理 PDF 的技能,结果用户说“帮我填个表单”的时候,它却不触发;
  • • 明明加了详细描述,触发率还是时好时坏,只能手动改一句、测一次、再改、再测……纯纯玄学。

现在好了! Anthropic 刚刚发布了 Skill-Creator 的重大升级,把软件工程的「测试驱动开发(TDD)」直接搬进了技能创作流程!

今天这篇文章,专门写给所有需要自己动手写 Skill 的读者——不管你是产品经理、运营、开发者,还是像我一样天天折腾 Agent 的普通人。读完你就能立刻上手,用数据说话,让你的技能又准又稳。

1. Skill-Creator 到底是什么?

简单说,它是 Claude 官方推出的「技能创建器」,专门帮你:

  • • 快速起草 SKILL.md
  • • 自动运行测试(Evals)
  • • 测量触发率、耗时、Token
  • • 迭代优化描述和内容

以前你写技能靠「感觉」,现在它给你一套完整的工程化闭环。官网直接在 Claude.ai、Cowork、Claude Code 插件里就能用,GitHub 开源仓库也同步更新。

2. 这次更新最杀的 5 个新功能(直接解决你的痛点)

① 内置自动测试(Evals)——再也不用手动试 20 遍 你只需写几条「用户可能会怎么问」的测试提示词 + 预期结果,Skill-Creator 就会自动跑一遍。 报告直接告诉你:

  • • 触发成功率多少?
  • • 哪些用例失败了?
  • • 花了多少 Token?耗时多久?

② 多 Agent 并行跑测试 以前一个一个排队,现在 20 个测试场景同时扔给 20 个独立 Agent,上下文互不污染,速度直接起飞!

③ A/B 对比盲测(Comparator Agents) 改完技能描述不确定好不好? 让「比较器 Agent」盲测两个版本(甚至技能版 vs 无技能版),它会客观告诉你哪个更好。彻底告别「我觉得好像强了一点」的直觉时代。

④ 描述自动优化(Description Tuning) 系统会分析你的描述 + 测试提示词,指出哪里容易误触发、哪里漏触发。 官方实测:6 个公开文档创建技能,5 个触发率都提升了

⑤ Benchmark 模式 + 持续追踪 每次改完技能、Claude 模型更新后,一键跑基准测试,生成 pass rate、时间、Token 的数据报表。还能接入 CI 系统,真正做到「版本管理」。

一位 X 用户(@sitinme)总结得特别到位:「Agent 的世界正在从 Prompt 调参时代,走向 测试驱动开发(TDD)时代。」

3. 手把手教你用新 Skill-Creator 写一个技能

根据官方 SKILL.md 和博客,我帮你精简成最适合「非程序员」也能上手的 5 步:

Step 1:说清楚你要干什么 直接对 Claude 说:「我想做一个 XXX 技能」 Skill-Creator 会问你:

  • • 触发词是什么?
  • • 输出格式要固定吗?
  • • 有没有边缘案例?

Step 2:写 SKILL.md 草稿 它会自动帮你填充:

  • • name
  • • description(特别提醒:要写得「霸道」一点!比如加一句「只要用户提到数据可视化、仪表盘,就必须用这个技能」)
  • • 详细操作步骤
  • • 配套资源(模板、脚本等)

Step 3:写 3-5 个测试用例 直接在 evals/evals.json 里加提示词,Skill-Creator 会自动生成预期断言(assertions)。

Step 4:一键运行 + 看报告 它会同时跑「带技能版」和「无技能版」对比,生成完整 review 页面(含输出文件 + 数据指标)。

Step 5:迭代优化 看报告 → 改描述/逻辑 → 再跑一轮 Benchmark → 直到满意。 官方建议:先小范围测,满意后再扩到 20+ 测试用例。

小贴士(来自官方最佳实践):

  • • 能力提升型技能(比如 PDF 表单填充)→ 重点测「是否成功」;
  • • 偏好编码型技能(比如 NDA 审查流程)→ 重点测「格式是否严格遵守」;
  • • 写作类技能 → 还是要人眼看质量,但可以用对比测试判断「哪个版本更专业」。

4. 真实案例:PDF 技能是怎么被救回来的?

之前官方的 PDF 技能遇到「不可填写表单」就崩。 新版 Skill-Creator 用 Evals 定位问题 → 改成「锚定提取文本坐标」→ 一次修复,彻底稳定。

你手上的技能,也能用同样的方法「救活」!

5. 现在就去试试吧!

  1. 1. 打开 Claude.ai 或 Cowork,输入:「Use Skill-Creator」启动它;
  2. 2. 或者装官方插件:https://github.com/anthropics/skills
  3. 3. 直接 GitHub 看完整文档:https://github.com/anthropics/skills/tree/main/skills/skill-creator

写完技能记得分享到社区,我们一起把技能库越做越强!

最后想问问你: 你目前最想做一个什么样的 Skill? 是自动化周报?PDF 处理?还是数据仪表盘? 评论区告诉我,我可以直接帮你用新 Skill-Creator 起个草稿~

点赞 + 转发给正在写 Skill 的朋友,这波更新真的让普通人也能做出「工业级」Agent 了!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 不一样的猿生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Skill-Creator 到底是什么?
  • 2. 这次更新最杀的 5 个新功能(直接解决你的痛点)
  • 3. 手把手教你用新 Skill-Creator 写一个技能
  • 4. 真实案例:PDF 技能是怎么被救回来的?
  • 5. 现在就去试试吧!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档