
🚩 2026 年「术哥无界」系列实战文档 X 篇原创计划 第 44 篇,Skills 最佳实战「2026」系列第 13 篇 大家好,欢迎来到 术哥无界 | ShugeX | 运维有术。
我是术哥,一名专注于 AI 编程、AI 智能体、Agent Skills、MCP、云原生、Milvus 向量数据库的技术实践者与开源布道者! Talk is cheap, let's explore。无界探索,有术而行。

图 0:文章封面 - skill-creator 5 大核心功能概览
你在创建 Claude skill 时,可能遇到过这些问题:
这些问题的根源是同一个:skill 开发缺乏测试和验证机制。
2026年3月3日,Anthropic 更新了 skill-creator,引入了 5 个核心功能:评估(Evals)、基准测试(Benchmark)、多智能体并行、A/B 测试、触发器优化。这次更新把软件工程的严谨性引入 skill 开发,把"看起来有用"变成"验证有效"。
Claude Code 用户可以安装官方插件或从代码库获取相关资源。安装很简单:
/plugin install skill-creator@claude-plugin-directory
# 或者
/plugin > Discover
什么是 Evals?
Evals(评估)是检查 Claude 对给定提示是否符合预期的测试。使用流程很简单:
实际案例:PDF skill 问题修复
官方博客分享了一个真实的修复案例。PDF skill 之前在处理非填表类表单时表现不佳 - Claude 必须在没有预设字段引导的情况下,将文本放置在精确坐标。
通过 Evals,团队隔离了失败案例,发现问题根源,然后发布修复:锚定定位到提取的文本坐标。

图1:PDF Evals 示例,展示如何隔离问题并提供修复路径
Evals 的两大用途:
用途一:捕捉质量衰退
模型和基础设施演进时,上个月工作的 skill 今天可能异常。针对新模型运行测试,能在影响实际工作前提供预警信号。
用途二:了解模型进展
这主要针对能力提升型 skill。如果基础模型在不加载 skill 的情况下也能通过测试,说明 skill 的技术方法已被吸收进模型的默认行为 - skill 没坏,只是不再需要了。
基准测试模式使用 evals 运行标准化评估,追踪三个关键指标:
适用场景:
数据所有权: 测试和结果完全归用户所有,支持本地存储,可接入仪表盘,可插入 CI 系统。

图2:Benchmark Mode 界面,提供量化性能追踪
解决的问题:
解决方案:
优势: 更快的结果,无交叉污染。
用途: A/B 测试
对比场景:
盲测机制: 判断输出时不知道对照组信息,确保客观判断修改是否真正提升。

图3:A/B Testing 对比图,提供客观的版本对比能力
背景: Evals 测量输出质量,但前提是 skill 要在正确时机触发。
问题:
解决方案:
实测效果: 在 6 个公开文档创建 skill 上测试,5 个 skill 的触发得到改善,成功率 83.3%。

图 4:触发器优化效果对比,6 个 skill 中 5 个得到改善,成功率 83.3%

图5:触发器优化结果,6个skill中5个得到改善
你在创建 skill 时,是更关注功能实现,还是先定义测试用例?评论区聊聊你的经验。
官方将 skill 分为两类,测试重点完全不同。
定义: 帮助 Claude 完成基础模型做不到或表现不稳定的工作。
示例:
测试重点:
定义: Claude 已能完成各环节,但 skill 按团队流程编排。
示例:
测试重点:
关键洞察: 无论哪种类型,测试都能让"看起来有效"的 skill 变成"验证有效"的 skill。
skill 的最小结构只需要一个文件:
skill-directory/
└── SKILL.md
SKILL.md 必需元素:
---
name: skill-name
description: skill description
---
就这么简单。当然,你可以添加更多内容,但这两个元数据是最小要求。

图6:SKILL.md 文件结构,包括 YAML Frontmatter 和具体行动指南
核心设计原则: 让 Claude 按需加载信息,而不是一次性把所有内容塞进上下文。
三个层级:
第一层:元数据(name + description)
第二层:SKILL.md 主体
SKILL.md 到上下文第三层及更多:附加文件

图 7:渐进式披露三层加载机制架构图
pdf-skill/
├── SKILL.md # 核心定义
├── reference.md # 参考资料
└── forms.md # 表单填写指南
优势:
forms.md
图8:如何将更多上下文捆绑到 SKILL.md

图9:渐进式披露如何像组织良好的手册一样工作
优势: 拥有文件系统和代码执行工具的 agent 不需要将整个 skill 读入上下文窗口,skill 可以捆绑的上下文量实际上是无限的。
操作序列:
pdf/SKILL.mdforms.md
图 10:skill 触发流程图

图11:skill 如何通过系统提示在上下文窗口中触发
设计理念:
示例:
PDF skill 示例:

图12:skill 如何包含供 Claude 根据任务性质自行决定执行的工具代码
前面提到过,PDF skill 在处理非填表类表单时表现不佳。通过 Evals,团队:
这个案例说明,Evals 不仅是测试工具,更是问题诊断工具。
应用场景: 管理会计和财务工作流
skill 功能:
效果: 将原本需要一天的工作缩短到一小时。
Rakuten 的 General Manager AI 说:
Skills streamline our management accounting and finance workflows. Claude processes multiple spreadsheets, catches critical anomalies, and generates reports using our procedures. What once took a day, we can now accomplish in an hour.
Box(企业内容管理):
Canva(设计平台):
Notion(协作工具):
推荐流程:
不要试图预先猜测所有需求。 让 Claude 在实际场景中告诉你它需要什么。
当 SKILL.md 变得笨重时:
代码的双重角色:
监控 Claude 在实际场景中如何使用你的 skill:
name 和 description - Claude 在决定是否触发 skill 时会使用这些协作优化:
风险:
建议:
这次 skill-creator 更新的核心价值,是把软件开发的严谨性引入 AI 能力构建。
从"实现计划"到"规范说明":
测试驱动的 Skill 开发:
这把 skill 创作从"艺术"转变为"工程",提高了可靠性和可维护性。
触发器优化在 6 个公开 skill 中有 5 个得到改善。这个数字说明:精准的触发描述是可以系统性优化的,而不是靠"感觉"调参。
这次更新让 skill 开发告别了"草台班子"时代。对于已经在用 Claude Code 或 Claude.ai 的开发者来说,建议与其折腾复杂的第三方工具,不如学好 skill 创建 - 这是日常工作非常有用的大杀器。
相关资源
官方博客:https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills
GitHub Plugin 仓库:https://github.com/anthropics/claude-plugins-official/tree/main/plugins/skill-creator
GitHub Skills 仓库:https://github.com/anthropics/skills/tree/main/skills/skill-creator
好啦,谢谢你观看我的文章,如果喜欢可以点赞转发给需要的朋友,我们下一期再见!敬请期待!