首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >skill-creator 重磅更新:83.3% 触发优化率、5 个工程化功能让 AI 能力从"手工艺术"变"工程实践"

skill-creator 重磅更新:83.3% 触发优化率、5 个工程化功能让 AI 能力从"手工艺术"变"工程实践"

作者头像
运维有术
发布2026-04-01 19:32:10
发布2026-04-01 19:32:10
5830
举报
文章被收录于专栏:运维有术运维有术

🚩 2026 年「术哥无界」系列实战文档 X 篇原创计划 第 44 篇,Skills 最佳实战「2026」系列第 13 篇 大家好,欢迎来到 术哥无界 | ShugeX | 运维有术

我是术哥,一名专注于 AI 编程、AI 智能体、Agent Skills、MCP、云原生、Milvus 向量数据库的技术实践者与开源布道者Talk is cheap, let's explore。无界探索,有术而行。

封面图
封面图

图 0:文章封面 - skill-creator 5 大核心功能概览

你在创建 Claude skill 时,可能遇到过这些问题:

  • 写完 skill,不确定它真的按预期工作
  • 修改了 skill,不知道是改善还是变差
  • 模型更新后,skill 突然不触发或效果异常
  • skill 触发时机不对 - 该触发时不触发,不该触发时乱触发

这些问题的根源是同一个:skill 开发缺乏测试和验证机制

2026年3月3日,Anthropic 更新了 skill-creator,引入了 5 个核心功能评估(Evals)、基准测试(Benchmark)、多智能体并行、A/B 测试、触发器优化。这次更新把软件工程的严谨性引入 skill 开发,把"看起来有用"变成"验证有效"。

Claude Code 用户可以安装官方插件或从代码库获取相关资源。安装很简单:

代码语言:javascript
复制
/plugin install skill-creator@claude-plugin-directory
# 或者
/plugin > Discover

核心更新:5 大功能详解

1. Evals:让 skill 质量可验证

什么是 Evals?

Evals(评估)是检查 Claude 对给定提示是否符合预期的测试。使用流程很简单:

  1. 定义测试提示词(+ 所需文件)
  2. 描述"好的结果"是什么样
  3. skill-creator 告诉你 skill 是否达标

实际案例:PDF skill 问题修复

官方博客分享了一个真实的修复案例。PDF skill 之前在处理非填表类表单时表现不佳 - Claude 必须在没有预设字段引导的情况下,将文本放置在精确坐标。

通过 Evals,团队隔离了失败案例,发现问题根源,然后发布修复:锚定定位到提取的文本坐标。

PDF Evals 示例 - 展示 evals 如何识别和修复问题
PDF Evals 示例 - 展示 evals 如何识别和修复问题

图1:PDF Evals 示例,展示如何隔离问题并提供修复路径

Evals 的两大用途:

用途一:捕捉质量衰退

模型和基础设施演进时,上个月工作的 skill 今天可能异常。针对新模型运行测试,能在影响实际工作前提供预警信号。

用途二:了解模型进展

这主要针对能力提升型 skill。如果基础模型在不加载 skill 的情况下也能通过测试,说明 skill 的技术方法已被吸收进模型的默认行为 - skill 没坏,只是不再需要了。

2. Benchmark Mode:量化性能追踪

基准测试模式使用 evals 运行标准化评估,追踪三个关键指标:

  • Eval 通过率:skill 是否达到预期
  • 耗时:执行效率
  • Token 用量:成本控制

适用场景:

  • 模型更新后运行
  • skill 本身迭代后运行

数据所有权: 测试和结果完全归用户所有,支持本地存储,可接入仪表盘,可插入 CI 系统。

Benchmark Mode 界面 - 显示通过率、耗时、token用量等关键指标
Benchmark Mode 界面 - 显示通过率、耗时、token用量等关键指标

图2:Benchmark Mode 界面,提供量化性能追踪

3. 多智能体并行:更快、更干净

解决的问题:

  • 顺序运行慢
  • 上下文积累导致测试间干扰

解决方案:

  • 启动独立智能体并行运行 evals
  • 每个智能体在干净上下文中工作
  • 独立的 token 和时间统计

优势: 更快的结果,无交叉污染。

4. 对比智能体:A/B 测试能力

用途: A/B 测试

对比场景:

  1. 两个 skill 版本对比
  2. skill vs. 无 skill 对比

盲测机制: 判断输出时不知道对照组信息,确保客观判断修改是否真正提升。

A/B Testing 对比图 - 展示如何进行盲测
A/B Testing 对比图 - 展示如何进行盲测

图3:A/B Testing 对比图,提供客观的版本对比能力

5. 触发器优化:83.3% 的成功率

背景: Evals 测量输出质量,但前提是 skill 要在正确时机触发。

问题:

  • 随着 skill 数量增长,描述精准度变得关键
  • 太宽泛 → 误触发
  • 太狭窄 → 永不触发

解决方案:

  • 分析当前描述 vs. 示例提示词
  • 提供编辑建议
  • 同时降低误报和漏报

实测效果: 在 6 个公开文档创建 skill 上测试,5 个 skill 的触发得到改善,成功率 83.3%。

触发器优化效果对比
触发器优化效果对比

图 4:触发器优化效果对比,6 个 skill 中 5 个得到改善,成功率 83.3%

Description Optimization Results - 展示优化前后的对比结果
Description Optimization Results - 展示优化前后的对比结果

图5:触发器优化结果,6个skill中5个得到改善

你在创建 skill 时,是更关注功能实现,还是先定义测试用例?评论区聊聊你的经验。

两类 skill:测试重点不同

官方将 skill 分为两类,测试重点完全不同。

类型一:能力提升型(Capability Uplift)

定义: 帮助 Claude 完成基础模型做不到或表现不稳定的工作。

示例:

  • 文档创建 skills
  • 特定的生成模式和技巧
  • 编码了优于单纯提示的技术和模式

测试重点:

  • 随着模型改进,这类 skill 可能变得不再必要
  • Evals 告诉你何时发生了这种情况

类型二:偏好编码型(Encoded Preference)

定义: Claude 已能完成各环节,但 skill 按团队流程编排。

示例:

  • 按既定标准审核 NDA
  • 结合多个 MCP 数据起草周报
  • 遵循团队特定流程的任务编排

测试重点:

  • 生命周期较长
  • 测试核心在于验证对实际工作流的忠实度

关键洞察: 无论哪种类型,测试都能让"看起来有效"的 skill 变成"验证有效"的 skill。

技术原理:skill 如何工作

SKILL.md 的最小结构

skill 的最小结构只需要一个文件:

代码语言:javascript
复制
skill-directory/
└── SKILL.md

SKILL.md 必需元素:

代码语言:javascript
复制
---
name: skill-name
description: skill description
---

就这么简单。当然,你可以添加更多内容,但这两个元数据是最小要求。

SKILL.md 文件结构 - 展示最小必要结构
SKILL.md 文件结构 - 展示最小必要结构

图6:SKILL.md 文件结构,包括 YAML Frontmatter 和具体行动指南

渐进式披露:三层加载机制

核心设计原则: 让 Claude 按需加载信息,而不是一次性把所有内容塞进上下文。

三个层级:

第一层:元数据(name + description)

  • 提供足够信息判断何时使用
  • 不加载全部内容
  • 启动时预加载所有已安装 skill 的元数据到系统提示

第二层:SKILL.md 主体

  • 如果 skill 与当前任务相关,读取完整 SKILL.md 到上下文

第三层及更多:附加文件

  • skill 可包含额外文件
  • Claude 按需发现和导航
渐进式披露:三层加载机制
渐进式披露:三层加载机制

图 7:渐进式披露三层加载机制架构图

PDF skill 的文件结构示例

代码语言:javascript
复制
pdf-skill/
├── SKILL.md        # 核心定义
├── reference.md    # 参考资料
└── forms.md        # 表单填写指南

优势:

  • 保持核心 skill 精简
  • Claude 只在填写表单时读取 forms.md
  • 减少不必要的上下文加载
捆绑附加内容 - 展示如何组织复杂skill
捆绑附加内容 - 展示如何组织复杂skill

图8:如何将更多上下文捆绑到 SKILL.md

渐进式披露流程 - 像组织良好的手册
渐进式披露流程 - 像组织良好的手册

图9:渐进式披露如何像组织良好的手册一样工作

优势: 拥有文件系统和代码执行工具的 agent 不需要将整个 skill 读入上下文窗口,skill 可以捆绑的上下文量实际上是无限的

skill 的触发流程

操作序列:

  1. 初始状态:
    • 核心系统提示
    • 所有已安装 skill 的元数据
    • 用户初始消息
  2. 触发 skill:
    • Claude 调用 Bash 工具读取 pdf/SKILL.md
  3. 加载附加文件:
    • Claude 选择读取捆绑的 forms.md
  4. 执行任务:
    • 现在已加载 PDF skill 的相关指令
    • 继续用户任务
skill 触发流程
skill 触发流程

图 10:skill 触发流程图

Skills 在上下文窗口中的触发
Skills 在上下文窗口中的触发

图11:skill 如何通过系统提示在上下文窗口中触发

skill 与代码执行

设计理念:

  • LLM 擅长许多任务
  • 但某些操作更适合传统代码执行

示例:

  • 排序列表:通过 token 生成远比运行排序算法昂贵
  • 需要确定性可靠性的应用:只有代码能提供

PDF skill 示例:

  • 包含预写的 Python 脚本
  • 读取 PDF 并提取所有表单字段
  • Claude 可运行脚本,无需加载脚本或 PDF 到上下文
  • 代码的确定性使工作流一致且可重复
通过 Skills 执行代码
通过 Skills 执行代码

图12:skill 如何包含供 Claude 根据任务性质自行决定执行的工具代码

实战案例:真实效果

案例一:PDF skill 问题修复

前面提到过,PDF skill 在处理非填表类表单时表现不佳。通过 Evals,团队:

  1. 隔离了失败案例
  2. 定位问题:没有预设字段引导时,文本坐标定位困难
  3. 发布修复:锚定定位到提取的文本坐标

这个案例说明,Evals 不仅是测试工具,更是问题诊断工具。

案例二:Rakuten - 从 1 天到 1 小时

应用场景: 管理会计和财务工作流

skill 功能:

  • 处理多个电子表格
  • 捕获关键异常
  • 使用组织的程序生成报告

效果: 将原本需要一天的工作缩短到一小时。

Rakuten 的 General Manager AI 说:

Skills streamline our management accounting and finance workflows. Claude processes multiple spreadsheets, catches critical anomalies, and generates reports using our procedures. What once took a day, we can now accomplish in an hour.

案例三:Box、Canva、Notion

Box(企业内容管理):

  • 将存储文件转换为符合组织标准的演示文稿、电子表格、Word 文档
  • 节省数小时工作量

Canva(设计平台):

  • 自定义 agent 并扩展其能力
  • 解锁将 Canva 更深入带入 agent 工作流的新方式
  • 帮助团队捕获独特上下文,轻松创建令人惊叹的高质量设计

Notion(协作工具):

  • 与 Notion 无缝协作
  • 从问题到行动更快
  • 复杂任务上减少提示词调试,更可预测的结果

最佳实践与避坑指南

从评估开始

推荐流程:

  1. 在代表性任务上运行 agent
  2. 观察它们在何处挣扎或需要额外上下文
  3. 增量构建 skills 解决这些缺陷

不要试图预先猜测所有需求。 让 Claude 在实际场景中告诉你它需要什么。

为扩展而结构化

当 SKILL.md 变得笨重时:

  • 拆分内容到单独文件并引用
  • 如果某些上下文互斥或很少一起使用,保持路径分离以减少 token 用量

代码的双重角色:

  • 可作为可执行工具
  • 也可作为文档
  • 应清楚 Claude 是应该直接运行脚本还是将其作为参考读入上下文

从 Claude 的角度思考

监控 Claude 在实际场景中如何使用你的 skill:

  • 基于观察迭代
  • 注意意外的轨迹或过度依赖某些上下文
  • 特别关注 skill 的 namedescription - Claude 在决定是否触发 skill 时会使用这些

与 Claude 一起迭代

协作优化:

  • 让 Claude 捕获成功方法和常见错误到可重用的上下文和 skill 中的代码
  • 如果在使用 skill 完成任务时偏离轨道,让它自我反思哪里出错了
  • 这个过程帮助你发现 Claude 实际需要什么上下文

安全注意事项

风险:

  • 恶意 skills 可能引入环境漏洞
  • 指示 Claude 窃取数据和采取意外行动

建议:

  1. 只从可信来源安装 skills
  2. 从较少信任的来源安装时:
    • 使用前彻底审计
    • 阅读 skill 中捆绑的文件内容
    • 特别注意代码依赖和捆绑资源(图像、脚本)
    • 注意指示 Claude 连接潜在不可信外部网络源的指令或代码

总结:测试驱动的 AI 开发时代

这次 skill-creator 更新的核心价值,是把软件开发的严谨性引入 AI 能力构建

对开发者的影响

  • 降低门槛: 领域专家无需工程背景,也能创建可靠的 skill
  • 提高效率: Evals、Benchmark、A/B 测试让优化有据可依
  • 增强可靠性: 测试捕捉回归,知道何时 skill 过时

对企业用户的影响

  • 工作流标准化: 编码组织特定流程
  • 效率显著提升: Rakuten 从 1 天到 1 小时是真实案例
  • 可维护性: 定期运行 evals,确保 skill 持续有效

对 AI 行业的趋势

从"实现计划"到"规范说明":

  • 当前:SKILL.md 本质上是实现计划,详细指示 Claude 如何做某事
  • 未来:自然语言描述 what skill 应该做,模型自行解决实现
  • Evals 已经在描述 "what",最终,描述本身就是 skill

测试驱动的 Skill 开发:

  • 测试(Evals)
  • 基准评估(Benchmark)
  • 持续集成(CI)
  • 迭代改进

这把 skill 创作从"艺术"转变为"工程",提高了可靠性和可维护性。

83.3% 优化成功率的启示

触发器优化在 6 个公开 skill 中有 5 个得到改善。这个数字说明:精准的触发描述是可以系统性优化的,而不是靠"感觉"调参

这次更新让 skill 开发告别了"草台班子"时代。对于已经在用 Claude Code 或 Claude.ai 的开发者来说,建议与其折腾复杂的第三方工具,不如学好 skill 创建 - 这是日常工作非常有用的大杀器。

相关资源

官方博客:https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills

GitHub Plugin 仓库:https://github.com/anthropics/claude-plugins-official/tree/main/plugins/skill-creator

GitHub Skills 仓库:https://github.com/anthropics/skills/tree/main/skills/skill-creator

好啦,谢谢你观看我的文章,如果喜欢可以点赞转发给需要的朋友,我们下一期再见!敬请期待!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 运维有术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 核心更新:5 大功能详解
    • 1. Evals:让 skill 质量可验证
    • 2. Benchmark Mode:量化性能追踪
    • 3. 多智能体并行:更快、更干净
    • 4. 对比智能体:A/B 测试能力
    • 5. 触发器优化:83.3% 的成功率
  • 两类 skill:测试重点不同
    • 类型一:能力提升型(Capability Uplift)
    • 类型二:偏好编码型(Encoded Preference)
  • 技术原理:skill 如何工作
    • SKILL.md 的最小结构
    • 渐进式披露:三层加载机制
    • PDF skill 的文件结构示例
    • skill 的触发流程
    • skill 与代码执行
  • 实战案例:真实效果
    • 案例一:PDF skill 问题修复
    • 案例二:Rakuten - 从 1 天到 1 小时
    • 案例三:Box、Canva、Notion
  • 最佳实践与避坑指南
    • 从评估开始
    • 为扩展而结构化
    • 从 Claude 的角度思考
    • 与 Claude 一起迭代
    • 安全注意事项
  • 总结:测试驱动的 AI 开发时代
    • 对开发者的影响
    • 对企业用户的影响
    • 对 AI 行业的趋势
    • 83.3% 优化成功率的启示
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档