
谷歌前几天放了一篇论文,把 Skill 这套玩法直接推到了一个新阶段:让 Agent 自己学会写、自己学会改、自己学会删 Skill
论文叫《# SkillOS: Learning Skill Curation for Self-Evolving Agents》

Skill 是 Agent 的"程序性记忆",过去都是人手动写、手动维护;SkillOS 让 RL 训练出来的一个"Skill Curator"自动接管这件事
整个系统由两部分组成:
下图就是 SkillOS 的整体框架,论文 Figure 1:

我把这个闭环再画成一张信息图:

注意一个非常关键的细节:Skill 的存储格式是 Markdown 文件——和 Anthropic 那套 Agent Skills 一脉相承
LLM Agent 现在最大的尴尬:每个任务都是"一次性"的,做完就忘,下次相似的任务还得从头再算一遍
业界已有几条路线:
路线 | 问题 |
|---|---|
人手写 Skill(如 Anthropic Skills) | 需要大量人力专家,覆盖不了任务多样性 |
启发式规则(A-Mem、Alita 等) | 操作固定,没法跟下游执行效果挂钩 |
短 horizon RL | 学不到长期、复杂的"管理"决策,比如"什么时候该删、什么时候该合并" |
SkillOS 的角度是:用 RL 训练一个长 horizon 的 Curator,专门学习 Skill 库的管理策略
1. 任务流分组 + 两阶段评估
它把任务按"技能相关性"分组成 stream:前面的轨迹用来更新 SkillRepo,后面相关的任务用来评估"你这次更新是不是真的有用"——给 Curator 提供了延迟奖励信号
2. 复合奖励 (composite rewards)
光看下游对/错没法准确归因到 Curator 的某次具体编辑——所以作者设计了组合奖励,把执行反馈更精准地传回给"那一次 Skill 操作"
3. Skill 格式定死 Markdown
跟 Claude Skills、OpenAI Skills 的存储格式一致,方便迁移、方便人读、方便 LLM 写
论文在多轮 Agent 任务和单轮推理任务上都做了对比:
1. 它正式把"Skill 管理"这件事变成了一个 RL 问题
之前大家想 Skill 体系,要么靠人写、要么靠规则,SkillOS 给出了"学习 Skill 管理策略"这条路的可行性证明
2. 它选了 Markdown 作为载体
这个选择不是巧合,Anthropic Skills、OpenAI 最近的 Skill 体系、Hermes Agent 的 Universal Skills 全是 Markdown——这意味着学界和业界的"Skill 格式标准"正在收敛
3. 它给 self-evolving agent 提供了一个具体抓手
"自进化 Agent"这个词喊了快一年了,但具体怎么"进化"一直没明确锚点,SkillOS 把锚点定在"Curator 学会管理 SkillRepo"上,这条线比模糊地说"加 memory"要清晰得多
我之前文章里多次说过,Skill 会成为 Agent 体系的标配,SkillOS 这篇论文又往前推了一步:Skill 这套体系不仅要会用,还要会"管",而"管"也可以被训练
接下来一年,估计会看到一波"用更聪明的方法管 Skill"的工作冒出来——SkillOS 是其中很扎实的一篇