谷歌SkillOS，让Agent自己管Skill

Ai学习的老章

发布于 2026-05-22 20:06:20

1240

谷歌前几天放了一篇论文，把 Skill 这套玩法直接推到了一个新阶段：让 Agent 自己学会写、自己学会改、自己学会删 Skill

论文叫《# SkillOS: Learning Skill Curation for Self-Evolving Agents》

Skill 是 Agent 的"程序性记忆"，过去都是人手动写、手动维护；SkillOS 让 RL 训练出来的一个"Skill Curator"自动接管这件事

整个系统由两部分组成：

Agent Executor（冻结，不训练）：负责干活——给一个任务，它从 SkillRepo 里挑相关 Skill，按 Skill 执行
Skill Curator（可训练）：负责管 Skill——执行完一个任务后，看着轨迹决定是 insert / update / delete，更新 SkillRepo

下图就是 SkillOS 的整体框架，论文 Figure 1：

我把这个闭环再画成一张信息图：

注意一个非常关键的细节：Skill 的存储格式是 Markdown 文件——和 Anthropic 那套 Agent Skills 一脉相承

LLM Agent 现在最大的尴尬：每个任务都是"一次性"的，做完就忘，下次相似的任务还得从头再算一遍

业界已有几条路线：

路线	问题
人手写 Skill（如 Anthropic Skills）	需要大量人力专家，覆盖不了任务多样性
启发式规则（A-Mem、Alita 等）	操作固定，没法跟下游执行效果挂钩
短 horizon RL	学不到长期、复杂的"管理"决策，比如"什么时候该删、什么时候该合并"

SkillOS 的角度是：用 RL 训练一个长 horizon 的 Curator，专门学习 Skill 库的管理策略

1. 任务流分组 + 两阶段评估

它把任务按"技能相关性"分组成 stream：前面的轨迹用来更新 SkillRepo，后面相关的任务用来评估"你这次更新是不是真的有用"——给 Curator 提供了延迟奖励信号

2. 复合奖励 (composite rewards)

光看下游对/错没法准确归因到 Curator 的某次具体编辑——所以作者设计了组合奖励，把执行反馈更精准地传回给"那一次 Skill 操作"

3. Skill 格式定死 Markdown

跟 Claude Skills、OpenAI Skills 的存储格式一致，方便迁移、方便人读、方便 LLM 写

论文在多轮 Agent 任务和单轮推理任务上都做了对比：

SkillOS 稳定打过 memory-free baseline 和强 memory-based baseline——又快又准
训出来的 Curator 能跨 Executor 主干迁移（即你换底层模型，Curator 还能用）
训出来的 Curator 能跨任务域迁移
更有意思的：随着训练推进，SkillRepo 内部会发展出**更高层级的"meta-skill"**——也就是 Skill 自己开始有层次结构、有抽象——这点很哲学了