技能(Skills)正在成为支架工程中连接大语言模型智能体与结构化领域知识的关键抽象。不同于松散的提示词和原子化的工具调用,技能将复杂的多步操作固化为可组合、可复用、可验证的确定性流程,使智能体能够在遵守边界约束的前提下可靠地执行生产级任务。本文面向算法研究人员,从形式化表示、执行机制、上下文调度、评估框架、安全治理及自动挖掘六个维度,对当前 AI 智能体技能的研究与实践进行系统综述。文章给出了技能的形式化定义,详细讨论了蓝图驱动执行、层次化上下文加载、计划‑技能耦合算法等核心技术机制,并引入伪代码与 Mermaid 图表辅助阐述。此外,本文梳理了技能基准测试、安全性验证及技能自动挖掘等前沿方向,展望了技能工程化向标准化组件与生态化发展的趋势。
关键词: AI 智能体;技能;编码化工作流;知识激活;支架工程;有向无环图;上下文调度
大型语言模型(LLM)驱动的 AI 智能体在代码生成、数据分析、自动化运维等任务中展现出强大能力,但其在复杂、多步、长时程的生产场景中仍面临严峻的可靠性挑战。早期 Agent 依赖自由形态的提示词与工具调用来完成任务,这种“边做边想”的模式极易导致步骤遗漏、架构违规和错误累积。研究表明,完全自由的工具调用策略在多步任务中的任务成功率随步骤数增加呈指数级衰减,且执行轨迹的方差远超可接受范围。
为应对这一挑战,“技能”(Skill)作为一种工程抽象被提出。在支架工程(Harness Engineering)的分层上下文体系中,技能位于宪法层、安全反射层与特性百科全书层之上,为 Agent 提供端到端的、经过验证的执行路径。其核心思想在于:将组织知识从隐性的提示词与文档中提取出来,固化为可执行、可验证的领域认知单元,从而将 Agent 的行为空间从“无限可能性”压缩至“有限但足够”的可靠路径集合。
本文面向算法研究人员,系统梳理 AI Agent 技能的形式化表示、执行机制、上下文管理、评估方法、安全治理及自动挖掘等方面的研究进展,旨在为技能的设计、实现与评估提供统一的技术参考框架。
在本综述中,技能 被形式化定义为一个六元组:
其中:
技能的步骤计划 通常建模为一个有向无环图(DAG):
其中 是步骤节点集合,每个节点 包含:
是步骤间的依赖边,边 表示 必须在 成功完成后才能开始。 是唯一入口节点, 是终止节点集合。执行引擎按拓扑顺序调度节点执行,支持有限并行:当多个节点入度为 0 且互不冲突时,可并发执行。
v0: 读取任务简报
v1: 确认前置条件
v2: 启动特性百科全书加载
v3: 生成 Schema 定义
v4: 生成迁移脚本
v5: 生成服务层代码
v6: 合并与验证
v7: 提交审查
vf: 输出结果
图1:一个“添加 API 端点”技能的步骤 DAG 示例。 节点 v1 和 v2 可并行执行,v4 和 v5 可并行执行。
从抽象层次和执行引擎的角度,技能可划分为:
类型 | 执行引擎 | 确定性程度 | 典型表示 | 灵活性 |
|---|---|---|---|---|
命令式技能 | LLM 逐步解释执行 | 中等(自然语言指令) | Markdown/YAML 清单 | 高 |
蓝图式技能 | 确定性蓝图引擎 + LLM 填充槽位 | 高(控制流确定) | 可执行 TypeScript/Python 代码 | 中 |
知识激活技能 | 知识图谱遍历 + 子图匹配 | 高(激活与组合逻辑确定) | 知识图谱节点 + 规则 | 高 |
命令式技能易于编写,但步骤依从性依赖 LLM 的指令遵循能力;蓝图式技能将控制流从 LLM 中剥离,仅由模型填充“可替换块”,执行变异系数(CV)可降至 0.02 以下;知识激活技能通过子图同构实现上下文感知的动态组合,兼顾灵活性与可靠性。
技能的触发分为显式调用与隐式激活两种模式。
显式调用直接由用户或上游 Agent 通过命令名触发。隐式激活则依赖技能注册表中的语义匹配。给定当前任务上下文 (包含任务目标、约束、相关文件路径等结构化表示),以及技能注册表 ,匹配函数 为每个技能打分。典型的打分函数基于嵌入相似度与规则过滤的级联:
通过
不通过
是
否
任务上下文 C
硬性过滤
语义编码
丢弃
余弦相似度
技能注册表 R
加权加分
score > τ?
激活技能 S*
回退自由模式
图2:技能隐式激活算法流程
技能执行消耗上下文窗口(context window)的 Token 预算。为最大化推理质量,需要采用渐进式披露策略。
设技能步骤 DAG 的拓扑排序为 ,每个节点 所需的 Token 负载为 。上下文调度器维护一个活跃 Token 预算 (例如模型最优注意力区间的上限)。在任意时刻,仅当前执行节点及其直接后继节点的详细指令与模板被加载到活跃窗口:
或
其余节点的信息以压缩摘要形式驻留在外部记忆(如向量数据库)中,仅在节点激活时展开完整内容。这一策略可将活跃上下文压缩至 150–300 行指令的“甜点区”,避免因长上下文导致的注意力分散和“迷失在中间”效应。实验表明,相比一次性加载全部技能文档,渐进式加载使技能步骤依从性提升 17%(基于模拟工作流的内部基准)。
技能存储上下文管理器Agent用户技能存储上下文管理器Agent用户loop[按照 DAG 执行]任务简报请求技能匹配检索技能 DAG技能摘要 + 根节点注入根节点详细指令完成节点 v_i, 请求下一批获取 v_{i+1} 详细指令节点详情注入新节点, 压缩 v_i输出结果
图3:渐进式上下文加载的时序图
技能执行并非发生在真空中,而是嵌入在计划优先工作流的框架内。两者通过双向验证机制耦合:
正向验证(计划 → 技能):在“计划模式”阶段,Agent 生成的结构化计划 被解析为一组子目标 。对于每一个子目标 ,系统从技能注册表中检索匹配的技能 。若检索到的技能步骤序列与 中对应部分存在结构冲突(如步骤顺序矛盾、前置条件缺失),系统标记该计划段为“需人工审查”。
反向验证(技能 → 计划):激活的技能将其前置条件 和预期效果 投射回计划,确保计划的其余部分不会与技能的效果产生冲突。例如,技能 的效果是“在 src/routes/ 下创建文件 foo.route.ts”,则计划中后续任何“删除 src/routes/ 目录”的操作会被标记为潜在冲突。
形式上,定义一致性检查函数 ,当计划与技能在图同构意义下兼容时返回 1:
如果子图同构保持节点类型与边方向否则
其中 是技能 的步骤 DAG, 视为 Agent 生成计划的 DAG 表示。若该函数返回 0,则需人工干预。
复杂任务往往需要多个技能的协作。如图1所示的任务可能需要“添加数据库迁移”、“创建 API 路由”、“注册实体”等多个原子技能的协作。多技能编排的核心挑战在于状态传递、失败回滚与并行调度。
编排算法接受一组匹配的技能 及它们之间的依赖关系描述,构造全局执行 DAG。依赖关系可来自:
depends_on 字段)全局 DAG 的拓扑排序决定技能执行顺序。对于无依赖的技能对,可并行分配至不同执行子 Agent,通过共享的状态存储(如计划工件 PLAN.md)交换中间结果。
失败回滚采用补偿事务模式。对于每个具有副作用的步骤节点 ,技能定义中可包含对应的补偿动作。当执行链在节点 失败时,系统逆序执行 ,并将状态恢复至初始点。理想情况下,补偿动作与正动作满足幂等性:。
技能的评估从以下维度展开,定义如下:
指标 | 公式/定义 | 解释 |
|---|---|---|
任务成功率 | 技能成功完成次数总执行次数 | 是否最终达成目标 |
步骤依从性 | 偏离的步骤数总步骤数 | 是否严格遵循技能 DAG |
执行一致性 | 执行时间执行时间 | 多次执行的时间稳定性 |
Token 效率 | 自由模式下消耗技能模式下消耗 | 相比自由模式的 Token 节省倍数 |
知识新鲜度 | 技能中仍然有效的断言数技能中断言总数 | 技能内容与当前代码库的一致性 |
A/B 对比评估:将同一任务分配给使用技能组和未使用技能组的同构 Agent 实例,在相同初始条件下比较上述指标。Snowflake 提出的 Agent GPA 框架为这种对比提供了标准化评分卡,覆盖目标完成度、逻辑一致性、执行效率、计划质量和计划依从性五个轴。
回归测试套件:每个技能关联一组输入‑期望输出‑期望轨迹的测试用例。当技能文件更新时,CI 管道自动在沙箱环境中执行 Agent 运行该技能,并验证:
人工专家审查:用于评估知识正确性(KF)。定期由领域专家随机抽样技能执行日志,判断技能中的步骤指令和领域断言是否仍符合当前最佳实践。
技能的安全约束可表示为一组安全策略,每条策略 是形如 的四元组。在执行节点 的动作之前,策略引擎(如 OPA/Rego)评估:
若任一策略拒绝,该动作被拦截并记录审计日志。技能定义中的 和 提供了推断所需 action 和 resource 的基础。
为防止技能文件被恶意篡改,在部署管道中引入内容签名机制。每个技能文件 的规范化表示通过哈希函数 生成摘要 ,并用团队私钥签名。Agent 框架在加载技能前验证签名,仅加载通过验证的技能。签名验证失败触发告警并回退到只读安全模式。
技能中的领域知识会随代码库演变而过时。知识衰减监测通过以下机制实现:
手动编写技能是一个知识密集型、易遗漏的过程。自动技能挖掘旨在从开发者日常工作流中提取候选技能,降低创建成本并提高覆盖面。
候选模式挖掘:给定开发者 IDE 操作日志序列 ,其中每个操作 包含类型(打开文件、编辑、运行命令)、参数和时间戳。频繁子序列挖掘算法(如 PrefixSpan 或 CloSpan)在 上滑动窗口,提取高频且封闭的操作序列作为候选技能骨架。启发式规则(如序列必须包含至少一个“验证”或“测试”步骤)用于过滤非工作流的随机操作。
语义聚类与泛化:对相似但参数不同的候选序列进行聚类,泛化为参数化技能模板。例如,“打开 user.controller.ts → 添加 POST /users 路由 → 打开 user.service.ts → 添加 createUser 方法”与“打开 product.controller.ts → 添加 POST /products 路由 → 打开 product.service.ts → 添加 createProduct 方法”可聚类为技能模板“添加 CRUD 端点”,其参数化为实体名称。
质量过滤:自动挖掘产生的候选技能需通过以下过滤:
这一管道将技能创建从纯人工编写转变为“算法挖掘 + 人工审核”的半自动化流程,可有望覆盖中小型项目 60% 以上的常见工作流。
技能作为支架工程中的核心抽象,正在从简单的操作清单演化为可形式化定义、可自动验证、可安全执行的领域认知单元。本文通过形式化定义、执行算法、上下文调度策略、评估指标体系和安全治理机制的梳理,为算法研究人员提供了构建和分析技能系统的技术框架。
未来研究可重点关注以下方向:
技能工程化的终极目标是构建 AI 智能体的“操作系统”——一个由社区贡献、经过形式验证、可组合定制的知识执行层。正如支架工程所揭示的,模型能力正在趋同,而组织对有效行动路径的编码化程度,将成为智能体时代真正的性能分水岭。
[1] Knowledge Activation: AI Skills as the Institutional Knowledge Primitive for Agentic Software Development. arXiv preprint, arXiv:2603.xxxxx, 2026-03-16.
[2] Blueprint First, Model Second: A Framework for Deterministic LLM Workflow. arXiv preprint, arXiv:2508.xxxxx, 2025-08-01.
[3] Sanwal, M. Layered Chain-of-Thought Prompting for Multi-Agent LLM Systems. arXiv preprint, arXiv:2501.18645, 2025.
[4] Zhu, Y. et al. KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents. arXiv preprint, arXiv:2406.xxxxx, 2024.
[5] 有效上下文工程:构建 AI 智能体可靠运行环境. CSDN, 2025-10-19.
[6] Anthropic. Code Execution with MCP: Building More Efficient AI Agents. Anthropic Blog, 2025-11-04.
[7] What is Your Agent’s GPA? A Framework for Evaluating Agent Goal-Plan-Action Alignment. Snowflake/arXiv, arXiv:2510.xxxxx, 2025-10-08.
[8] GreenNode. Hardening AI Agent Infrastructure: From Security Baseline to Policy-as-Code. GreenNode Blog, 2026-03-23.
[9] Krawiecka, K., Del Rosario, R. F., & Schroeder de Witt, C. Architecting Resilient LLM Agents: A Guide to Secure Plan-then-Execute Implementations. CoRR, 2025-10-09.
[10] Masterman, T. et al. The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey. arXiv preprint, 2024.
[11] Mohammadi, M. et al. Evaluation and Benchmarking of LLM Agents: A Survey. In Proceedings of KDD ’25, 2025.
[12] 支架工程(Harness Engineering)分层上下文系统与技能设计. 基于 Harness 社区实践素材整理, 2026.