首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Devin 多 Agent 范式:上下文隔离让审代码的比写代码的聪明 10 倍

Devin 多 Agent 范式:上下文隔离让审代码的比写代码的聪明 10 倍

作者头像
mixlab
发布2026-05-13 21:18:15
发布2026-05-13 21:18:15
2060
举报

10 个月前,Devin 团队说过"别建多 Agent"。

现在他们彻底变了。

真正能落地的多 Agent 模式:一个人写,一群人想。一个 Devin 写代码,另一个 Devin 专门审代码。

他们的多 Agent 经验是:可以并行思考,但只能串行写入。并行的部分可以负责检索、审查、规划、路由,这些都是"情报工作"。写入的部分必须唯一。

其中还有个宝贵的经验:针对上下文腐烂的上下文隔离处理。

这是分工协作模式的转变。Devin 的多Agent经验

多Agent分工
多Agent分工

多Agent分工

上下文腐烂:被低估的技术难题

为什么上下文会"腐烂"?

(不是上下文超长)

当一个 AI Agent 持续处理同一代码库时,它的上下文窗口会逐渐被以下内容填满:

上下文窗口:AI 理解代码时能同时看到的范围,有点像短时记忆 塞得太满, 后面看到的东西反而记不住了。
上下文窗口:AI 理解代码时能同时看到的范围,有点像短时记忆 塞得太满, 后面看到的东西反而记不住了。
  1. 历史交互噪声:每一轮对话的原始记录,即使部分已不相关
  2. 工具调用冗余:grep、glob、shell 命令的原始输出
  3. 中间态思维:Agent 的推理过程但非最终结论
  4. 重复上下文:相同文件被多次引用,每次可能带有不同解释

上下文腐烂的后果:

  • 重要规则在 40-60 轮后开始衰减
  • 检索持续添加文本但回答质量反而下降
  • 记忆增长但清晰度下降
  • Agent 重复已完成的工作
上下文腐烂
上下文腐烂

上下文腐烂

解决方案:上下文隔离让审查质量提升 10 倍

根据 Devin 团队公布的实验数据:

  • 每个 PR 平均抓出的严重 bug 数:2 个
  • 逻辑错误、边界遗漏和安全漏洞占比:58%
  • 上下文隔离带来的审查质量提升:约 10 倍

核心发现:写代码的 Agent 脑子里塞满了仓库细节,它会越写越糊涂;而审代码的 Agent 拿白纸从头看 diff,反而比写代码的聪明 10 倍。

这个发现颠覆了共享上下文能提高协作效率的直觉

上下文隔离不是牺牲协作质量,而是保护审查者的"白纸视角"。

白纸审查
白纸审查

白纸审查

一写一审模式的工程实现

上下文隔离方案Anthropic的Claude Code也有类似的处理:subagent(子 Agent)

子 Agent 获得隔离上下文,父 Agent 只转发任务描述,结果以单条消息形式返回。这避免了每轮转录重放问题。

子 Agent:专门负责执行某项具体任务的 AI。    父 Agent:负责分配任务、汇总结果的那个 AI, 有点像包工头。
子 Agent:专门负责执行某项具体任务的 AI。 父 Agent:负责分配任务、汇总结果的那个 AI, 有点像包工头。

核心原则:

  • 子 Agent 拥有独立上下文窗口
  • 父 Agent 仅传递任务描述,不传递上下文细节
  • 结果以结构化消息格式返回

Devin 的Manager 模式

Devin 团队已上线 Manager Devin,实现了真正的"一写一审"分工:

  • 写代码的 Agent:拥有完整代码库上下文,但专注于生成代码
  • 审代码的 Agent:拥有独立的代码审查视角,不受写代码 Agent 的思维影响

这种模式的价值:可以审计每次决策,可以追踪每个 Agent 的贡献,可以独立评估每个环节的质量。

子Agent隔离
子Agent隔离

子Agent隔离

上下文管理的工程 Checklist

基于 400+ AI Agent 项目的经验,有开发者总结了生产级 AI Agent 的上下文设计 Checklist:

  • 分离工作状态与长期记忆:聊天历史不应携带系统逻辑
  • 存储引用而非大型原始数据:将重数据保存在窗口外
  • 纪律性总结:保持约束和规则完整
  • 只在明确差距时检索:持续检索造成混乱
  • 精度排名:更多文档很少改善思维
  • 设置明确深度限制:定义 Agent 必须停止或重新思考的时机
  • 跟踪每次记忆写入:如果看不到就无法控制
  • 定期返回原始来源:摘要会随时间漂移
  • 衡量稳定性而非 token 数量:更长上下文不等于更强推理

ps:这些经验在设计Agent的时候,可以作为Prompt检查下。

趋势预判

短期趋势(1-3 个月)

上下文工程工具将进入爆发期:

  • 专用上下文压缩算法
  • 智能上下文分层(短期/长期/技能库)
  • 自动上下文修剪服务

代码审查将从人工转向 AI 多 Agent 协作。

中期趋势(6-12 个月)

一写一审模式将演进为更复杂的分工体系:专门的前期研究 Agent、专门的设计 Agent、专门的实现 Agent、专门的测试 Agent、专门的审查 Agent。

大型企业将采用专用的 Agent 协调平台。

参考

[1] Muhammad Haseeb — Context Engineering for Multi-Agent LLM Code Assistants

[2] @jtregunna Twitter — 上下文架构深度解析

[3] @championswimmer Twitter — pi-context-prune 工具

[4] @MaryamMiradi Twitter — 400+ AI Agent 生产经验总结

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 上下文腐烂:被低估的技术难题
  • 解决方案:上下文隔离让审查质量提升 10 倍
  • 一写一审模式的工程实现
  • 上下文管理的工程 Checklist
  • 趋势预判
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档