首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >来学学大模型最新「合金特工」骚操作,能力比肩多智能体,AI 黑客成功率飙升

来学学大模型最新「合金特工」骚操作,能力比肩多智能体,AI 黑客成功率飙升

作者头像
不二小段
发布2026-04-09 16:57:31
发布2026-04-09 16:57:31
840
举报
文章被收录于专栏:不二小段不二小段

你了解过多智能体(Multi-Agent)吗?就在大家还在讨论如何让多个 AI Agent 分工协作、各司其职的时候,一种全新的、更高效的玩法——模型合金(Model Alloy)——横空出世,在不增加成本的前提下带来了显著的性能提升。

来自美国渗透测试公司 XBOW 的 AI 负责人 Albert Ziegler 近日发表了一篇博文,揭示了他们团队的一个「简单而新颖」的想法。这个想法,让他们的 AI 黑客(漏洞检测 Agent)在基准测试中的成功率从 25% 一路飙升至 40%,最终达到了 55%!🚀

Progression of Solve Rates With and Without Alloys
Progression of Solve Rates With and Without Alloys

最关键的是,这种方法的原理并不局限于网络安全领域,而是适用于一大类 Agentic AI 的应用场景。

它不依赖于复杂的 Agent 间通信或任务拆解,而是用一种极其巧妙的方式,在一个对话流中「融合」多个不同大模型的智慧,将它们「合体」成一个更强大的超级个体。

这和当前主流的多智能体框架有什么区别?让我们一起学习一下 XBOW 的骚操作。

🤖 缘起:AI 自主黑客的困境

要理解「模型合金」的精妙之处,首先要了解它诞生的背景。

XBOW 主营业务的是自主渗透测试。简单来说,你把你的网站交给它,它就会像一个人类黑客一样,自动尝试攻击它,寻找安全漏洞,然后生成报告让你修复。整个过程完全自主,无需人类干预。

在这个复杂的任务中,反复出现的核心子任务是:给定一个具体的攻击面(比如网站的某个登录接口)和要寻找的漏洞类型(比如 SQL 注入),AI Agent 需要在有限的步骤内成功复现这个漏洞。

这非常像一个网络安全领域的 CTF 挑战:Agent 需要在一系列尝试中找到那个隐藏的「Flag」,证明漏洞的存在。

XBOW 的 AI 负责人 Albert Ziegler 指出,这类任务的特殊之处在于,它不是一个「稳步前进」就能解决的问题。它更像是在一个巨大的搜索空间里勘探金矿:Agent 需要在很多地方挖掘,可能会追随一些错误的线索,然后不断修正方向,最终在某个意想不到的地方发现金矿。

在整个挑战过程中,AI Agent 需要在一堆无效的尝试中,迸发出几个关键的、绝妙的想法,并将它们组合起来才能成功。

为了评估和迭代他们的 Agent,XBOW 建立了一套 CTF 风格的基准测试集。

最初,Agent 的迭代次数被限制在 80 次以内,因为超过这个次数,Agent 积累的错误理解和假设往往会让它陷入死胡同,重新开始一个「干净」的 Agent 反而更有效率。

一开始,团队尝试了市面上所有最顶尖的 LLM。从 OpenAI 的 GPT-4,到后来表现更佳的 Anthropic Claude 3.5 Sonnet。模型不断升级,从 Sonnet 3.7 到谷歌的 Gemini 2.5 Pro,最后到最新的 Sonnet 4.0,模型的性能一代比一代强。

但一个有趣的现象出现了:没有一个模型能在所有挑战中称王。有些挑战,Sonnet 解决起来得心应手;而另一些,则是 Gemini 的强项。

Albert 意识到,如果一个挑战需要 5 个绝妙的点子才能解决,那么有些挑战所需的点子组合恰好是 Sonnet 擅长的,而另一些则更符合 Gemini 的「思维模式」。但如果恰好有一个挑战需要 3 个 Sonnet 式的点子和 2 个 Gemini 式的思路呢?

传统的单模型 Agent 就会束手无策。而主流的多智能体框架,又显得过于「笨重」。于是,「模型合金」这个想法应运而生。

💡 核心揭秘:什么是「模型合金」?

在讨论「模型合金」之前,我们先回顾一下当前主流的多智能体思路。

通常,多智能体指的是让多个 Agent 协同工作,每个 Agent 由不同的、更擅长特定领域的模型驱动。

比如,让 o3 负责规划,扮演架构师;让 Claude 负责编程,扮演程序员;让 Gemini 负责测试;让 Deepseek 负责营销。它们各司其职,像一个人类团队。

模型合金(Model Alloy)的思路则完全不同。

它的核心思想是:在一个单一的 Agent 对话流中,交替调用不同的 LLM,并巧妙地控制对话历史,让每个模型都以为之前的对话是自己生成的。 这个「控制对话历史」的技巧就是整个方法论的精髓。

我们来看一个具体的例子。假设 Agent 的任务是「Find the bug!」。

第 1 轮:调用 Sonnet 4.0

代码语言:javascript
复制
System: Find the bug!

Sonnet 可能会回答:「我们先用 curl 命令探测一下这个应用。」

代码语言:javascript
复制
Assistant: Let's start by curling the app.

XBOW 的系统执行这个命令,得到返回结果,比如 401 Unauthorized(未授权)。

第 2 轮:调用 Gemini 2.5 Pro

现在,关键操作来了。Agent 不会再用 Sonnet,而是切换到 Gemini。它会把上一轮 Sonnet 的回答「冒充」成是 Gemini 自己说的,然后把新信息作为用户输入。

给 Gemini 的 prompt 会变成这样:

代码语言:javascript
复制
System: Find the bug!
Assistant: Let's start by curling the app.
User: You got a 401 Unauthorized response.

注意到吗?Gemini 看到这个对话历史,会认为「用 curl 探测」是它自己在上一轮提出的想法。现在,基于 401 的结果,Gemini 可能会提出一个新的想法:「未授权?那我们试试用管理员凭证登录。」

代码语言:javascript
复制
Assistant: Let's try to log in with the admin credentials.

第 3 轮:再次调用 Sonnet 4.0

系统执行登录操作,并成功返回 200 OK。接下来,Agent 再次切换回 Sonnet,并把刚才 Gemini 的回答也加入到对话历史中,同样交付给 Sonnet。

给 Sonnet 的 prompt 会是这样:

代码语言:javascript
复制
System: Find the bug!
Assistant: Let's start by curling the app.
User: You got a 401 Unauthorized response.
Assistant: Let's try to log in with the admin credentials.
User: You got a 200 OK response.

如此循环往复。Sonnet 和 Gemini 在一个统一的对话线程中交替出现,但它们彼此毫不知情,都以为自己是这个对话中唯一的「大脑」。

在 XBOW 的实际实现中,他们甚至使用了随机选择模型的策略,以增加多样性。

这种方法的两大核心优势是:

  1. 1. 总的模型调用次数保持不变,没有增加额外的计算开销。
  2. 2. 让每个模型都有机会贡献其独特的优势和灵感,实现智慧的互补。

就像炼制合金一样,将不同特性的金属(模型)熔合在一起,最终得到的合金智能体(Alloyed Agent)比任何单一纯金属(单一模型)都更加坚固和强大。

🚀 效果显著:1+1 >> 2

实验结果证明,「模型合金」的效果远超预期。

XBOW 将 Sonnet 3.7, GPT-4.1, Gemini 2.5 Pro, 和 Sonnet 4.0 两两组合进行测试。结果发现,无论怎么组合,合金 Agent 的性能都优于其任何一个单一组分

Gemini vs Sonnet
Gemini vs Sonnet

通过大量的实验,团队总结出几个关键规律:

  • 模型差异越大,合金效果越好。Sonnet 4.0 和 Gemini 2.5 Pro 在解决各个挑战的成功率上相关性最低(斯皮尔曼相关系数仅为 0.46),而它俩组成的「合金」性能提升也最大。这说明它们的「思维模式」差异大,互补性最强。
  • 强强联合,优于强弱组合。基础模型越强,组成的合金也倾向于越强。如果一个模型本身性能拉胯太多,甚至可能拖累整个合金的表现。
  • 不均衡合金应偏向更强的模型。如果一个模型明显强于另一个,那么在随机调用时,给更强的模型更高的权重,效果会更好。

为了更直观地说明合金策略的威力,XBOW 做了一个对比实验:

  1. 1. 方案A:运行两个独立的 Agent,只要任意一个解题就算成功。
  2. 2. 方案B:运行一个 Sonnet 4.0 Agent 和一个 Gemini 2.5 Pro Agent。
  3. 3. 方案C:运行两个的「Sonnet 4.0 + Gemini 2.5 Pro」合金 Agent。

结果如下表所示,合金 Agent 的组合完胜其他所有组合,成功率达到了惊人的 68.8%。这甚至远高于简单地将两个最强 Agent 的成功率相加。

第一个 Agent

第二个 Agent

综合成功率

Gemini 2.5

Gemini 2.5

46.4%

Sonnet 4.0

Sonnet 4.0

57.5%

Sonnet 4.0

Gemini 2.5

57.2%

合金 (S4+G2.5)

合金 (S4+G2.5)

68.8%

这有效地证明了,模型合金并非简单的能力叠加,而是产生了真正的思维化学反应

⚔️ 「合金」 vs. 「多智能体」:一场范式之争

读到这里,你可能会问,这种方法和我们熟悉的其他多模型方法有什么不同?Albert 在博文中也对比了「模型合金」与其他三种主流范式的区别。

1. vs. 任务专家分工(Specialized Agents)

这是最经典的多智能体模式,以 AutoGPT 生态为代表。其核心是为不同任务分配不同模型。比如,用一个高阶模型(如 GPT-4)做总规划,用更专业的模型执行具体计划,高阶模型定期检查进度并调整。

  • 优点:逻辑清晰,符合人类团队协作直觉。
  • 缺点:「模型合金」的作者认为,这种方法会给他们的 Agent 循环增加过多的开销。对于 XBOW 这种需要快速迭代、不断试错的搜索任务来说,效率太低。

2. vs. 模型投票(Mixture-of-Agents)

这种方法是在每一步都同时问询多个模型,然后通过投票或引入一个「裁判」模型来选出最佳答案。知名的 Mixture-of-Agents (MoA) 就是一个很好的例子。

  • 优点:集思广益,提升单步决策的可靠性。
  • 缺点:成本和延迟会成倍增加。XBOW 认为,用这些额外的成本,他们宁愿多启动几个独立的 Agent 去碰运气。

3. vs. 多智能体辩论(Multi-Agent Debate)

这种模式让模型之间直接对话,互相提出论点、反驳和完善对方的答案。

  • 优点:对于极其关键、不容有失的单步决策,这种方法能做到极致的审慎和深入。
  • 缺点:太「重」了。XBOW 的任务本质上是一个搜索过程,它需要快速地「翻开一块块石头」,而不是成立一个委员会来决策下一块石头应该怎么翻。

总结来说,「模型合金」巧妙地避开了上述所有方法的缺点。它既没有增加模型调用的总数,也没有引入复杂的任务管理开销,而是通过一种轻量级、优雅的方式,在一个 Agent 内部实现了多个模型智慧的动态融合。

🧭 「炼金」指南:你的项目适合用「模型合金」吗?

看到这里,你一定也跃跃欲试了。不过,模型合金虽好,也并非万能。Albert 贴心地给出了应用指南。

什么时候应该考虑使用模型合金?

  • • 你的任务是通过一个迭代循环调用 LLM 来解决问题,且调用次数较多(比如几十次以上)。
  • • 任务的解决需要组合多个不同的想法或洞察
  • • 这些想法可以在流程中的不同时间点出现,没有严格的先后顺序。
  • • 你能接触到足够多样化(最好来自不同厂商)的大模型。
  • • 这些模型各有千秋,在不同方面有各自的长处和短处

什么情况下「模型合金」可能不是最优选?

  • 你的 prompt 远长于模型的生成内容。这种情况下,你非常依赖 prompt caching(提示词缓存)来降低成本和延迟。而模型合金需要为每个模型维护一个缓存,这会使缓存的成本和复杂性翻倍。
  • 你的任务是「稳步前进」型,而不是需要「灵光一闪」。对于前者,合金模型的表现可能只会是几个模型表现的平均值。
  • 只有一个模型在你的任务上表现突出。这样你就没有合适的模型来和你的「王牌模型」炼成合金了。
  • 你手头的所有模型「思维方式」太相似。它们对任务难点的判断高度一致,无法形成互补。XBOW 团队就发现,将同属 Anthropic 公司的模型合金化,性能提升微乎其微。

最后的这一点尤其关键:记住,模型合金的魔力,源于「差异性」。只有当不同厂商、采用不同架构和训练数据的模型融合时,才能真正碰撞出智慧的火花。

✨ 写在最后

「模型合金」为我们打开了一扇新的大门。它揭示了在构建强大 AI Agent 时,我们不必总是在复杂的「群体智能」和单一的「个体智能」之间做选择。

通过一种简单而巧妙的「融合」,我们可以创造出一种全新的智能形态——它拥有单一 Agent 的简洁高效,又兼具了多个大脑的多样性智慧。这无疑为 AI Agent 领域的发展提供了极具价值的参考。

如果你也对这个想法感兴趣,不妨现在就动手试试,或许下一个性能飙升的,就是你的 AI Agent!

参考来源

Agents Built From Alloys | https://xbow.com/blog/alloy-agents/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🤖 缘起:AI 自主黑客的困境
  • 💡 核心揭秘:什么是「模型合金」?
  • 🚀 效果显著:1+1 >> 2
  • ⚔️ 「合金」 vs. 「多智能体」:一场范式之争
    • 1. vs. 任务专家分工(Specialized Agents)
    • 2. vs. 模型投票(Mixture-of-Agents)
    • 3. vs. 多智能体辩论(Multi-Agent Debate)
  • 🧭 「炼金」指南:你的项目适合用「模型合金」吗?
    • 什么时候应该考虑使用模型合金?
    • 什么情况下「模型合金」可能不是最优选?
  • ✨ 写在最后
    • 参考来源
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档