首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >SSRL:Agent如何自我检索,告别外部工具依赖?

SSRL:Agent如何自我检索,告别外部工具依赖?

作者头像
唐国梁Tommy
发布2026-06-25 20:59:20
发布2026-06-25 20:59:20
1240
举报

今天,我们要深入探讨一篇来自清华大学等机构的最新研究——SSRL (Self-Search Reinforcement Learning)。这篇论文聚焦于一个非常核心且实际的问题:如何让 LLM 在执行搜索任务时,减少对外部昂贵搜索引擎(如Google、Bing)的依赖,从而构建更高效、更具可扩展性的AI智能体(Agent)?

强化学习(RL)与大语言模型(LLM)的结合催生了在数学、编程等领域表现卓越的推理模型(LRMs),并拓展到工具学习、网页浏览等智能体任务中。虽然如 Search-R1 等模型展现出强大潜力,但训练依赖频繁调用外部搜索 API,因交互次数巨大而导致成本极高,限制了更复杂智能体的发展。

那么,有没有可能另辟蹊径呢?我们知道,LLM本身在预训练阶段已经“阅读”了海量的互联网数据,其内部参数中蕴含了丰富的世界知识。一个自然而然的想法是:我们能否直接激发和利用LLM的“内在知识库”,让它自己模拟搜索过程,从而在训练阶段完全摆脱对外部搜索引擎的依赖?

这正是SSRL这篇论文的核心动机。它试图回答两个关键问题:

  • • 仅凭内部知识,LLM在搜索问答任务上的性能极限在哪里?
  • • 能否通过一种“完全模拟”(full-sim)的强化学习范式,让模型在训练中“自我搜索”,并将学到的技能有效迁移到需要真实搜索的实际场景中(sim-to-real)?

核心思想:从“自我检索”到“强化学习”

为了解决上述问题,论文提出了一个两步走的核心思路:首先量化LLM的内在搜索能力,然后通过强化学习对其进行增强。

第一阶段:定义并量化“自我检索”

论文首先提出了一个概念:“自我检索”(Self-Search)。这指的是,我们不给LLM任何外部工具,只通过精心设计的提示(Prompt),引导它在一个生成回合中,完整地模拟 思考 -> 提出搜索查询 -> 生成搜索结果 -> 基于结果继续思考 这一系列动作。

这个过程非常像我们人类解决一个复杂问题的思考模式。例如,当被问到“《盗梦空间》的导演的妻子参演了他执导的哪部科幻电影?”时,我们的思考路径可能是:

1. 思考(Think): 首先,我需要知道《盗梦空间》的导演是谁。

2. 搜索(Search): “《盗梦空间》的导演”

3. 生成信息(Information): (LLM自己生成)“《盗梦空间》的导演是克里斯托弗·诺兰。”

4. 思考(Think): 好的,现在我知道了导演是诺兰。接下来我需要知道他的妻子是谁,以及她参演了诺兰的哪些电影。

5. 搜索(Search): “克里斯托弗·诺兰的妻子和参演电影”

6. 生成信息(Information): (LLM自己生成)“克里斯托弗·诺兰的妻子是艾玛·托马斯,她是一名制片人,并未作为演员参演其电影。” (这里可能出现事实错误,但这正是LLM内部知识的直接体现)

7. ……

8. 最终回答(Answer): 基于内部知识给出最终答案。

通过这种方式,LLM的整个推理过程被完整地表示为一个结构化的文本序列。论文发现,通过大量采样(即让模型对同一个问题生成多次不同的推理路径),LLM确实有能力在其内部知识中找到正确答案。他们使用pass@k指标来衡量这一能力,即生成k次回答中,至少有一次是正确的概率。实验表明,随着采样次数k的增加,LLM找到正确答案的概率显著提升,呈现出清晰的“缩放定律”(Scaling Law)。

这揭示了一个关键洞察:LLM内部蕴含着巨大的、可被激发的知识潜力。然而,这也引出了新的挑战:虽然正确答案可能隐藏在成千上万的采样结果中,但我们如何让模型稳定、高效地找到那个最优的解,而不是依赖于暴力采样呢?

第二阶段:引入SSRL(Self-Search Reinforcement Learning)

为了让模型学会更有效地进行“自我检索”,研究者们引入了强化学习,设计了SSRL框架。其核心思想是,将“自我检索”的过程视为一个RL任务,模型本身既是执行思考和搜索的“智能体”(Policy Model),又是提供知识的“环境”(World Model / Search Engine)。

在这个框架下,模型生成的每一个完整的“自我检索”轨迹都会得到一个奖励信号。这个奖励信号会告诉模型,这次的检索做得好不好。通过不断地优化,模型会逐渐学会如何更高效地组织思考、提出更精准的内部查询、并利用自己生成的知识,最终导出正确的答案。

SSRL的训练是“完全模拟”的,意味着它在训练过程中不需要任何一次真实的API调用,完全依赖模型自身的参数进行知识的生成和提炼。这种方式不仅极大地降低了训练成本,还使得训练过程更稳定、可控。

更令人兴奋的是,通过SSRL训练出的模型,其学习到的“如何进行结构化搜索和推理”的技能是具有泛化性的。在推理(或部署)阶段,我们可以无缝地将模型内部生成的“信息”替换为来自真实搜索引擎的结果。实验证明,这种“模拟到真实”(sim-to-real)的迁移效果非常出色,模型不仅能适应真实环境,其性能甚至还能得到进一步的提升。

方法解析:SSRL是如何炼成的?

现在,我们来深入剖析一下SSRL在技术上是如何实现的。整个框架可以分为两个核心部分:Inference-time Scaling of Self-Search(用于评估模型潜力)和 SSRL(用于提升模型能力)。

1. 自我检索的潜力评估

在正式开始强化学习之前,研究者们需要先搞清楚LLM的“家底”到底有多厚。

  • 任务形式化 他们采用了pass@k这一评估范式。pass@k的计算公式如下: 其中,是对一个问题总的采样次数,是其中正确回答的次数。这个公式的直观含义是:对于一个问题,我生成个答案,其中有个是正确的。现在我从这个答案中随机挑出个,这个里至少有1个是正确的概率是多少。这个指标能够很好地反映模型知识的“覆盖率”或“上限”。
  • 提示设计 为了引导模型进行结构化的自我检索,他们设计了包含<think>, <search>, <information>, 和 <answer>等XML标签的提示模板。模型被要求遵循思考 -> 搜索 -> 获取信息的循环,直到找到最终答案。这个过程是自回归的,模型在一个序列中生成所有内容,这与传统的需要与外部工具进行多轮真实交互的Agent有本质区别,效率极高。
2. SSRL的训练方法

评估完潜力后,就轮到强化学习登场了。SSRL的目标是让模型在众多可能的推理路径中,学会选择最优的那条。

  • RL目标函数传统的搜索智能体RL目标可以表示为: 这里的代表从外部搜索引擎检索到的信息。而在SSRL中,由于信息也是由模型自身生成的,所以目标函数简化为: 在这个设定中,策略模型同时扮演了推理者和内部搜索引擎两个角色。论文主要采用了GRPO(Group Relative Policy Optimization)算法进行训练。
  • 奖励模型 (Reward Modeling)一个好的奖励函数是RL成功的关键。SSRL设计了一个复合奖励,包含两个部分: 结果奖励 (Outcome Reward):这是最直接的奖励。如果最终答案ŷ与标准答案y匹配,则奖励为+1,否则为-1。 格式奖励 (Format Reward):为了鼓励模型生成结构清晰、遵循think-search-information循环的推理链,研究者引入了格式奖励。如果模型的输出严格遵守了预定义的结构,它就会获得一个正向的格式奖励。这非常重要,因为它能确保模型学习到的“搜索”行为是规范的,便于后续与真实搜索引擎对接。 最终的总奖励是这两者的加权组合,给予结果正确性更高的权重。
  • 信息令牌掩码 (Information Token Mask) 这是一个非常有趣的训练技巧。在计算损失函数时,模型自己生成的<information>标签内部的令牌会被掩码(mask out),不参与梯度更新。为什么要这样做呢?直观的解释是,这能防止模型“抄近道”。如果不加掩码,模型可能会倾向于生成一些简单的、它自己容易“解释”的信息,而不是真正去学习如何根据复杂信息进行推理。通过掩码,模型被强迫去关注“思考”和“回答”部分,学习如何利用信息,而不是如何生成信息,这使得它在后续接入真实、多样化的外部信息时,表现得更加鲁棒。

通过以上这些精心设计,SSRL构建了一个闭环的、自给自足的训练流程,让LLM在“自我对话”中不断提升其内在的搜索与推理能力。

实验探究:SSRL的真实实力

实验设置
  • 基准测试:涵盖了多种问答任务,包括事实性问答(如TriviaQA, Natural Questions)、多跳推理问答(如HotpotQA, 2WikiMultiHopQA)和需要网络浏览的复杂任务(BrowseComp)。
  • 对比模型
    • 无外部工具: Direct Answer, Chain-of-Thought (CoT)。
    • 基于RAG/搜索: Standard RAG, Search-o1。
    • 基于RL: R1, Search-R1 (使用真实搜索引擎训练), ZeroSearch (使用另一个LLM作为模拟搜索引擎训练)。
  • 基础模型:主要基于Llama系列模型(如Llama-3.2-3B, Llama-3.1-8B)进行实验,同时也包含了与Qwen系列的对比。
关键实验结果与分析

1. SSRL性能全面超越

Table 3的核心结果来看,SSRL在所有六个基准测试的平均分上,都显著优于所有对比方法。无论是与同样使用内部知识的CoT相比,还是与那些在训练中使用了外部搜索引擎(如Wikipedia或Google)的Search-R1和ZeroSearch相比,SSRL都表现出明显的优势。

这个结果极具说服力:通过纯粹的自我模拟训练,SSRL达到的性能水平,甚至超过了那些依赖外部真实数据源进行RL训练的模型。 这证明了激发和组织LLM的内部知识是一种非常有效的策略。

2. 训练效率的巨大优势 与ZeroSearch(它需要一个额外的、更强大的LLM来模拟搜索环境)相比,SSRL的训练效率实现了惊人的提升。Figure 8显示,达到相似的奖励水平,SSRL所需的训练时间大约是ZeroSearch的1/5.5。这得益于SSRL的“自给自足”模式,它不需要在模型之间进行额外的推理调用,极大地简化了训练流程,降低了延迟。

3. 强大的Sim2Real泛化能力

这是SSRL最激动人心的特性之一。当把SSRL训练好的模型,在推理时接入真实的Google搜索后,其性能得到了普遍的提升。Table 4展示了“Sim2Real”的结果。以Llama-3.2-3B-Instruct模型为例,纯SSRL的平均分为35.2,在接入真实搜索后(Sim2Real K=3),平均分飙升至41.9

更有趣的是Figure 9的帕累托前沿图,它展示了性能与平均在线搜索次数之间的权衡。可以看到,SSRL系的Sim2Real模型(紫色、绿色点)在相同的性能水平下,通常需要更少的在线搜索次数;或者在相同的搜索次数下,能达到更高的性能。这表明,SSRL模型学会了何时应该依赖自己的内部知识,何时才需要求助外部工具,实现了“好钢用在刀刃上”

4. 对模型内在能力的深度洞察

论文的前期实验也提供了一些关于LLM内在知识的有趣发现:

  • 采样能有效提升性能上限pass@k的结果表明,LLM的知识广度远超单次Greedy Search所能展现的。
  • Llama比Qwen更擅长“自我检索”:尽管Qwen在数学推理等任务上表现优异,但在这些知识密集型任务中,Llama家族的模型展现出更强的内在知识储备和利用能力。
  • 简单的多数投票(Majority Voting)效果不佳:这说明从多个采样结果中选出正确答案本身就是一个难题,也凸显了用RL来学习最优选择策略的必要性。

总结与启示

SSRL为我们揭示了一个充满想象力的未来:AI智能体或许可以不那么依赖于时刻在线的、昂贵的外部工具,而是更多地依靠自身强大的内在知识库来解决问题。

当然,SSRL也并非终点。如何更可靠地提取知识、如何处理LLM内部知识的“幻觉”和过时问题、以及如何将这种自我检索能力扩展到更复杂的多模态任务中,都将是未来值得探索的方向。

代码语言:javascript
复制
论文名称:SSRL: Self-Search Reinforcement Learning
第一作者:清华大学
论文链接:https://www.arxiv.org/abs/2508.10874
最新日期:2025年8月14日
github:https://github.com/TsinghuaC3I/SSRL.git
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 唐国梁TGLTommy 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 核心思想:从“自我检索”到“强化学习”
    • 第一阶段:定义并量化“自我检索”
    • 第二阶段:引入SSRL(Self-Search Reinforcement Learning)
  • 方法解析:SSRL是如何炼成的?
    • 1. 自我检索的潜力评估
    • 2. SSRL的训练方法
  • 实验探究:SSRL的真实实力
    • 实验设置
    • 关键实验结果与分析
  • 总结与启示
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档