NeurIPS 2025 Reinforcement Learning RAG Reasoning

搜索、精炼、再推理

Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning
Yaorui Shi*、Sihang Li*、 Chang Wu、Zhiyuan Liu、Junfeng Fang、Hengxing Cai†、 An Zhang、Xiang Wang
中国科学技术大学  ·  新加坡国立大学  ·  DP Technology  |  *共同第一作者  ·  †通讯作者
⚡ TL;DR — 一句话总结
AutoRefine 提出「推理中搜索-精炼」范式,在连续搜索调用之间插入显式的 <refine> 步骤,让模型能在生成答案前迭代过滤、蒸馏和整合检索到的证据;配合检索特定奖励的 GRPO 训练,在多跳推理基准上显著超越现有方法。

📖CRGP 结构化分析

C — Context(背景)

大语言模型展现出强大推理能力,但受限于自身知识边界。检索增强推理(RAG)通过查询外部资源来弥补这一不足,但现有方法往往检索到不相关或充满噪声的信息,反而干扰准确推理。如何让模型在推理过程中有效利用外部知识,是当前的核心挑战。

R — Related Work(相关工作)

先搜后想:RAG、Self-RAG 等在推理前一次性检索,无法根据推理过程动态调整。
先想后搜:ReAct、IRCoT 等在推理后验证,但错误已经传播。
RL 后训练:Search-o1、R1-Searcher 等引入搜索动作但缺少知识精炼环节。

G — Gap(缺口)

现有方法的共同盲区:检索到的原始信息直接注入推理链,没有经过过滤和整合。噪声信息在多跳推理中逐步累积,导致推理质量随步数增加而退化。缺少一个在搜索和推理之间的「精炼」环节。

P — Proposal(方案)

AutoRefine 提出「搜索-精炼-再推理」范式:在连续搜索之间插入显式的 <refine> 步骤,让模型对检索到的证据进行过滤、蒸馏、整合,再将精炼后的知识注入后续推理。配合检索特定奖励的 GRPO 训练,端到端优化搜索行为和推理质量。

01为什么需要 AutoRefine?

大语言模型在推理能力上取得了令人瞩目的进展,但它们的知识本质上是静态的——被「封印」在预训练参数中。这在需要最新信息或长尾事实的任务上构成天然瓶颈。检索增强生成(RAG)是解决这个问题的自然路径:允许模型在推理时访问外部知识库。

然而,现有 RAG 方法存在一个根本性缺陷:它们对检索结果的处理太过被动。以 Search-o1、ReSearch、STILL-3 等代表性方法为例,它们通常的做法是「先想一段,插入搜索,然后继续想」,把检索到的文档片段直接塞入上下文。但现实情况是,搜索引擎返回的结果往往包含大量噪声——不相关的段落、矛盾的信息、甚至误导性内容。将这些「未经处理的原始证据」直接喂给推理链,往往导致模型被噪声干扰,推理质量大幅下降。

更深层的问题在于:多跳推理需要的是知识的累积与整合,而不是单次检索的简单堆叠。当一个问题需要三、四步推理(如「某发明者毕业于哪所大学的哪个院系?」),每一步检索的结果都依赖前几步的推理结论。如果不对中间结果进行整理和精炼,错误会像滚雪球一样在推理链中累积放大。AutoRefine 正是为了打破这个困境而生。

核心矛盾:现有方法只关注「搜到什么」,却忽视了「如何处理搜到的内容」。精炼(Refine)这一步,是 RAG 推理链中长期缺失的关键环节。

02方法详解

AutoRefine 的核心贡献可以拆解为两个相互配合的创新:一是全新的推理范式,二是专为这个范式设计的训练信号。两者缺一不可——范式定义了模型应该做什么,训练信号告诉模型怎样做才算好

AutoRefine 方法创新示意图
图 1:AutoRefine 的两大核心创新。 左图对比了现有「搜索-推理」范式与 AutoRefine 的「搜索-精炼-推理」范式的推理链结构差异;右图展示了检索特定奖励(搜索频率奖励 + 搜索质量奖励)如何与答案正确性奖励协同参与 GRPO 训练。<refine> 标签标注的步骤是 AutoRefine 新增的关键操作,夹在两次搜索之间,而不是附在推理链末尾。

创新一:Search-and-Refine-During-Think 范式

传统「推理时检索」框架遵循固定模式:推理 → 搜索 → 继续推理,将检索到的文档片段原封不动地拼接入上下文。AutoRefine 在两次搜索之间加入了一个显式的「知识精炼」步骤,整个推理流程变为迭代的搜索-精炼循环:

🧠
Think
Search
✂️
Refine
Search
✂️
Refine
Answer
Search → Refine 循环可多次迭代,直到模型积累了足够高质量的证据。精炼步骤压缩噪声、整合知识,让下一次搜索更有针对性。

<refine> 步骤中,模型被要求对当前已检索到的所有文档进行主动处理:

01

过滤(Filter)

识别并剔除与当前推理目标无关的文档片段,减少上下文中的噪声密度。这一步尤其重要——搜索引擎往往返回 3~5 个段落,其中只有 1~2 个真正有用。

02

蒸馏(Distill)

从保留的相关片段中抽取关键事实,以更紧凑的形式重新表述,压缩信息密度。这样后续推理的注意力不会被冗余表述稀释。

03

整合(Organize)

将多个来源的事实按推理顺序重新组织,形成结构化的知识基础,供后续推理步骤直接调用。类比于研究员读完文献后整理笔记,而不是带着一堆乱序打印稿去写论文。

创新二:检索特定奖励 + GRPO 训练

光有范式还不够——如果只靠 SFT 强制模型输出 <refine> 标签,模型很可能只是机械地「走过场」,精炼内容质量低下。AutoRefine 选择用强化学习(GRPO)来训练,并设计了三种奖励信号协同工作:

✅ 答案正确性奖励(Answer Correctness Reward)
最终答案与真实答案匹配时给予正奖励。这是基础目标,确保模型的最终目的是回答正确,而不仅仅是形式上完成搜索精炼流程。
🔍 搜索频率奖励(Search Frequency Reward)
鼓励模型在推理链中进行更多次的搜索调用。这防止了模型「偷懒」——仅依赖自身参数知识而不主动检索,尤其在多跳推理中每个子问题都需要独立检索时尤为关键。
🎯 搜索质量奖励(Search Quality Reward)
衡量搜索词的精准度和召回效果。仅仅频繁搜索是不够的——搜索词质量差(过于宽泛或偏离主题)同样会引入噪声。质量奖励促使模型生成更有针对性的查询语句,从源头提升检索质量。

使用 Group Relative Policy Optimization(GRPO)是一个关键设计选择。相比 PPO,GRPO 不需要独立的 Critic 网络,通过组内相对排名估计优势函数,训练更稳定、显存更节省——非常适合推理链可能超过 4000 tokens 的长序列生成场景。

一句话概括方法:让 LLM 在推理过程中像一个细心的研究员一样——每搜一次资料,就停下来整理笔记、过滤噪声,而不是把所有资料堆在桌上然后一股脑开始写答案。

03实验结果

AutoRefine 在单跳和多跳 QA 基准上进行全面评估,基座模型为 Qwen2.5-7B-Instruct,与 Search-o1、ReSearch、STILL-3、R1-Searcher 等强基线对比。单跳数据集包括 TriviaQA、PopQA、WebQ;多跳数据集包括 HotpotQA、2WikiMultiHopQA(2Wiki)、MuSiQue。

AutoRefine 主要实验结果
图 2:主要实验结果对比。 在单跳 QA 上,AutoRefine 与现有最强方法持平或略有提升;在多跳 QA 上,AutoRefine 展现出显著优势——尤其在需要多步证据整合的 2WikiMultiHopQA 和 MuSiQue 上,领先幅度最大。这印证了「知识精炼对多跳推理的价值远超单跳推理」这一核心假设。

关键数字解读:在 2WikiMultiHopQA 上,AutoRefine 相比 Search-o1 提升显著(具体数值见论文表格);在 MuSiQue(被认为是最难的多跳数据集,需要 4 步以上推理)上,AutoRefine 同样保持领先。单跳数据集上的提升相对温和,这符合预期——精炼步骤在单跳场景的边际收益本就小于多跳。

AutoRefine 额外指标分析
图 3:搜索行为分析指标。 该图展示了 AutoRefine 相比基线在搜索行为上的量化差异:搜索频率(每道题平均搜索次数)、搜索词精准度(BM25/相关性评分)、以及精炼步骤的信息压缩率。数据表明 AutoRefine 不仅搜索更多,搜索词也更精准——这是因为精炼步骤帮助模型更清晰地「知道自己还缺什么知识」。

消融实验揭示了各组件的贡献权重:去除 <refine> 步骤后,多跳性能大幅下降,这直接证明了知识精炼的必要性;去除搜索频率奖励后,模型趋向于减少搜索调用;去除搜索质量奖励后,搜索词趋于宽泛、检索噪声增加。三个组件协同才能达到最优效果。

AutoRefine 多维度雷达图对比
图 4:多维度对比雷达图。 从搜索频率、搜索质量、答案准确性、多跳推理能力、上下文利用率等多个维度综合对比 AutoRefine 与基线方法。AutoRefine 在检索-推理协同能力上的综合优势一目了然——不是在某个指标上突出,而是在所有检索相关维度上均衡提升。

04关键发现与深度分析

超越数字层面,AutoRefine 的实验结果背后有几个值得深思的洞察:

🔍
搜索行为的质性改变
AutoRefine 不只是「搜索更多」,而是搜索方式发生了质变。精炼步骤后,模型对「自己还缺什么」有了更清晰的认知,下一次搜索的查询词更精准、更针对性。相比之下,无精炼版本的搜索词往往宽泛、重复,信息增量递减。
✂️
精炼步骤的降噪效果
实验数据显示,精炼后的上下文信息密度显著高于原始检索内容。模型在精炼中主动「剪枝」——平均去除约 60% 的检索内容,但保留了超过 85% 的关键事实。这证明精炼不是形式化操作,而是真正的信息蒸馏。
🔗
多跳推理的天然优势
在单跳问题上,精炼的边际收益有限(毕竟一次检索即可)。但在多跳场景中,每完成一轮「搜索-精炼」,下一跳的推理就建立在更可靠的知识基础上,优势呈现出累积放大的特性——跳数越多,AutoRefine 的领先幅度越大。
🧩
范式层面的本质区别
AutoRefine 不是「先搜后想」(RAG)或「先想后搜」(Retrieve-then-Read),而是真正的「边想边搜边精炼」。这种交织式的检索-推理-精炼循环,是向人类认知过程靠拢的一步——人类在研究复杂问题时,也从不是一次性获取所有信息再开始分析的。

一个有趣的「副产品」发现:经过 GRPO 训练后,AutoRefine 模型在没有检索条件的场景下(即纯参数推理),性能也有所提升。这表明搜索-精炼范式不仅提升了模型的检索利用能力,也在某种程度上强化了其内在推理能力——可能是因为精炼步骤隐式训练了结构化推理和信息整合能力。

05局限性与不足

科学评价需要坦诚的审视。AutoRefine 作为一个 RL 后训练框架,在以下几个方面存在值得注意的局限:

06核心洞察

✦ TAKEAWAY
推理时检索的关键不在于「检索了什么」,而在于「如何精炼检索到的知识」——在推理链中插入显式的知识精炼步骤,是提升 RAG 推理质量的有效路径。

从更宏观的视角来看,AutoRefine 代表了一个重要的范式演进方向:将 LLM 从「被动消费检索结果」升级为「主动加工检索结果」。这种主动性不仅提升了当前任务的推理质量,也可能是通往更强「工具使用智能体」的关键一步。

对于后续工作,有几个值得探索的方向: