168飞艇开奖官网
栏目分类
热点资讯
新闻动态

你的位置:168飞艇开奖官网 > 新闻动态 > SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

发布日期:2025-03-06 15:42    点击次数:88

DeepSeek-R1 慢思考、长推理的表现,展现了训练步骤增加,会导致长 CoT 的涌现。

它通过模拟人类思维逐步推导答案,提升了 AI 大模型的推理能力和可解释性。

但长 CoT 的触发条件是什么?怎么做能优化它?像个黑盒,还没研究明白。

来自清华、CMU 和 IN.AI 的研究团队,近期专门探究了长 CoT 在大模型中的工作机制和优化策略。

先把该研究得出的 4 点发现给大家呈上来:

SFT 并非必需,但能简化训练并提高效率;

推理能力随着训练计算的增加而出现,但并非总是如此;

可验证奖励函数对增长 CoT 至关重要;

纠错等核心能力基础模型天生自带,但通过 RL 有效地激励这些技能需要大量的计算。

这篇论文开始被网友疯转,并被感慨道:这可太酷啦!

还有网友表示,不出所料,奖励函数果然很重要~

从 SFT 和 RL 两方面研究长 CoT

研究团队明确表示:

我们的目标是揭开大模型中长 CoT 推理的神秘面纱。

通过系统分析和消融,提取关键见解,并提供实用策略来增强和稳定其性能。

团队采用了 2 款基础模型:

Llama-3.1-8B:来自 Meta,是具有代表性的通用模型。

Llama-3.1-8B:来自阿里通义,是具有代表性的数学专业模型。

同时采用了 4 个代表性推理基准:

MATH-500、AIME 2024、TheoremQA 和 MMLU-Pro-1k。

默认情况下,温度 t=0.7、顶部− p 值 =0.95,最大输出长度 =16384 tokens。

而具体过程,从 SFT(监督微调)和 RL(强化学习)两方面下手。

研究人员默认使用 MATH 的 7500 个训练样本提示集来提供可验证的真值答案。

SFT 对长 CoT 的影响

团队首先探究了 SFT 对长 CoT 的影响。

通过在长 CoT 数据上进行 SFT,模型能够学习到更复杂的推理模式。

但目前而言,短 CoT 更为常见,这就意味着针对其收集 SFT 数据相对简单。

鉴于此,团队选择用阿里通义的 QwQ-32B-Preview 来提炼长 CoT,用阿里通义的 Qwen2.5-Math-72B-Struct 来提炼短 CoT。

具体来说,研究人员先对每个 prompt 的 N 个候选响应进行采样,然后筛选出具有正确答案的响应。

对于长 CoT,使用 N ∈ {32, 64, 128, 192, 256};对于短 CoT,使用 N ∈ {32, 64, 128, 256},(此处为了提高效率跳过了一个 N)。

在每种情况下, SFT 标记的数量都与 N 成正比。

如下图虚线所示,随着扩大 SFT 的 token,对长 CoT 进行 SFT,会继续提高模型准确性;而对短 CoT 来说,SFT 带来的效益在很早就达到饱和。

譬如在 MATH-500 上,长 CoT SFT 的准确率超过 70%,tokens 达到 3.5B 时仍然没有进入瓶颈期。

相比之下,短 CoT SFT 的 tokens 从约 0.25B 增加到 1.5B,准确率仅产生了 3% 的增长。

实验结果显示,长 CoT SFT 能够显著提高模型的性能上限。

而且,在达到更高性能的同时,还有比短 CoT 更高的性能拓展空间。

RL 对长 CoT 的影响

由于业内普遍认为 RL 的上限高于 SFT,团队将长 CoT 和短 CoT 视为针对 RL 的不同 SFT 初始化方法进行比较。

研究人员使用 SFT 检查点来初始化 RL,并训练了四个 epoch,每个 prompt 生成四个响应。

此外,团队把 PPO 和来自 MATH 数据集的基于规则的验证器训练拆分,作为 RL 的提示集。

具体结果同样在下图中显示出来:

图中实线和虚线之间的间隙表明,使用长 CoT SFT 初始化的模型通常可以通过 RL 进一步显著改进,而使用短 CoT SFT 初始化的模型从 RL 中获得的收益很小。

例如,在 MATH-500 上,RL 可以将长 CoT SFT 模型绝对改进 3% 以上,而短 CoT SFT 模型在 RL 前后的精度几乎相同。

需要注意的是,RL 并不总是能够稳定地扩展思维链的长度和复杂性。

为此,研究团队引入了一种带有重复惩罚的余弦长度缩放奖励机制,有效稳定了思维链的增长,并鼓励模型在推理过程中进行分支和回溯。

整理长 CoT 数据

除上述研究外,为了整理长 CoT 数据,研究团队比较了两种方法。

一种是通过提示短 CoT 模型,生成原始动作,并按顺序组合它们,以此构建长 CoT 轨迹。

另一种是从现有的长 CoT 模型中提炼出长 CoT 轨迹——这些模型表现出涌现长 CoT(emergent long CoT)。

结果表明,从涌现长 CoT 模式中提炼出来的模型,比构建的模式泛化得更好,并且可以用 RL 进一步显著改进。

在构建模式上训练的模型则不能做到这一点。

此外,由于 DeepSeek-R1 已经证明,在基础模型上扩展 RL 计算可以出现长 CoT,自我验证行为有时会被模型的探索标记为紧急行为或 "顿悟时刻"。

这种模式在短 CoT 数据中很少见,但研究人员注意到,有时基座模型已经存在自我验证行为,而用 RL 强化这些行为需要严苛的条件。

如下图所示,Qwen2.5Math-7B 的 RL 有效地提高了准确性,但没有增加基础模型输出中存在的 " recheck " 模式的频率,也没有有效地激励其他反射模式,如 " retry " 和 " alternatively "。

这表明尽管提高性能效果显著,但来自基座模型的 RL 不一定会激励反射模式。

四个关键发现

在系统性研究了长 CoT 推理的机制后,团队提出了 4 个关键发现。

第一,SFT 并非必需,但能简化训练并提高效率。

虽然 SFT 并非训练长 CoT 的必要条件,但它能够有效地初始化模型,并为后续的 RL 训练提供坚实的基础。

第二,推理能力随着训练计算的增加而出现,但并非总是如此。

长 CoT 的出现并非必然,且朴素的 RL 方法并不总是能有效地延长 CoT 长度。

需要通过奖励塑造等技巧来稳定 CoT 长度的增长,团队的做法是引入了一种余弦长度缩放奖励,并加入了重复惩罚,这既平衡了推理深度,又防止了无意义的长度增加。

第三,可验证奖励函数对 CoT 扩展至关重要。

由于高质量、可验证数据稀缺,扩展可验证奖励函数对 RL 至关重要。

论文探索了利用网络提取的包含噪声解决方案的数据,并发现这种"银色"监督信号在 RL 中展现出巨大的潜力,尤其是在处理 OOO 任务(如 STEM 推理)时。

第四,基模型中天生存在错误修正和回溯等技能,但通过 RL 有效地激励这些技能需要大量的计算。

而测量这些能力的出现需要更精细的方法,需要谨慎设计 RL 激励。

最后,研究团队提出了几个未来的研究方向,包括:

扩大模型规模、改进 RL 基础设施、探索更有效的验证信号以及深入分析基础模型中的潜在能力。

这些方向有望进一步推动长 CoT 在大模型中的应用。

参考链接:

[ 1 ] https://arxiv.org/abs/2502.03373

[ 2 ] https://x.com/omarsar0/status/1887984076939841867



友情链接: