CMU团队提出新算法：行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

作者：世界网2026年3月13日科技3 阅读

吴嘉赟博士就读于卡内基梅隆大学（CMU）机器学习系，专注于大语言模型评估和后训练技术的研究。

大语言模型在关键领域的应用受到幻觉问题的困扰。最近一项研究提出了一种新的行为校准强化学习方法，旨在解决这一难题。

该论文详细探讨了如何通过调整奖励函数来改进LLM的表现。

经过特定训练后，一个参数量仅为40亿的小型模型在幻觉抑制方面超越了GPT-5等顶级大模型。

图1展示了模型回答数学问题时置信度标注的实例。每一个答案都附有明确的置信度分数和理由说明。

大语言模型为何会产生幻觉？

研究团队发现，当前基于可验证奖励的强化学习方法存在根本性的奖励设定问题，导致模型倾向于输出不准确的答案而非承认不知情。

行为校准强化学习：一种解决方案

针对这一挑战，研究团队提出了两种策略：

策略之一是使用言语化置信度方法。

另一策略则是采用Critic价值函数作为隐式置信度估计器。

该策略通过最小化预测值与策略回报之间的Brier分数来训练Critic网络的价值函数，使其收敛于成功概率。

行为校准的进一步细化：声明级标注

研究团队将行为校准从响应级别扩展到声明级别，以解决模型输出中的不确定性问题。这一改进面临三大挑战：

挑战之一是保持推理过程的一致性。

第二大挑战是如何处理中间步骤的歧义。

最后一个问题是缺乏细粒度标签的问题。

实验表明，最小值聚合在声明级评估中更为有效，能够更好地识别模型推理链中的薄弱环节。

实验结果

研究团队对多种基准测试进行了评估，包括字节跳动Seed团队发布的极具挑战性的BeyondAIME数学推理基准和SimpleQA跨领域事实问答基准。

核心评估指标

Confidence AUC用于衡量模型区分正确与错误答案的能力。

响应级实验：超越顶尖大模型

在BeyondAIME的响应级评估中，采用言语化置信度方法的40亿参数模型在SNR增益上显著优于GPT-5等其他模型。此外，Critic价值函数策略也显示出了较好的效果。

表1：超越GPT-5的结果展示。

声明级实验：更进一步

研究团队将行为校准扩展到声明级别评估中，在BeyondAIME的测试中，置信度最小聚合方法取得了显著的进步。

表2：显示了SNR Gain和Conf AUC两个关键指标上的领先优势。

图表分析揭示大模型在自知之明方面的不足

图2展示了前沿模型的响应级置信度校准图，显示出许多模型的准确性与其声明的置信度缺乏关联性。

图3则显示了本研究提出的模型在校准后显著提高的表现，准确率与声明的置信度呈现正相关关系。

行为校准的四个目标

图4展示了不同风险阈值下的准确率、拒绝率和幻觉率的变化情况。随着风险阈值上升，模型从应试模式过渡到完全诚实模式。

研究团队提出的方法满足行为校准的四大目标。

图5进一步展示了True Positive（实线）和False Negative（虚线）曲线的情况。

元认知能力的迁移性验证

为了测试元技能的可移植性，研究团队将训练好的模型在SimpleQA上进行了零样本评估。

结果表明，该方法显著优于基础指令模型，并且与包括Claude-Sonnet-4.5和GPT-5在内的顶级大模型相当。

研究启示：

幻觉缓解和事实准确率是独立的能力

该研究还提供了一些理论见解：

第一，幻觉的减少并不一定意味着事实准确性提高。某些顶级模型在控制幻觉方面表现出色，而不仅仅是提高了准确性。

第二，小型语言模型也能达到与大型模型相当的置信度校准水平。

最后，行为校准是一种可以通过训练改进的能力，这反驳了先前关于大语言模型固有产生幻觉的观点。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

CMU团队提出新算法：行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

作者：世界网2026年3月13日科技3 阅读

吴嘉赟博士就读于卡内基梅隆大学（CMU）机器学习系，专注于大语言模型评估和后训练技术的研究。

大语言模型在关键领域的应用受到幻觉问题的困扰。最近一项研究提出了一种新的行为校准强化学习方法，旨在解决这一难题。

该论文详细探讨了如何通过调整奖励函数来改进LLM的表现。

经过特定训练后，一个参数量仅为40亿的小型模型在幻觉抑制方面超越了GPT-5等顶级大模型。

图1展示了模型回答数学问题时置信度标注的实例。每一个答案都附有明确的置信度分数和理由说明。

大语言模型为何会产生幻觉？

研究团队发现，当前基于可验证奖励的强化学习方法存在根本性的奖励设定问题，导致模型倾向于输出不准确的答案而非承认不知情。

行为校准强化学习：一种解决方案

针对这一挑战，研究团队提出了两种策略：

策略之一是使用言语化置信度方法。

另一策略则是采用Critic价值函数作为隐式置信度估计器。

该策略通过最小化预测值与策略回报之间的Brier分数来训练Critic网络的价值函数，使其收敛于成功概率。

行为校准的进一步细化：声明级标注

研究团队将行为校准从响应级别扩展到声明级别，以解决模型输出中的不确定性问题。这一改进面临三大挑战：

挑战之一是保持推理过程的一致性。

第二大挑战是如何处理中间步骤的歧义。

最后一个问题是缺乏细粒度标签的问题。

实验表明，最小值聚合在声明级评估中更为有效，能够更好地识别模型推理链中的薄弱环节。

实验结果

研究团队对多种基准测试进行了评估，包括字节跳动Seed团队发布的极具挑战性的BeyondAIME数学推理基准和SimpleQA跨领域事实问答基准。

核心评估指标

Confidence AUC用于衡量模型区分正确与错误答案的能力。

响应级实验：超越顶尖大模型

表1：超越GPT-5的结果展示。

声明级实验：更进一步

研究团队将行为校准扩展到声明级别评估中，在BeyondAIME的测试中，置信度最小聚合方法取得了显著的进步。

表2：显示了SNR Gain和Conf AUC两个关键指标上的领先优势。

图表分析揭示大模型在自知之明方面的不足

图2展示了前沿模型的响应级置信度校准图，显示出许多模型的准确性与其声明的置信度缺乏关联性。

图3则显示了本研究提出的模型在校准后显著提高的表现，准确率与声明的置信度呈现正相关关系。

行为校准的四个目标

图4展示了不同风险阈值下的准确率、拒绝率和幻觉率的变化情况。随着风险阈值上升，模型从应试模式过渡到完全诚实模式。

研究团队提出的方法满足行为校准的四大目标。

图5进一步展示了True Positive（实线）和False Negative（虚线）曲线的情况。

元认知能力的迁移性验证

为了测试元技能的可移植性，研究团队将训练好的模型在SimpleQA上进行了零样本评估。

结果表明，该方法显著优于基础指令模型，并且与包括Claude-Sonnet-4.5和GPT-5在内的顶级大模型相当。

研究启示：

幻觉缓解和事实准确率是独立的能力

该研究还提供了一些理论见解：

第一，幻觉的减少并不一定意味着事实准确性提高。某些顶级模型在控制幻觉方面表现出色，而不仅仅是提高了准确性。

第二，小型语言模型也能达到与大型模型相当的置信度校准水平。

最后，行为校准是一种可以通过训练改进的能力，这反驳了先前关于大语言模型固有产生幻觉的观点。

“”

CMU团队提出新算法：行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

CMU团队提出新算法：行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

相关文章

相关文章