搜索: 行为校准

搜索: "行为校准"

共找到 1 篇相关文章

CMU团队提出新算法：行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

吴嘉赟博士就读于卡内基梅隆大学（CMU）机器学习系，专注于大语言模型评估和后训练技术的研究。大语言模型在关键领域的应用受到幻觉问题的困扰。最近一项研究提出了一种新的行为校准强化学习方法，旨在解决这一难题。该论文详细探讨了如何通过调整奖励函数来改进LLM的表现。经过特定训练后，一个参数量仅为40亿的小型模型在幻觉抑制方面超越了GPT-5等顶级大模型。图1展示了模型回答数学问题时置信度标注的实例。每一

科技2026/3/133 阅读