搜索: "行为校准"

共找到 1 篇相关文章

CMU团队提出新算法:行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

CMU团队提出新算法:行为校准强化学习助力4B模型击败GPT-5抑制幻觉现象

吴嘉赟博士就读于卡内基梅隆大学(CMU)机器学习系,专注于大语言模型评估和后训练技术的研究。大语言模型在关键领域的应用受到幻觉问题的困扰。最近一项研究提出了一种新的行为校准强化学习方法,旨在解决这一难题。该论文详细探讨了如何通过调整奖励函数来改进LLM的表现。经过特定训练后,一个参数量仅为40亿的小型模型在幻觉抑制方面超越了GPT-5等顶级大模型。图1展示了模型回答数学问题时置信度标注的实例。每一

科技1 阅读