搜索: 小模型推理

搜索: "小模型推理"

共找到 1 篇相关文章

G²RPO-A破解小模型推理难题，开启性能增强新模式

在大模型时代，许多专业人士或许都遇到过类似的问题：当尝试将 DeepSeek-R1 和 OpenAI-o1 这样的卓越推理能力移植到小规模语言模型（SLMs）上时，实际效果往往不尽如人意。尽管现有的强化学习方法 GRPO 对于 7B+ 参数量的大模型来说非常有效，但一旦应用于更小型的模型中，比如 1.7B 或者参数量更少的情况下，性能提升就显得十分有限。针对小规模语言模型在强化学习中的推理难题，香

科技2026/5/71 阅读