搜索: 算法革新

搜索: "算法革新"

共找到 1 篇相关文章

算法革新之路：从PPO到MaxRL，LLM推理训练的演变历程

机器之心编译在最初的PPO方法之后，各种变体和创新被引入到LLM的强化学习训练中。这些包括GSPO、CISPO、DAPO、Dr. GRPO、MaxRL以及DPPO等。本文探讨了自PPO以来，用于微调大型语言模型的各种改进目标函数和技术。每个方法都为如何有效优化LLM提出了独特的视角，并且在不同程度上取得了成功。GSPO通过增强组间比较来提高训练效率和稳定性；CISPO则专注于信任域的处理方式，以实

科技2026/5/62 阅读