搜索: "算法革新"

共找到 1 篇相关文章

算法革新之路:从PPO到MaxRL,LLM推理训练的演变历程

算法革新之路:从PPO到MaxRL,LLM推理训练的演变历程

机器之心编译在最初的PPO方法之后,各种变体和创新被引入到LLM的强化学习训练中。这些包括GSPO、CISPO、DAPO、Dr. GRPO、MaxRL以及DPPO等。本文探讨了自PPO以来,用于微调大型语言模型的各种改进目标函数和技术。每个方法都为如何有效优化LLM提出了独特的视角,并且在不同程度上取得了成功。GSPO通过增强组间比较来提高训练效率和稳定性;CISPO则专注于信任域的处理方式,以实

科技2 阅读