搜索: "隐空间动力学"

共找到 1 篇相关文章

基于隐空间动力学的大模型RL探索新视角——寻求平衡之道

基于隐空间动力学的大模型RL探索新视角——寻求平衡之道

强化学习已成为推动大型模型性能飞跃的关键技术手段。从OpenAI的o3、DeepSeek-R1到Gemini 3,这些前沿模型通过不断微调强化训练来提升解决复杂推理任务的能力。然而,在这一过程中也逐渐暴露出一个问题:随着训练的深入,策略分布趋向集中,探索能力随之减弱,最终导致优化欠收敛和性能瓶颈。这种现象从根本上说是由于在强化学习中探索与利用之间的不平衡造成的,并且在稀疏奖励的可验证奖励强化学习(

科技1 阅读