
基于隐空间动力学的大模型RL探索新视角——寻求平衡之道
强化学习已成为推动大型模型性能飞跃的关键技术手段。从OpenAI的o3、DeepSeek-R1到Gemini 3,这些前沿模型通过不断微调强化训练来提升解决复杂推理任务的能力。然而,在这一过程中也逐渐暴露出一个问题:随着训练的深入,策略分布趋向集中,探索能力随之减弱,最终导致优化欠收敛和性能瓶颈。这种现象从根本上说是由于在强化学习中探索与利用之间的不平衡造成的,并且在稀疏奖励的可验证奖励强化学习(
共找到 8 篇相关文章

强化学习已成为推动大型模型性能飞跃的关键技术手段。从OpenAI的o3、DeepSeek-R1到Gemini 3,这些前沿模型通过不断微调强化训练来提升解决复杂推理任务的能力。然而,在这一过程中也逐渐暴露出一个问题:随着训练的深入,策略分布趋向集中,探索能力随之减弱,最终导致优化欠收敛和性能瓶颈。这种现象从根本上说是由于在强化学习中探索与利用之间的不平衡造成的,并且在稀疏奖励的可验证奖励强化学习(

机器之心编辑部近年来,扩散语言模型(Diffusion LLM)一直是讨论的热点。相较于传统的自回归模型,扩散模型在生成文本时更为灵活,更能支持并行处理。然而,尽管这条路充满潜力,但要真正提升效果却并非易事。最近,华为诺亚方舟实验室发布了一项关于扩散模型训练中“默认设置”的研究。这项研究的标题为《Mask Is What DLLM Needs: A Masked Data Training Par

3月18日,科技行业知名人士罗永浩在广州的小鹏科技园进行了参观访问,全程由小鹏汽车的创始人及董事长何小鹏陪同。在何小鹏的详细介绍下,罗永浩参观了小鹏科技园的核心区域,包括了小鹏汽车的量产车型和关键技术布局,并且还亲自查看了小鹏汇天的飞行汽车等高科技产品。此外,两人还共同试驾了搭载第二代VLA技术的小鹏P7车型,对智能出行和低空科技领域的发展有了更深入的了解。何小鹏在谈及这次试驾活动时表示,小鹏P7

机器之心编辑部近日,世界模型与空间智能前沿公司魔芯科技已完成 Pre-A + 轮近亿元融资。本轮融资由华为哈勃领投,老股东跟投。成立于 2021 年的魔芯科技从 3D AI 物体建模和制造出发,正逐步走向让 AI 具备对三维物理世界的生成、理解与交互能力。公司正持续推进空间表示学习、动态场景三维建模和基于世界模型的物理、动作模型等关键技术研发,并面向下游行业输出模型能力、平台与解决方案。科研突破:

江宇和漠影共同编辑了一篇关于智能技术的文章。今年春节联欢晚会再次展示了人形机器人在舞台上的非凡表现,引起了观众的广泛关注。相比于去年笨拙地扭秧歌,如今的人形机器人能够流畅地完成武术、双节棍和醉拳等一系列高难度动作,赢得了网友的一致赞叹,并向大众展现了人形机器人的技术进步。伴随着人形机器人运动能力的持续突破,一些支持这些极限动作的关键技术也逐渐显现出来。最近,北京通用人工智能研究院(简称“通研院”)

据报道,全国政协委员袁小彬在最近的两会期间提出了一项关于改进私家车辆年审制度的建议,主张采用技术监控手段代替传统的现场检测。他提议对车辆实施分类管理措施:对于那些没有发生重大事故且无非法改装记录的非营运性质私人汽车,可以免除年度检验;而对于有相关不良历史的车主,则需要定期接受检查。此外,他还建议创建一个全国性的“电子行车档案”系统来收集和整合车辆从生产到维修、保养以及保险理赔等全过程的数据信息,以

我是Anthropic的首席执行官,公司专注于开发先进的人工智能技术以支持国家安全和民主价值观。最近与美国联邦政府就合作事宜展开讨论时,我们面临了一些争议。一开始,我们的团队希望在保持强大国防的同时,也坚守道德底线。尽管双方进行了多轮协商,但在某些关键技术的使用上,如大规模国内监视和全自动武器系统,我们发现难以达成一致意见。我们坚持认为,任何技术应用都应符合美国的核心价值观——即尊重个人隐私和人权

作者 | 刘春出品 | 网易科技“我们曾理所当然地认为美国会在所有领域领先,但如今这种想法已经不再成立。”一位顶尖科学家的感慨表明了一个时代的结束。最新报告显示,中国正悄然实现前所未有的逆袭。数据不容置疑,且令人震惊:在决定未来的64项关键技术中,中国已掌握了57项主导权,而美国仅剩7项。从基础研究的数量增长到核心