
基于隐空间动力学的大模型RL探索新视角——寻求平衡之道
强化学习已成为推动大型模型性能飞跃的关键技术手段。从OpenAI的o3、DeepSeek-R1到Gemini 3,这些前沿模型通过不断微调强化训练来提升解决复杂推理任务的能力。然而,在这一过程中也逐渐暴露出一个问题:随着训练的深入,策略分布趋向集中,探索能力随之减弱,最终导致优化欠收敛和性能瓶颈。这种现象从根本上说是由于在强化学习中探索与利用之间的不平衡造成的,并且在稀疏奖励的可验证奖励强化学习(
共找到 51 篇相关文章

强化学习已成为推动大型模型性能飞跃的关键技术手段。从OpenAI的o3、DeepSeek-R1到Gemini 3,这些前沿模型通过不断微调强化训练来提升解决复杂推理任务的能力。然而,在这一过程中也逐渐暴露出一个问题:随着训练的深入,策略分布趋向集中,探索能力随之减弱,最终导致优化欠收敛和性能瓶颈。这种现象从根本上说是由于在强化学习中探索与利用之间的不平衡造成的,并且在稀疏奖励的可验证奖励强化学习(

中国媒体称,人工智能(AI)公司深度求索(DeepSeek)的多名核心员工在过去一年里离职,下一代模型V4可能会在4月发布。据中国科技媒体“晚点LatePost”报道,去年下半年以来,DeepSeek已有多名核心员工离职。其中,DeepSeek第一代大语言模型的核心作者、参与历代模型训练的王炳宣,去年底被科技巨头腾讯挖走。DeepSeek-OCR系列的核心作者魏浩然约在春节前后离开,DeepSe

摘要:尽管“Gemini叫Uber”和“千问直接打车”的功能看似相似,但实际上两者有着本质的区别。前者仅限于让AI操控应用程序界面完成任务,而后者则是真正赋予了AI深层次的推理能力,使其能够深入参与到实际的服务履约过程中。凤凰网科技 出品作者|Dale在中国的人工智能领域中,有两家公司始终保持着独立的发展路线,并未被行业热潮所左右:DeepSeek和千问。前者专注于AGI信念的研究与技术革新;后者

摘要:近期,智能体技术的浪潮正从通用领域向垂直行业扩散。继年初Openclaw引发全球关注后,好未来近期又推出了首款针对教育领域的智能体产品——九章龙虾。凤凰网科技 出品作者|Dale在最近的一次内部功能分享会上,好未来CTO田密对在场媒体表示:“去年是DeepSeek,今年则是龙虾”,并指出中国多家公司都在积极推出类似的创新产品。作为目前人工智能领域最受关注的智能体形式之一,九章龙虾与传统的对话

快科技3月31日消息 清明祭祀用品年年翻新,如今更是紧跟潮流,被商家玩出了全新花样。临近清明节,有网友逛电商平台发现,有店铺上架了脑洞十足的AI 纸扎全家桶,还复刻出OpenClaw、DeepSeek、ChatGPT 等国际领先热门 AI 大模型纸扎单品,售价35.9元起。据商品详情介绍,这款纸扎 AI 大模型做成了一体机造型,精致小巧、操作简易。贴心标注:不懂电脑也能用,可当蓝牙音箱、语音助手;

第一财经记者今日查询深度求索(DeepSeek)官方状态页面看到,3月29日至31日,DeepSeek旗下服务连续三天出现不同程度异常,涉及网页对话、App及API等。故障分别持续约1小时48分、10小时13分和1小时3分。根据官方状态页记录,三次故障均已修复,目前所有服务恢复稳定运行。从官方监测数据来看,过去30天内,DeepSeek网页对话服务的整体可用性为98.61%。近日DeepSeek连

新智元报道【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用token索引的embedding表直接读取记忆,彻底解耦记忆容量与计算开销。近年来,随着大模型规模与知识密度的持续爆发,研究人员开始重新审视一个底层问题:模型的参数究竟该如何组织,才能最高效地承担「记忆」的功能?在传统的

DeepSeek网页版大升级!随后宕机11小时崩上热搜,新模型真的来了 梦晨 2026-03-30 11:33:58 量子位 在龙

IT之家 3 月 30 日消息,DeepSeek 服务昨天晚间起突发大规模中断,网页端与 App 持续瘫痪约 12 小时,用户遭遇登录失败、对话中断及内容丢失,话题登上微博热搜。据IT之家测试发现,目前 DeepSeek 服务已经能够正常使用。DeepSeek 官方服务状态网站显示,DeepSeek 网页、App 服务昨晚开始出现重大中断。根据事件报告,昨日 21:35,DeepSeek 发现网页

DeepSeek网页和App在连崩10多个小时后终于恢复了。这件事给梁文锋提了个醒,网上都说4月份就要发布DeepSeek-V4了,到时候DeepSeek面临的压力会比现在大得多。怎样让服务器在峰值压力下继续保持平稳工作,这是梁文锋必须解决的问题。比起模型性能,DeepSeek最应该加强的,是整个平台。或者多买点服务器,或者多找几个网络运维,总之应该让平台更牢固。我们先来回顾一下这次事故吧,3月2

在3月26日的夜晚,前阿里大模型技术负责人林俊旸在社交媒体平台上发布了一篇长文,这是他在从阿里巴巴离职后首次发表关于他对大模型发展方向的见解以及对未来人工智能阶段的预测。林俊旸指出,过去两年间,整个行业对大模型的评估方式和核心期望发生了重大变化。OpenAI的o1展示了“思考”可以作为一种训练出来的技能。紧随其后,DeepSeek-R1展示了推理式后训练不仅可以在实验室环境中复现,还能进一步扩展。

头图由AI生成近日,一家由北京大学背景的团队创立的人工智能编程初创公司——硅心科技,发布了其最新研发的轻量级模型aiX-apply-4B。这款模型仅需4B的参数量和256K的上下文支持,能够在消费级显卡上进行部署。该模型专为企业级代码修改任务设计,能够自动识别修改意图,精确定位目标代码区域,并保持原有代码格式和上下文结构的完整,将修改后的代码无缝融入原始文件。在基准测试中,aiX-apply模型在

DeepSeek公司现诚招17个与Agent相关的职位。 梦晨 2026-03-25 14:39:13 量子位 显示出公司从基础模

3月23日,全球大模型聚合路由平台OpenRouter发布的数据显示,过去一周(3月16日至3月22日),国产大模型的总调用量连续第三周超越美国同类产品,且领先幅度持续扩大。据统计,上周模型调用量前十名中(不重复计算小米测试版与正式版),国产模型占据了五个席位,包括小米MiMo-V2-Pro、阶跃星辰Step 3.5 Flash、MiniMax M2.5、DeepSeek V3.2以及智谱GLM5

最近,量子位公众号 QbitAI 发布了一篇关于DeepSeek公司的报道。该工程师名叫郭达雅,是V2、V3、R1等一系列模型的重要作者。郭达雅在学术领域和竞赛中有着卓越的表现,被誉为“中山大学雷军”。据郭达雅自述,他博士入学后的第三天就完成了毕业所需的论文发表要求。他还在腾讯广告算法大赛中多次夺冠,并在微信大数据挑战赛中获得第一名。郭达雅在真人秀《燃烧吧!天才程序员》中展现了顶尖的编程能力。离职

DeepSeek的核心工程师郭达雅正面临新的职业选择。 克雷西 2026-03-22 15:03:33 量子位 郭达雅将花落谁家?

作者|周一笑邮箱|[email protected]北京时间3月20日,AI编程工具Cursor发布了自研模型Composer 2,宣称是公司首次对基座模型进行“继续预训练结合强化学习”的成果。发布博客里没提基座模型的来源,措辞像是在说,这是Cursor自己从头炼出来的。不到两小时,一个名叫Fynn的开发者在调试Cursor的API时,截获了Composer 2的真实模型ID,kimi

据报道,在中美两国的AI技术差异中,美国企业倾向于采用封闭源代码的方式,而OpenAI也因此被戏称为ClosedAI。相比之下,中国的科技企业则大多采取开放源代码的策略。无论是阿里巴巴的Qwen,还是深度求索的DeepSeek,抑或是智谱的GLM、稀宇的MiniMax,以及月之暗面的Kimi等,全球范围内开源的AI大模型大多由中国公司主导。国产开源AI大模型不仅降低了全球用户的使用成本,还吸引了美

近日,一款名为“Hunter Alpha”的未知模型在 OpenRouter 平台上引起了广泛讨论,一度成为调用量最高的大模型之一,许多网友猜测其可能是“DeepSeek V4”的早期版本。3 月 19 日凌晨,小米公司正式确认“Hunter Alpha”为自家产品,并宣布推出 MiMo-V2-Pro、Omni 和 TTS 三款大模型,供用户限时免费试用一周。小米 MiMo 大模型项目负责人罗福莉