
基于隐空间动力学的大模型RL探索新视角——寻求平衡之道
强化学习已成为推动大型模型性能飞跃的关键技术手段。从OpenAI的o3、DeepSeek-R1到Gemini 3,这些前沿模型通过不断微调强化训练来提升解决复杂推理任务的能力。然而,在这一过程中也逐渐暴露出一个问题:随着训练的深入,策略分布趋向集中,探索能力随之减弱,最终导致优化欠收敛和性能瓶颈。这种现象从根本上说是由于在强化学习中探索与利用之间的不平衡造成的,并且在稀疏奖励的可验证奖励强化学习(
共找到 16 篇相关文章

强化学习已成为推动大型模型性能飞跃的关键技术手段。从OpenAI的o3、DeepSeek-R1到Gemini 3,这些前沿模型通过不断微调强化训练来提升解决复杂推理任务的能力。然而,在这一过程中也逐渐暴露出一个问题:随着训练的深入,策略分布趋向集中,探索能力随之减弱,最终导致优化欠收敛和性能瓶颈。这种现象从根本上说是由于在强化学习中探索与利用之间的不平衡造成的,并且在稀疏奖励的可验证奖励强化学习(

4月1日,“字节跳动Seed”公众号宣布启动针对2027届毕业生和在校实习生的大规模人才招聘项目。据了解,今年的招聘计划将更加注重人才引进,目标是在全球范围内招募约百名在大模型领域表现出色的应届生和技术实习生。在挑选候选人时,Seed坚持采用业界最严格的标准,寻找那些技术信念坚定、具有远大抱负,并且具备卓越研究能力和实践能力的人才。除了要求应聘者在其专长的技术领域内拥有深刻的理解和显著成就之外,S

在腾讯于深圳总部楼下免费安装“龙虾”(OpenClaw)之后,这一潮流迅速扩散至北京等地。3月14日上午,360总部楼下设立了几张临时桌椅,众多程序员正忙着帮前来的人安装“龙虾”,周鸿祎本人也亲临现场协助安装。与此同时,百度、京东等公司也相继举行了类似活动。OpenClaw并非大型模型或AI应用,而是用于调用大模型执行任务的AI操作系统。它于2025年底发布,今年1月开源后迅速走红,因其图标为一只

近日,联想在3月19日举办了一场以AI本地化部署为重点的创新体验日,正值OpenClaw等智能体的出现引发了企业对数据主权和Token成本的关注。活动期间,联想展示了其万全异构智算平台与英特尔至强6服务器构成的算力基础设施底座,以满足企业从云端转向本地部署的迫切需求,并提出了“一横四纵”战略,旨在将大型模型转化为商业生产力工具。在核心算力调度方面,联想的万全异构智算平台4.0版本进行了多项升级,包

在 MVBench 和 VideoMME 等离线基准测试中,视频大模型表现优异,然而在实际交互场景中,仍面临两个主要挑战:如何处理无边界视频流以及如何在动态视频流中确定响应时机。最近,香港浸会大学与腾讯优图实验室合作,提出了 Streamo,其创新之处在于将“何时回答”这一决策纳入模型预测,通过端到端训练框架直接将离线视频模型转换为实时流视频助手。Streamo 能处理真实场景中的视频流,支持实时

李水青编辑,漠影审校的智东西文章目前,名为OpenClaw的项目因其昵称“龙虾”而在AI代理领域引起广泛关注。这种趋势不是逐渐升温,而是迅速爆发,企业级AI应用正在从简单的对话机器人转变为能够执行复杂任务的智能体。随着热度从技术社区扩展到整个产业,一些问题也逐渐显现出来:企业发现实施AI代理并非易事。一方面,数据中心的推理效率成为瓶颈,大型模型响应缓慢,多轮对话变得卡顿,影响用户体验;另一方面,边

在中美第六轮经贸谈判于巴黎落幕后的第二天,美国科技巨头英伟达宣布重启AI芯片H200的生产,同时有消息指出中国相关部门已经批准多家中国企业向英伟达购买该芯片。H200是英伟达推出的性能仅次于A100的AI芯片,主要用于大型模型的训练和推理,技术领先于中国的同类产品至少一个代际。由于出口限制,此前有报道称英伟达已停止生产H200芯片。据外国媒体综合报道,英伟达首席执行官黄仁勋在美国加州圣何塞举行的

在过去两年间,世界模型(World Model)已经成为大型模型进化的一个重要方向。从具身智能到自动驾驶,研究者希望人工智能不再仅限于理解数据,而是能够构建出一个可以预测和推演的“世界”。模型需要学会物体的运动规律以及环境的变化,甚至在行动发生之前就能完成模拟。然而,一个关键的盲点始终存在:目前几乎所有世界模型都只能理解“人类肉眼可见的世界”。街道、人物和机械运动可以被成功建模,但当尺度缩小到细胞

机器之心编辑部昨日晚间,推特博主「青龍聖者」发布了一张截图,疑似预告 DeepSeek V4 即将问世。然而不久后,该博主进行了澄清,称自己无法确定截图的真实性,并指出另一张展示 DeepSeek V4 参数详情的图片为虚假信息。今天清晨,全球知名的大型模型集成平台 OpenRouter 惊喜上架了两款新型神秘模型「Hunter Alpha」和「Healer Alpha」。其中,「Hunter A

还有人在选购AI学习设备吗? 在过去一年里,大型模型的发展速度犹如火箭一般飞速提升,连国际数学奥林匹克竞赛的金牌都可轻松拿下,辅导中学数学自然不在话下。 目前,不少家长已经开始使用DeepSeek、豆包等工具来辅助孩子的学业进步。 这些功能包括解答疑问、批改作业和规划学习进度等,已经成为了常见的应用。 早前,在观看视频时,人们发现了一种更为新颖的应用方式—— 通过与AI进行视频通话,让摄像头对准孩

大规模预训练模型虽然表现出色,但在处理“长对话、多轮交互和跨任务”等复杂场景时,依然面临两大挑战:其一为上下文窗口的限制,在对话持续增长的情况下容易出现信息过载;其二是中间环节的信息丢失问题,即便能容纳所有数据也不一定能有效利用。因此,引入“外部记忆系统”成为必要:将对话内容储存于长期记忆,并在需要时进行检索。然而这一方案的实际应用却带来高成本的问题:频繁调用大模型执行总结和提取、实时解决冲突以及

新智元报道传统的人工智能模型在稀疏奖励的环境中往往难以学会分层思考,因为激励机制不足。近日,谷歌团队通过引入元控制器来操控模型内部残差流,使智能体具备了“跳跃式思维”的能力。这项研究揭示了大型模型内部可以自发形成类似人脑的层次化决策结构,为人工智能在复杂多步任务中的训练提供了新的方法。人们普遍认为,AI智能体面临的主要挑战是计算资源不足?实际上,真正的问题在于奖励过于稀疏以及路径过长。在稀疏奖励和

字节Seed开始运用化学原理来研究大型模型。 深度推理像是共价键,自我反思类似氢键,而自我探索则像范德华力? 传统的长思维链推理通常将AI的思考过程视为线性结构。 实际上,在很多情况下,后续的重要结论需要返回去验证早期提出的假设。 CoT忽略了这种非线性的依赖关系。 在论文《思想的分子结构》中,字节Seed首次为大模型定义了长链思维的分子式结构。 这种分子拓扑结构里,三种键是如何相互作用的?

在许多大型模型及代理的训练过程中,常见的方式是仅依据结果来判断:如果最终答案正确,则给予奖励;反之则得零分。对于简单的问答任务,这种方法尚可适用;但当涉及到需要多轮对话、搜索和编写代码等复杂过程的任务时,这种评价方式就显得过于简化了。因此,在差之毫厘的情况下与一开始就走错方向的情况之间,仅凭结果评判无法区分其优劣;训练过程中也无法识别出哪些失败更为关键,人工细粒度的评分又难以应对开放环境和多模态任

中国团队在太空计算能力方面取得了领先地位:首次实现了通用大型模型的轨道部署,并计划通过发射2800颗卫星为数亿个硅基智能体提供服务。 一凡 发自 凹非寺 量子位 | 公众号 QbitAI 岁末年初,全球AI竞争聚焦到了最新趋势—— 太空算力。 大洋两岸,近期你追

新智元报道SSI-Bench是首个专注于评估模型在约束流形中空间推理能力的基准,强调真实结构和具体限制条件,通过排序任务来考察模型对三维几何与拓扑关系的理解程度,揭示了当前大模型在处理实际空间问题时严重依赖二维信息的情况,并且其表现远逊于人类。如果将一个在空间理解榜单中得分很高的多模态大型模型直接放置于现实世界环境中,它很可能会在看似简单的任务上遇到困难。