搜索: "强化学习"

共找到 30 篇相关文章

马斯克宣布Grok V9-Medium 1.5T完成训练：两到三周发布

布IT之家 5 月 25 日消息，马斯克今日宣布，Grok 基础模型 V9-Medium（1.5T、1.5 万亿参数量）已完成训练。马斯克透露，该模型的评估结果相当不错。在补充训练中，加入了大量 Cursor 数据，未来还会继续添加更多数据。马斯克表示，微调工作正在进行中，强化学习将于几天后开始，距离公开发布还有 2 到 3 周。相比目前支撑所有 Grok 生产端流量的 0.5T V8-Small

科技2026/5/251 阅读

前Kimi后训练负责人宋鸿涌创业，聚焦通用机器人基座模型

大模型 RL 老兵Flood Sung 切入机器人赛道。作者丨张贤AI科技评论独家消息，前月之暗面后训练与强化学习负责人宋鸿涌（Flood Sung）已于 2025 年 12 月离职，创立机器人公司「北京十六号机器人科技有限公司」（XVI Robotics），公司业务方向聚焦通用人形机器人基座模型。（本文作者长期关注机器人&具身智能赛道，欢迎添加微信交流：zhangxian2021）企查

科技2026/5/224 阅读

传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

本文第一作者来自国防科技大学数智建模与仿真国家级重点实验室（State Key Laboratory of Digital Intelligent Modeling and Simulation）2024 级博士生原方，通讯作者为国防科技大学曾俊杰助理研究员、李庆伦博士，并由尹全军研究员、秦龙副教授、沈思淇长聘副教授（厦门大学）、谢毓湘教授、杨俊强副研究员共同合作完成。研究团队长期聚焦建模仿真、强

科技2026/5/222 阅读

HyperEyes：并行多模态搜索智能体的效率革命

现有的开源多模态搜索智能体普遍受困于「裁剪 - 再搜索」的串行处理模式，面对多目标时往往陷入交互冗长、错误级联累积的泥沼。为此，小红书研究团队提出了一款全新架构的模型：HyperEyes。通过统一定位与搜索的动作空间、构建并行可学习数据以及双粒度效率感知强化学习的全栈设计，HyperEyes 成功实现了从「搜得更深」到「搜得更宽」的并行多模态搜索范式跃迁。论文地址：https://arxiv.or

科技2026/5/203 阅读

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

PRISM团队投稿量子位 | 公众号 QbitAISFT之后，直接上强化学习就够了吗？小心，你做的可能不是“训练”，而是“还债”。在多模态大模型（MLLM）的后训练中，行业内长期遵循着一个看似天经地义的范式：先SFT，再RL，两步到位。从DeepSeek到Qwen，从GRPO到DAPO，大家拼命优化RL算法的稳定性、采样效率、奖励设计……却几乎没人回头看一眼：SFT到RL之间，是不是少了点什么？

科技2026/5/183 阅读

研究发现：AI充电策略可使电动汽车电池寿命延长23%

【CNMO科技消息】近日，据外媒报道，研究人员开发出一种基于深度强化学习的人工智能充电系统，可在保持较快充电速度的同时，将电池寿命延长近23%。这项研究由新西兰惠灵顿维多利亚大学的Meng Yuan和瑞典查尔姆斯理工大学的Changfu Zou共同完成，成果发表在《IEEE交通电气化汇刊》上。该系统采用名为TD3的机器学习方法，通过数千次模拟充电会话进行试错学习。与传统充电器使用固定充电模式不同，

科技2026/5/142 阅读

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件闻乐 2026-05-09 16:07:08 量子位

AI2026/5/105 阅读

G²RPO-A破解小模型推理难题，开启性能增强新模式

在大模型时代，许多专业人士或许都遇到过类似的问题：当尝试将 DeepSeek-R1 和 OpenAI-o1 这样的卓越推理能力移植到小规模语言模型（SLMs）上时，实际效果往往不尽如人意。尽管现有的强化学习方法 GRPO 对于 7B+ 参数量的大模型来说非常有效，但一旦应用于更小型的模型中，比如 1.7B 或者参数量更少的情况下，性能提升就显得十分有限。针对小规模语言模型在强化学习中的推理难题，香

科技2026/5/73 阅读

算法革新之路：从PPO到MaxRL，LLM推理训练的演变历程

机器之心编译在最初的PPO方法之后，各种变体和创新被引入到LLM的强化学习训练中。这些包括GSPO、CISPO、DAPO、Dr. GRPO、MaxRL以及DPPO等。本文探讨了自PPO以来，用于微调大型语言模型的各种改进目标函数和技术。每个方法都为如何有效优化LLM提出了独特的视角，并且在不同程度上取得了成功。GSPO通过增强组间比较来提高训练效率和稳定性；CISPO则专注于信任域的处理方式，以实

科技2026/5/610 阅读

GPT-5为何偏爱提及“哥布林”？背后真相揭晓

去年夏天，DeepSeek V3.1 模型出现了一个神秘的「极」字问题。这个错误使得模型在输出结果中频繁不必要地加入「极」字，并且英文版本也会相应地包含「extreme」一词。这个现象在网络上引起了热议，网友们戏称它为「极你太美」bug 或者是「极速版」DeepSeek。事后分析表明，模型中的这个错误源于训练数据中未被清洗干净的「极长数组」。在强化学习阶段，系统自动将这些数组识别为了特殊的终止符或

科技2026/5/13 阅读

中科大与上海AILab揭秘2026年ACL大会上的强化学习后训练规律

从 DeepSeek-R1 到 Kimi K2.5，利用强化学习（RL）来优化大型模型的推理性能已成为关键方法。然而，在 RL 后训练过程中存在一个重要问题：这种训练方式是否遵循特定规律？能否通过给定参数量、计算资源和数据规模，准确预测出 RL 训练所能达到的效果？中国科学技术大学与上海人工智能实验室等机构的研究团队对此进行了系统性的研究。他们使用 Qwen2.5 系列密集模型（从0.5B到72B

科技2026/4/281 阅读

腾讯推出并开放源代码：Hy3 Preview——迄今为止最先进的语言模型

4月23日，腾讯发布了混元 Hy3 preview 语言模型，并宣布将其开源。该模型结合了快慢思考的特点，拥有总计2950亿参数和激活参数210亿，能够处理长达256K的上下文长度。腾讯官方透露，在今年二月，腾讯对预训练及强化学习的基础架构进行了重建，并确立了三个追求实用性的准则：能力系统化、评估真实性以及性价比。Hy3 preview 是在此次基础建设改进之后生成的第一个模型，也是迄今为止混元系

科技2026/4/2320 阅读

AI步入物理世界：开启理解空间的新篇章

中央日报于4月22日发布消息称，在GTC 2026大会上，英伟达推出了一款基于Omniverse的物理人工智能技术，这标志着人工智能开始从虚拟环境向现实世界过渡。该技术能够实现感知、决策和自主操作，并在工业机器人、自动驾驶汽车、医疗设备和个人智能装置等多个领域得到广泛应用。它通过视觉识别与强化学习来适应动态变化，不同于传统的编程方式。分析机构预测，在未来几年内，物理人工智能产生的数据量将超过数字人

科技2026/4/233 阅读

AGI新时代：Post-Training技术引领物理智能革命

深度学习模型DeepSeek R1 的问世，引发了人们对大规模预训练是否是提升模型推理能力唯一途径的新思考。事实上，通过后处理技术如强化学习、过程奖励和闭环反馈机制，人们得以以极低的成本解锁原本需大量算力才能触及的高级功能。这一现象正逐渐在自动驾驶领域重现。自动驾驶系统已经完成了一系列大规模的数据预训练，但仍存在一个重大障碍：它们尚无法完全理解为何特定的行为模式是最佳选择。真正的进步需要依赖闭环反

科技2026/4/201 阅读

比亚迪腾势D9升级天神之眼5.0系统，引入先进强化学习算法模型

近日，比亚迪腾势汽车宣布为旗下腾势 D9 车型进行全量升级推送天神之眼 5.0 版本，并引入了基于强化学习的端到端大模型技术，同时更新了智舱界面和辅助驾驶报告功能。此次 OTA 更新适用于 D9 至尊版、尊航版以及25款 D9。此次腾势 D9 的软件升级包括如下几项内容：升级至天神之眼 5.0，新增驾驶辅助系统的强化学习模型；行程结束后生成驾驶辅助报告，涵盖领航里程、变道次数及绕行记录等信息，并可

科技2026/4/94 阅读

从局部模仿到全面规划：离线强化学习的新篇章丨ICLR'26

在处理复杂的连续任务时，现有的生成式离线强化学习方法常表现出其局限性。这些方法产生的路径往往陷入局部合理但全局失调的状态。它们过于关注即时的步骤而忽略了最终的目标。针对这一问题，厦门大学与香港科技大学联合提出了一种创新算法——MAGE（即“魔法师”，Multi-scale Autoregressive Generation）。与传统序列生成方法不同，MAGE采用了自顶向下的递进生成策略，首先构建宏

科技2026/4/711 阅读

从局部描绘到全局规划：离线强化学习的新突破丨ICLR’26

ICLR'26会议探讨了离线强化学习方法从局部优化向全局布局转变的新策略。一水 2026-04-06 13:35:27 量子位

AI2026/4/73 阅读

基于隐空间动力学的大模型RL探索新视角——寻求平衡之道

强化学习已成为推动大型模型性能飞跃的关键技术手段。从OpenAI的o3、DeepSeek-R1到Gemini 3，这些前沿模型通过不断微调强化训练来提升解决复杂推理任务的能力。然而，在这一过程中也逐渐暴露出一个问题：随着训练的深入，策略分布趋向集中，探索能力随之减弱，最终导致优化欠收敛和性能瓶颈。这种现象从根本上说是由于在强化学习中探索与利用之间的不平衡造成的，并且在稀疏奖励的可验证奖励强化学习（

科技2026/4/44 阅读

打破代码大模型训练瓶颈：MicroCoder将算法数据框架训练经验升级

MicroCoder团队投稿量子位 | 公众号 QbitAI新一代代码模型的训练动态已与旧模型截然不同，主流强化学习方法和数据集在其上几乎“失效”。微软亚洲研究院与剑桥大学、普林斯顿联合推出MicroCoder，从算法、数据、框架、训练经验四个维度全面升级，在最新代码测试集上取得明显提升，并从七个方面开源了34条训练洞察。背景：旧经验遇上新模型，为何几乎全部“失效”？强化学习正在成为代码大模型能

科技2026/3/301 阅读

中科院团队研发SparseRL技术：实现深度强化学习自动优化CUDA代码性能

如何让人工智能不仅能够生成可执行的代码，还能优化代码的运行效率？这个问题长期以来一直困扰着研究者。最近，中国科学院计算技术研究所的一个团队提出了名为 SparseRL 的新框架，首次将深度强化学习应用于稀疏 CUDA 代码的生成任务中。简单来说，就是让 AI 学会根据稀疏矩阵的具体结构，自动生成最优化的 CUDA 实现代码。实验数据表明，在经典的 SpMV 任务上，该方法将编译成功率提高了 20%

科技2026/3/266 阅读