雷军在大模型领域超越期待，或将引领马斯克跟进

作者：世界网2026年3月19日科技16 阅读

当小米正式发布了MiMo-V2-Pro大模型之后，我首先想到的是马斯克，而非雷军。

这是因为他的xAI项目目前处境相当尴尬。xAI成立于2023年，融资额超过500亿美元，团队成员包括OpenAI、DeepMind、微软以及谷歌大脑的专家。

最新发布的Grok 4.20 Beta版采用了四agent并行的多智能体架构，通过四个代理（Grok、Harper、Benjamin、Lucas）之间的内部辩论来提升输出质量。

然而，Grok 4.20 Beta在Artificial Analysis Intelligence Index上的评分只有48分，相比之下，小米的MiMo-V2-Pro获得了49分。

小米大模型Core团队首次发布的模型是在2025年4月30日，名为初代MiMo，参数量为7B，属于起步阶段。

不过，MiMo在数学推理和代码生成方面击败了OpenAI o1-mini，标志着小米在AI领域的初步突破。

随后，小米以“Hunter Alpha”为代号悄然上线OpenRouter，一周内自然增长至日榜第一，总量突破1T tokens，全球开发者在不知情的情况下选择了它，随后小米才通过公众号正式宣布。

在大型模型开发方面，雷军似乎比马斯克更有经验。

MiMo-V2-Pro 的实力为何？

小米的起步比马斯克晚了一年。

2023年4月，雷军推动成立了小米AI实验室大模型团队，栾剑担任首任负责人。这个AI团队最初并不是现在所说的大语言模型或agent。

直到2024年底和2025年初，小米才正式成立专注于通用基础大模型的Core团队。

这个团队由雷军亲自推动，并且对大模型业务投入不设上限。

从技术架构上看，MiMo-V2-Pro与市面上的其他模型并无太大差别。

MiMo-V2-Pro的创新在于其训练和部署方法。它采用了MOPD技术，将云端大模型的能力蒸馏到端侧小模型中。

虽然MiMo-V2-Pro在参数规模上达到了1T，但其主要价值在于通过蒸馏技术为端侧设备提供支持。

相较之下，马斯克的Grok项目在特斯拉的应用中显得不够成熟。

MiMo-V2-Pro在特斯拉车机中的部署情况则更为实际，通过云端训练和端侧推理的协同方式，提升了系统的整体性能。

MiMo-V2-Pro作为小米转型为AI公司的关键一步，其意义不仅在于技术本身，更在于对小米整体业务结构的影响。

然而，MiMo-V2-Pro在一些关键测试集上的表现仍然不足。

SWE-bench Verified测试集已被证明不再可靠，而MiMo-V2-Pro未公布其在更难的SWE-bench Pro测试集上的成绩。

此外，MiMo-V2-Pro在其他几个关键测试集中的表现也未公布，这些测试集包括ARC-AGI-2、Frontier Math和LiveCodeBench v6。

这些选择性公布的数据可能反映了MiMo-V2-Pro在某些方面的技术局限性。

另一值得关注的问题是，MiMo-V2-Pro的权重尚未开源。

开发者罗福莉表示，只有当模型足够稳定时才会开源。这表明目前的版本可能还不够成熟。

雷军也承认，模型还需要一段时间的迭代优化。

MiMo-V2-Pro虽然代表了小米向AI公司的转型，但其在实际应用中的表现还需要时间验证。它能否真正融入小米的商业版图，还需拭目以待。

尽管说现在大模型都会强调自己的agent能力如何如何，但是绝大多数模型在强化学习过程中，都是非agent相关的。

模型看一道题，输出一个答案，对完答案给个奖励，整个过程是单轮的、封闭的。

现实世界的任务可不是这样运作的。一个真正的agent需要读代码、改bug、跑测试、看报错、再改、再跑，这是一个包含了多种情况的完整过程。

小米为此构建了一套覆盖四大类场景、总计超过12万个真实交互环境的agent训练体系。

代码agent的训练数据从真实GitHub Issues中提取，模型需要在agent循环中读文件、改代码、跑命令、看测试结果，奖励来自可验证的单元测试。

终端agent从Stack Overflow和Stack Exchange中筛选需要高级技术专长的问题，转化为带有完整Docker环境和测试用例的计算任务。

网页开发agent用Playwright执行生成代码并录制视频，再用多模态视觉判别器评估质量——用视频而非静态截图来评估，因为视频能捕捉交互动画和响应式布局等动态特性。

通用agent覆盖搜索和函数调用两个方向。

其结果就是，在多样化agent 环境中增加强化学习计算量，收益会泛化到数学推理、通用推理等其他任务。也就是说，agent训练培养的不是某个特定技能，而是一种通用的问题解决能力。

别的大模型是在教室里做卷子，MiMo-V2-Pro 是直接被扔进许多个真实工作场景里实习，做错了有真实的测试结果告诉你哪里错了。

实习锻炼出来的模型，比做卷子练出来的，更懂得如何处理问题。

第三项是ARL-Tangram，这是小米与北京大学计算机学院联合研发的Agent RL训练基础设施系统，也是罗福莉作为通讯作者所参与的研究。

MOPD和Agentic RL解决的是“怎么训练”的问题，ARL-Tangram解决的是“用什么训练”的问题。

agent需要频繁调用外部资源，代码执行需要CPU，奖励模型需要GPU，网页搜索需要API配额。传统的RL框架，它的做法是静态资源预留，给每条训练轨迹分配一套固定资源，从头占到尾。

这就导致说即便没有任务，这条通道也被占用，别人想走也走不了。

ARL-Tangram的实测数据显示，在AI编程任务中，外部资源平均只有47%的时间在被使用，剩下53%完全闲置。

在MOPD训练场景中更夸张，12个教师模型各自占着一组GPU提供奖励服务，但这些GPU的平均流式多处理器活跃率不到3%，相当于97%的算力在空转。

ARL-Tangram继承了小米性价比之王的基因，它的核心思路就是细化资源管理，让每一份算力都跑得更有价值。

每次外部调用被视为一个原子动作，动作结束后资源立即释放，供其他轨迹使用。

实测效果：动作完成时间提升最高4.3倍，RL训练步骤时间加速最高1.5 倍，外部资源消耗降低71.2%。

同样的硬件投入，能支撑多得多的训练量。

雷军在V2-Pro发布当天的微博里写了一句话：“我们在 AI 领域上相对比较低调，实际进展可能比大家看到的要快很多。”

确实，小米在AI上的进展，远远超过了我的认知。

MiMo-V2-Pro对小米意味着什么

MiMo-V2-Pro出现之前，小米在软件和AI领域的技术存在感很低。

提到智能驾驶，人们想到的是特斯拉、华为、小鹏；提到大模型，是字节、阿里、腾讯。小米的标签始终是“硬件性价比之王”，雷军的手机、IoT 设备、汽车，都是硬件叙事。

诚然，这个标签帮小米卖出了很多产品，但也把它牢牢钉在了“组装厂”的认知框架里。

雷军自己也清楚这一点。

2023年年度演讲上，他提出了一个新公式：“（软件×硬件）^AI”，宣布小米未来五年研发投入超过1000亿元，重点攻坚芯片、AI和操作系统。

这个公式当时听起来以为雷军是说着玩玩的，结果人家这回来真的。

MiMo-V2-Pro的诞生，第一次让小米在纯技术维度上获得了一个全球级的排名。

Artificial Analysis Intelligence Index全球前十，中国第二。

事实上，我觉得只要能在全球大模型排行榜上占有一席之地，都相当于在资本市场、人才招募、合作谈判中都多了一张手牌。

至少当雷军说“小米是一家AI公司”的时候，能拿出这样一个成果来支撑观点。

但排名只是表面。更值得关注的是 MiMo-V2-Pro 与小米其他业务线之间的潜在协同。

小米汽车的智能驾驶团队在2026年3月刚刚完成组织架构调整，将“感知”和“规控”两个部门合并为“端到端算法与功能部”，全面转向端到端大模型技术路线，目标年内实现端到端智驾交付。

与此同时，小米早在2025年11月就发布了MiMo-Embodied，同步覆盖具身智能和自动驾驶的核心任务——环境感知、状态预测、驾驶规划。

所以MiMo-V2-Pro的这些成绩，说白了那都是给小米汽车打的广告。

MiMo-V2-Pro本身作为1T参数的云端模型，显然无法直接部署到车端，没有哪块车载芯片跑得动这个体量。

但小米的布局逻辑是“云-边-端”协同：云端用V2-Pro级别的大模型做训练、仿真和复杂决策，端侧用压缩后的轻量模型做实时推理。

MiMo-V2-Pro的价值不在于直接上车，而在于作为“教师模型”，通过前面提到的MOPD，将V2-Pro的能力蒸馏到端侧小模型中。

马斯克这边，情况就微妙多了。

Grok在2025年底的一次Holiday Update正式住进了特斯拉的车机里，然而它却只能设导航目、聊聊天，相当于是一个语音助手，它跟FSD之间只有导航链路的浅层联动。

与此同时，特斯拉本身车内控制座舱的AI，是来自于特斯拉自己的，跟xAI关系不大。

2026年3月，马斯克宣布了一个叫“Digital Optimus”的联合项目，说是要让Grok充当“高层推理大脑”。

他用了卡尼曼的双系统理论来类比，Grok是慢思考的System 2，特斯拉AI是快反应的System 1，也就是实时感知和动作执行。

然而仅凭马斯克的想法，我认为它们之间的协同远没有小米“云端大模型蒸馏到车端小模型”这条路径来得清晰。

我给MiMo-V2-Pro挑刺

本文并不是小米的软文，我只是一个AI产业的观察者，所以我在这部分准备给小米挑挑刺，以示公正。

先看Benchmark。

MiMo-V2-Pro公布的SWE-bench Verified得分为78.0%，接近Claude 4.6 Sonnet的79.6%，这是一份关于AI编程的测试集，MiMo-V2-Pro的数字也确实好看。

但这里有一个行业内已经公开的秘密，SWE-bench Verified这个测试集本身已经不再可靠。

OpenAI的Frontier Evals团队在2026年2月23日明确表示，SWE-bench Verified“实际上已经饱和且高度被污染”，并且建议行业转向更难的SWE-bench Pro。

OpenAI的研究人员发现，包括GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview在内的多个前沿模型，仅凭 SWE-bench Verified的Task ID就能复述出原始的gold patch，这就相当于你考试的时候，不用看题目，只看题目的编号就能给出答案。

这意味着测试题目很可能已经进入了训练数据。在这样一个被污染的测试集上拿高分，说服力大打折扣。

MiMo-V2-Pro没有公布SWE-bench Pro的成绩。这个更难、更抗污染的版本才是2026年衡量编码能力的真正标尺。

作为参考，目前SWE-bench Pro上表现最好的模型是OpenAI GPT-5.4，得分仅为57.7%，与SWE-bench Verified上动辄70%以上的成绩形成鲜明对比。

不止SWE-bench Pro。

MiMo-V2-Pro还缺席了另外几个关键的新一代测试集：ARC-AGI-2，专门测试推理泛化能力，纯LLM得分为1%，最佳推理系统仅54%，人类平均60%；Frontier Math，前沿数学推理；LiveCodeBench v6，按月更新的编程评测，几乎不可能被训练数据污染。

一个模型选择公布哪些benchmark、不公布哪些benchmark，本身就是一种信息筛选。

还有一个容易被忽略的问题：MiMo-V2-Flash是MIT开源的，但MiMo-V2-Pro的权重并未开源。

罗福莉在发布声明中说“会开源——当模型足够稳定值得开源的时候”，但在那之前，说明V2-Pro的性能还不够稳定。

雷军说“我们模型刚刚完成，未来一段时间，还会快速迭代增强”。这句话既是承诺，也是对现状的坦率承认。

MiMo-V2-Pro确实还有不少短板需要补。

它是小米从“硬件公司”到“AI公司”叙事转型中最重要的一块拼图，但这块拼图能否真正嵌入小米的商业版图，而不只是挂在墙上供人观赏，还需要时间来回答。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

雷军在大模型领域超越期待，或将引领马斯克跟进

作者：世界网2026年3月19日科技16 阅读

当小米正式发布了MiMo-V2-Pro大模型之后，我首先想到的是马斯克，而非雷军。

这是因为他的xAI项目目前处境相当尴尬。xAI成立于2023年，融资额超过500亿美元，团队成员包括OpenAI、DeepMind、微软以及谷歌大脑的专家。

最新发布的Grok 4.20 Beta版采用了四agent并行的多智能体架构，通过四个代理（Grok、Harper、Benjamin、Lucas）之间的内部辩论来提升输出质量。

然而，Grok 4.20 Beta在Artificial Analysis Intelligence Index上的评分只有48分，相比之下，小米的MiMo-V2-Pro获得了49分。

小米大模型Core团队首次发布的模型是在2025年4月30日，名为初代MiMo，参数量为7B，属于起步阶段。

不过，MiMo在数学推理和代码生成方面击败了OpenAI o1-mini，标志着小米在AI领域的初步突破。

在大型模型开发方面，雷军似乎比马斯克更有经验。

MiMo-V2-Pro 的实力为何？

小米的起步比马斯克晚了一年。

2023年4月，雷军推动成立了小米AI实验室大模型团队，栾剑担任首任负责人。这个AI团队最初并不是现在所说的大语言模型或agent。

直到2024年底和2025年初，小米才正式成立专注于通用基础大模型的Core团队。

这个团队由雷军亲自推动，并且对大模型业务投入不设上限。

从技术架构上看，MiMo-V2-Pro与市面上的其他模型并无太大差别。

MiMo-V2-Pro的创新在于其训练和部署方法。它采用了MOPD技术，将云端大模型的能力蒸馏到端侧小模型中。

虽然MiMo-V2-Pro在参数规模上达到了1T，但其主要价值在于通过蒸馏技术为端侧设备提供支持。

相较之下，马斯克的Grok项目在特斯拉的应用中显得不够成熟。

MiMo-V2-Pro在特斯拉车机中的部署情况则更为实际，通过云端训练和端侧推理的协同方式，提升了系统的整体性能。

MiMo-V2-Pro作为小米转型为AI公司的关键一步，其意义不仅在于技术本身，更在于对小米整体业务结构的影响。

然而，MiMo-V2-Pro在一些关键测试集上的表现仍然不足。

SWE-bench Verified测试集已被证明不再可靠，而MiMo-V2-Pro未公布其在更难的SWE-bench Pro测试集上的成绩。

此外，MiMo-V2-Pro在其他几个关键测试集中的表现也未公布，这些测试集包括ARC-AGI-2、Frontier Math和LiveCodeBench v6。

这些选择性公布的数据可能反映了MiMo-V2-Pro在某些方面的技术局限性。

另一值得关注的问题是，MiMo-V2-Pro的权重尚未开源。

开发者罗福莉表示，只有当模型足够稳定时才会开源。这表明目前的版本可能还不够成熟。

雷军也承认，模型还需要一段时间的迭代优化。

MiMo-V2-Pro虽然代表了小米向AI公司的转型，但其在实际应用中的表现还需要时间验证。它能否真正融入小米的商业版图，还需拭目以待。

尽管说现在大模型都会强调自己的agent能力如何如何，但是绝大多数模型在强化学习过程中，都是非agent相关的。

模型看一道题，输出一个答案，对完答案给个奖励，整个过程是单轮的、封闭的。

现实世界的任务可不是这样运作的。一个真正的agent需要读代码、改bug、跑测试、看报错、再改、再跑，这是一个包含了多种情况的完整过程。

小米为此构建了一套覆盖四大类场景、总计超过12万个真实交互环境的agent训练体系。

代码agent的训练数据从真实GitHub Issues中提取，模型需要在agent循环中读文件、改代码、跑命令、看测试结果，奖励来自可验证的单元测试。

终端agent从Stack Overflow和Stack Exchange中筛选需要高级技术专长的问题，转化为带有完整Docker环境和测试用例的计算任务。

通用agent覆盖搜索和函数调用两个方向。

别的大模型是在教室里做卷子，MiMo-V2-Pro 是直接被扔进许多个真实工作场景里实习，做错了有真实的测试结果告诉你哪里错了。

实习锻炼出来的模型，比做卷子练出来的，更懂得如何处理问题。

第三项是ARL-Tangram，这是小米与北京大学计算机学院联合研发的Agent RL训练基础设施系统，也是罗福莉作为通讯作者所参与的研究。

MOPD和Agentic RL解决的是“怎么训练”的问题，ARL-Tangram解决的是“用什么训练”的问题。

这就导致说即便没有任务，这条通道也被占用，别人想走也走不了。

ARL-Tangram的实测数据显示，在AI编程任务中，外部资源平均只有47%的时间在被使用，剩下53%完全闲置。

在MOPD训练场景中更夸张，12个教师模型各自占着一组GPU提供奖励服务，但这些GPU的平均流式多处理器活跃率不到3%，相当于97%的算力在空转。

ARL-Tangram继承了小米性价比之王的基因，它的核心思路就是细化资源管理，让每一份算力都跑得更有价值。

每次外部调用被视为一个原子动作，动作结束后资源立即释放，供其他轨迹使用。

实测效果：动作完成时间提升最高4.3倍，RL训练步骤时间加速最高1.5 倍，外部资源消耗降低71.2%。

同样的硬件投入，能支撑多得多的训练量。

雷军在V2-Pro发布当天的微博里写了一句话：“我们在 AI 领域上相对比较低调，实际进展可能比大家看到的要快很多。”

确实，小米在AI上的进展，远远超过了我的认知。

MiMo-V2-Pro对小米意味着什么

MiMo-V2-Pro出现之前，小米在软件和AI领域的技术存在感很低。

诚然，这个标签帮小米卖出了很多产品，但也把它牢牢钉在了“组装厂”的认知框架里。

雷军自己也清楚这一点。

2023年年度演讲上，他提出了一个新公式：“（软件×硬件）^AI”，宣布小米未来五年研发投入超过1000亿元，重点攻坚芯片、AI和操作系统。

这个公式当时听起来以为雷军是说着玩玩的，结果人家这回来真的。

MiMo-V2-Pro的诞生，第一次让小米在纯技术维度上获得了一个全球级的排名。

Artificial Analysis Intelligence Index全球前十，中国第二。

事实上，我觉得只要能在全球大模型排行榜上占有一席之地，都相当于在资本市场、人才招募、合作谈判中都多了一张手牌。

至少当雷军说“小米是一家AI公司”的时候，能拿出这样一个成果来支撑观点。

但排名只是表面。更值得关注的是 MiMo-V2-Pro 与小米其他业务线之间的潜在协同。

与此同时，小米早在2025年11月就发布了MiMo-Embodied，同步覆盖具身智能和自动驾驶的核心任务——环境感知、状态预测、驾驶规划。

所以MiMo-V2-Pro的这些成绩，说白了那都是给小米汽车打的广告。

MiMo-V2-Pro本身作为1T参数的云端模型，显然无法直接部署到车端，没有哪块车载芯片跑得动这个体量。

但小米的布局逻辑是“云-边-端”协同：云端用V2-Pro级别的大模型做训练、仿真和复杂决策，端侧用压缩后的轻量模型做实时推理。

MiMo-V2-Pro的价值不在于直接上车，而在于作为“教师模型”，通过前面提到的MOPD，将V2-Pro的能力蒸馏到端侧小模型中。

马斯克这边，情况就微妙多了。

与此同时，特斯拉本身车内控制座舱的AI，是来自于特斯拉自己的，跟xAI关系不大。

2026年3月，马斯克宣布了一个叫“Digital Optimus”的联合项目，说是要让Grok充当“高层推理大脑”。

他用了卡尼曼的双系统理论来类比，Grok是慢思考的System 2，特斯拉AI是快反应的System 1，也就是实时感知和动作执行。

然而仅凭马斯克的想法，我认为它们之间的协同远没有小米“云端大模型蒸馏到车端小模型”这条路径来得清晰。

我给MiMo-V2-Pro挑刺

本文并不是小米的软文，我只是一个AI产业的观察者，所以我在这部分准备给小米挑挑刺，以示公正。

先看Benchmark。

MiMo-V2-Pro公布的SWE-bench Verified得分为78.0%，接近Claude 4.6 Sonnet的79.6%，这是一份关于AI编程的测试集，MiMo-V2-Pro的数字也确实好看。

但这里有一个行业内已经公开的秘密，SWE-bench Verified这个测试集本身已经不再可靠。

OpenAI的Frontier Evals团队在2026年2月23日明确表示，SWE-bench Verified“实际上已经饱和且高度被污染”，并且建议行业转向更难的SWE-bench Pro。

这意味着测试题目很可能已经进入了训练数据。在这样一个被污染的测试集上拿高分，说服力大打折扣。

MiMo-V2-Pro没有公布SWE-bench Pro的成绩。这个更难、更抗污染的版本才是2026年衡量编码能力的真正标尺。

作为参考，目前SWE-bench Pro上表现最好的模型是OpenAI GPT-5.4，得分仅为57.7%，与SWE-bench Verified上动辄70%以上的成绩形成鲜明对比。

不止SWE-bench Pro。

一个模型选择公布哪些benchmark、不公布哪些benchmark，本身就是一种信息筛选。

还有一个容易被忽略的问题：MiMo-V2-Flash是MIT开源的，但MiMo-V2-Pro的权重并未开源。

罗福莉在发布声明中说“会开源——当模型足够稳定值得开源的时候”，但在那之前，说明V2-Pro的性能还不够稳定。

雷军说“我们模型刚刚完成，未来一段时间，还会快速迭代增强”。这句话既是承诺，也是对现状的坦率承认。

MiMo-V2-Pro确实还有不少短板需要补。

“”

雷军在大模型领域超越期待，或将引领马斯克跟进

雷军在大模型领域超越期待，或将引领马斯克跟进

相关文章

相关文章