
当小米正式发布了MiMo-V2-Pro大模型之后,我首先想到的是马斯克,而非雷军。
这是因为他的xAI项目目前处境相当尴尬。xAI成立于2023年,融资额超过500亿美元,团队成员包括OpenAI、DeepMind、微软以及谷歌大脑的专家。
最新发布的Grok 4.20 Beta版采用了四agent并行的多智能体架构,通过四个代理(Grok、Harper、Benjamin、Lucas)之间的内部辩论来提升输出质量。
然而,Grok 4.20 Beta在Artificial Analysis Intelligence Index上的评分只有48分,相比之下,小米的MiMo-V2-Pro获得了49分。
小米大模型Core团队首次发布的模型是在2025年4月30日,名为初代MiMo,参数量为7B,属于起步阶段。
不过,MiMo在数学推理和代码生成方面击败了OpenAI o1-mini,标志着小米在AI领域的初步突破。
随后,小米以“Hunter Alpha”为代号悄然上线OpenRouter,一周内自然增长至日榜第一,总量突破1T tokens,全球开发者在不知情的情况下选择了它,随后小米才通过公众号正式宣布。
在大型模型开发方面,雷军似乎比马斯克更有经验。
01
MiMo-V2-Pro 的实力为何?
小米的起步比马斯克晚了一年。
2023年4月,雷军推动成立了小米AI实验室大模型团队,栾剑担任首任负责人。这个AI团队最初并不是现在所说的大语言模型或agent。
直到2024年底和2025年初,小米才正式成立专注于通用基础大模型的Core团队。
这个团队由雷军亲自推动,并且对大模型业务投入不设上限。
从技术架构上看,MiMo-V2-Pro与市面上的其他模型并无太大差别。
MiMo-V2-Pro的创新在于其训练和部署方法。它采用了MOPD技术,将云端大模型的能力蒸馏到端侧小模型中。
虽然MiMo-V2-Pro在参数规模上达到了1T,但其主要价值在于通过蒸馏技术为端侧设备提供支持。
相较之下,马斯克的Grok项目在特斯拉的应用中显得不够成熟。
MiMo-V2-Pro在特斯拉车机中的部署情况则更为实际,通过云端训练和端侧推理的协同方式,提升了系统的整体性能。
MiMo-V2-Pro作为小米转型为AI公司的关键一步,其意义不仅在于技术本身,更在于对小米整体业务结构的影响。
然而,MiMo-V2-Pro在一些关键测试集上的表现仍然不足。
SWE-bench Verified测试集已被证明不再可靠,而MiMo-V2-Pro未公布其在更难的SWE-bench Pro测试集上的成绩。
此外,MiMo-V2-Pro在其他几个关键测试集中的表现也未公布,这些测试集包括ARC-AGI-2、Frontier Math和LiveCodeBench v6。
这些选择性公布的数据可能反映了MiMo-V2-Pro在某些方面的技术局限性。
另一值得关注的问题是,MiMo-V2-Pro的权重尚未开源。
开发者罗福莉表示,只有当模型足够稳定时才会开源。这表明目前的版本可能还不够成熟。
雷军也承认,模型还需要一段时间的迭代优化。
MiMo-V2-Pro虽然代表了小米向AI公司的转型,但其在实际应用中的表现还需要时间验证。它能否真正融入小米的商业版图,还需拭目以待。
尽管说现在大模型都会强调自己的agent能力如何如何,但是绝大多数模型在强化学习过程中,都是非agent相关的。
模型看一道题,输出一个答案,对完答案给个奖励,整个过程是单轮的、封闭的。
现实世界的任务可不是这样运作的。一个真正的agent需要读代码、改bug、跑测试、看报错、再改、再跑,这是一个包含了多种情况的完整过程。
小米为此构建了一套覆盖四大类场景、总计超过12万个真实交互环境的agent训练体系。
代码agent的训练数据从真实GitHub Issues中提取,模型需要在agent循环中读文件、改代码、跑命令、看测试结果,奖励来自可验证的单元测试。
终端agent从Stack Overflow和Stack Exchange中筛选需要高级技术专长的问题,转化为带有完整Docker环境和测试用例的计算任务。
网页开发agent用Playwright执行生成代码并录制视频,再用多模态视觉判别器评估质量——用视频而非静态截图来评估,因为视频能捕捉交互动画和响应式布局等动态特性。
通用agent覆盖搜索和函数调用两个方向。
其结果就是,在多样化agent 环境中增加强化学习计算量,收益会泛化到数学推理、通用推理等其他任务。也就是说,agent训练培养的不是某个特定技能,而是一种通用的问题解决能力。
别的大模型是在教室里做卷子,MiMo-V2-Pro 是直接被扔进许多个真实工作场景里实习,做错了有真实的测试结果告诉你哪里错了。
实习锻炼出来的模型,比做卷子练出来的,更懂得如何处理问题。
第三项是ARL-Tangram,这是小米与北京大学计算机学院联合研发的Agent RL训练基础设施系统,也是罗福莉作为通讯作者所参与的研究。
MOPD和Agentic RL解决的是“怎么训练”的问题,ARL-Tangram解决的是“用什么训练”的问题。
agent需要频繁调用外部资源,代码执行需要CPU,奖励模型需要GPU,网页搜索需要API配额。 传统的RL框架,它的做法是静态资源预留,给每条训练轨迹分配一套固定资源,从头占到尾。
这就导致说即便没有任务,这条通道也被占用,别人想走也走不了。
ARL-Tangram的实测数据显示,在AI编程任务中,外部资源平均只有47%的时间在被使用,剩下53%完全闲置。
在MOPD训练场景中更夸张,12个教师模型各自占着一组GPU提供奖励服务,但这些GPU的平均流式多处理器活跃率不到3%,相当于97%的算力在空转。
ARL-Tangram继承了小米性价比之王的基因,它的核心思路就是细化资源管理,让每一份算力都跑得更有价值。
每次外部调用被视为一个原子动作,动作结束后资源立即释放,供其他轨迹使用。
实测效果:动作完成时间提升最高4.3倍,RL训练步骤时间加速最高1.5 倍,外部资源消耗降低71.2%。
同样的硬件投入,能支撑多得多的训练量。
雷军在V2-Pro发布当天的微博里写了一句话:“我们在 AI 领域上相对比较低调,实际进展可能比大家看到的要快很多。”

确实,小米在AI上的进展,远远超过了我的认知。
02
MiMo-V2-Pro对小米意味着什么
MiMo-V2-Pro出现之前,小米在软件和AI领域的技术存在感很低。
提到智能驾驶,人们想到的是特斯拉、华为、小鹏;提到大模型,是字节、阿里、腾讯。小米的标签始终是“硬件性价比之王”,雷军的手机、IoT 设备、汽车,都是硬件叙事。
诚然,这个标签帮小米卖出了很多产品,但也把它牢牢钉在了“组装厂”的认知框架里。
雷军自己也清楚这一点。
2023年年度演讲上,他提出了一个新公式:“(软件×硬件)^AI”,宣布小米未来五年研发投入超过1000亿元,重点攻坚芯片、AI和操作系统。
这个公式当时听起来以为雷军是说着玩玩的,结果人家这回来真的。
MiMo-V2-Pro的诞生,第一次让小米在纯技术维度上获得了一个全球级的排名。
Artificial Analysis Intelligence Index全球前十,中国第二。
事实上,我觉得只要能在全球大模型排行榜上占有一席之地,都相当于在资本市场、人才招募、合作谈判中都多了一张手牌。
至少当雷军说“小米是一家AI公司”的时候,能拿出这样一个成果来支撑观点。
但排名只是表面。更值得关注的是 MiMo-V2-Pro 与小米其他业务线之间的潜在协同。
小米汽车的智能驾驶团队在2026年3月刚刚完成组织架构调整,将“感知”和“规控”两个部门合并为“端到端算法与功能部”,全面转向端到端大模型技术路线,目标年内实现端到端智驾交付。
与此同时,小米早在2025年11月就发布了MiMo-Embodied,同步覆盖具身智能和自动驾驶的核心任务——环境感知、状态预测、驾驶规划。
所以MiMo-V2-Pro的这些成绩,说白了那都是给小米汽车打的广告。
MiMo-V2-Pro本身作为1T参数的云端模型,显然无法直接部署到车端,没有哪块车载芯片跑得动这个体量。
但小米的布局逻辑是“云-边-端”协同:云端用V2-Pro级别的大模型做训练、仿真和复杂决策,端侧用压缩后的轻量模型做实时推理。
MiMo-V2-Pro的价值不在于直接上车,而在于作为“教师模型”,通过前面提到的MOPD,将V2-Pro的能力蒸馏到端侧小模型中。
马斯克这边,情况就微妙多了。
Grok在2025年底的一次Holiday Update正式住进了特斯拉的车机里,然而它却只能设导航目、聊聊天,相当于是一个语音助手,它跟FSD之间只有导航链路的浅层联动。

与此同时,特斯拉本身车内控制座舱的AI,是来自于特斯拉自己的,跟xAI关系不大。
2026年3月,马斯克宣布了一个叫“Digital Optimus”的联合项目,说是要让Grok充当“高层推理大脑”。
他用了卡尼曼的双系统理论来类比,Grok是慢思考的System 2,特斯拉AI是快反应的System 1,也就是实时感知和动作执行。
然而仅凭马斯克的想法,我认为它们之间的协同远没有小米“云端大模型蒸馏到车端小模型”这条路径来得清晰。
03
我给MiMo-V2-Pro挑刺
本文并不是小米的软文,我只是一个AI产业的观察者,所以我在这部分准备给小米挑挑刺,以示公正。
先看Benchmark。
MiMo-V2-Pro公布的SWE-bench Verified得分为78.0%,接近Claude 4.6 Sonnet的79.6%,这是一份关于AI编程的测试集,MiMo-V2-Pro的数字也确实好看。
但这里有一个行业内已经公开的秘密,SWE-bench Verified这个测试集本身已经不再可靠。
OpenAI的Frontier Evals团队在2026年2月23日明确表示,SWE-bench Verified“实际上已经饱和且高度被污染”,并且建议行业转向更难的SWE-bench Pro。
OpenAI的研究人员发现,包括GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview在内的多个前沿模型,仅凭 SWE-bench Verified的Task ID就能复述出原始的gold patch,这就相当于你考试的时候,不用看题目,只看题目的编号就能给出答案。
这意味着测试题目很可能已经进入了训练数据。在这样一个被污染的测试集上拿高分,说服力大打折扣。

MiMo-V2-Pro没有公布SWE-bench Pro的成绩。这个更难、更抗污染的版本才是2026年衡量编码能力的真正标尺。
作为参考,目前SWE-bench Pro上表现最好的模型是OpenAI GPT-5.4,得分仅为57.7%,与SWE-bench Verified上动辄70%以上的成绩形成鲜明对比。
不止SWE-bench Pro。
MiMo-V2-Pro还缺席了另外几个关键的新一代测试集:ARC-AGI-2,专门测试推理泛化能力,纯LLM得分为1%,最佳推理系统仅54%,人类平均60%;Frontier Math,前沿数学推理;LiveCodeBench v6,按月更新的编程评测,几乎不可能被训练数据污染。
一个模型选择公布哪些benchmark、不公布哪些benchmark,本身就是一种信息筛选。
还有一个容易被忽略的问题:MiMo-V2-Flash是MIT开源的,但MiMo-V2-Pro的权重并未开源。
罗福莉在发布声明中说“会开源——当模型足够稳定值得开源的时候”,但在那之前,说明V2-Pro的性能还不够稳定。
雷军说“我们模型刚刚完成,未来一段时间,还会快速迭代增强”。这句话既是承诺,也是对现状的坦率承认。
MiMo-V2-Pro确实还有不少短板需要补。
它是小米从“硬件公司”到“AI公司”叙事转型中最重要的一块拼图,但这块拼图能否真正嵌入小米的商业版图,而不只是挂在墙上供人观赏,还需要时间来回答。
