近日,一款名为“Hunter Alpha”的未知模型在 OpenRouter 平台上引起了广泛讨论,一度成为调用量最高的大模型之一,许多网友猜测其可能是“DeepSeek V4”的早期版本。

3 月 19 日凌晨,小米公司正式确认“Hunter Alpha”为自家产品,并宣布推出 MiMo-V2-Pro、Omni 和 TTS 三款大模型,供用户限时免费试用一周。
小米 MiMo 大模型项目负责人罗福莉随后撰文表示,这标志着小米在智能体时代打造全栈产品的首次尝试。
这可算是一个出乎意料的成功 —— 并非因为我们的刻意准备,而是由于从聊天模式向智能代理模式的转变速度之快,甚至令我们自己也感到惊讶。在这一过程中,既有令人振奋的时刻,也有充满挑战的时期。
该基础模型的训练工作早在几个月前就开始了,初衷是为了提高长上下文推理的效率。混合注意力机制的引入带来了实质性的创新,同时又避免了过度扩展。实践证明,这是智能体时代最为合适的架构基础。1M 的上下文窗口,以及 MTP 推理技术实现了超低延迟和成本效益。这些架构决策并非偶然,而是在需要之前就已经构建好的结构性优势。
真正让人震撼的,是我初次接触到复杂的智能体框架 —— 我称之为“精心编排的上下文”。第一天就让我感到震惊。尽管最初尝试说服团队未果,但我下达了一项指令:明天对话次数少于 100 次的团队成员可以考虑离职。这招果然奏效了,团队的想象力被智能体系统的功能所激发,从而推动了研究速度的提升。
当有人问及小米为何能迅速发展时,我回想自己在开发 DeepSeek R1 时的经历,总结道:
—— 对骨干网和基础设施进行深入研究需要长期的战略决心,方能收获回报。
—— 产品敏捷性则体现在通过产品直觉驱动评估,缩短迭代周期,提早实现范式的转变。
—— 以及那些始终不变的要素:保持好奇心,敏锐的技术洞察力,果断的执行力,以及全身心的投入。
—— 还有一个容易被忽视的关键因素:对所创造世界的真诚热爱。
罗福莉还承诺,一旦 MiMo-V2 系列模型稳定到值得开源时,将会将其开源。

