
新智元报道
最近,MiniMax M2.7在海外开发者社区引起了广泛关注,其热度直线上升,排名迅速攀升。这款软件的独特之处在于它多智能体协作和自进化的能力,赢得了全球开发者的高度评价。经过测试,我们发现这款AI新宠确实在各方面表现出色,名副其实。
MiniMax M2.7的发布,让开发者们感到震撼。
自从发布以来,它在全球开发者社区内引发了热烈的讨论。



无需赘述,这款软件的创新之处在于其多智能体协作能力和自进化功能,吸引了无数关注的目光。
构建一个智能体,所需的成本仅仅是Opus的十分之一,这让开发者们赞不绝口。

有人认为,开源模型和闭源模型之间的差距正在缩小,前沿实验室应当对此保持警惕。

据悉,就在昨天,它在PinchBench榜单上取得了全球第四和国产第一的好成绩。

此次MiniMax M2.7的发布,与之前M2.5版本发布时的情况如出一辙,热度席卷全球。

在OpenRouter平台上,大模型的吞吐量已经超过了一千万亿Token,MiniMax M2.5连续四周占据榜首。
在最近的GTC大会上,老黄对全球流行的开源项目OpenClaw给予了高度评价,该项目的增长速度甚至超过了Linux几十年来的增速。
英伟达迅速跟进,并与OpenClaw的核心作者合作,推出了NemoClaw。
老黄的背书使得OpenClaw的生态系统成为了焦点,因为MiniMax正是这个生态系统中的重要组成部分,为OpenClaw提供了必要的大模型算力支持。
在GTC大会期间,MiniMax M2.7应运而生,其执行复杂任务和智能体协作的能力与大会主题完美契合。
此外,它的自进化能力也令人印象深刻,仿佛是一个能够自我进化的团队成员,能够自行迭代和优化自身性能。
M2.7的真正实力如何?是否值得尝试?
新一轮的测评结果已经出炉,为用户提供了全面的参考。
强大的协作代理模型已经上线
测试表明,M2.7的升级带来了许多惊喜。
其中,Agent Team&Coding模块尤为突出,模型不再单独作业,而是具备了原生的多智能体协作能力,无需复杂框架即可分工合作。
在代码方面,M2.7的能力也有了显著提升,不仅能处理日志和修复错误,还能进行代码重构,并且更注重安全性,涵盖诸如ML工程和安卓开发等实际场景。
在数字化办公方面,其在Excel、Word、PPT上的表现极为流畅。
总结来说,M2.7是一个既能够处理任务又能协作,同时还具备娱乐功能的强大模型。
多智能体协同的顶尖Cowork Agent模型
M2.7的一大亮点在于其原生的多智能体协作能力。
在这种情况下,模型能够稳定地扮演不同的角色,主动挑战逻辑与伦理的盲区,并在复杂的决策环境中自主操作,这些功能都内置于模型中。

因此,M2.7是目前最佳的Cowork Agent模型,尤其擅长在多技能交织的复杂环境中执行长链任务。
为了验证这一点,我们让M2.7构建了一个多Agent狼人杀模拟系统,每个角色由独立的代理来扮演,模拟真人进行推理、发言和投票,同时还需要制作一个展示游戏过程的网站。
这项复杂性极高的测试,全面考验了模型的长链任务规划、多Agent建模、角色一致性、推理与博弈等综合能力。
这项测试不仅要求模型具有思维能力,还要能够付诸实践,这符合我们对未来Cowork Agent形态的设想。
不久,M2.7就完成了一个多Agent协作的狼人杀模拟系统,其中包括各种角色和互动。

在金融分析领域,M2.7也表现出色。

比如,我们要求它对某上市公司近三年的财务数据进行分析和预测。
它迅速生成了一份详细的财务分析报告,包括盈利能力指标、收益能力指标、财务结构指标、现金流指标、估值分析结果,以及2025-2027的财务预测。


这对于金融工作者来说,无疑是一个非常实用的功能。


M2.7:迈向自我进化
自我进化已经成为全球大模型的重要发展趋势。

在大模型能力接近实际应用的当下,能否实现自我优化成为了一个关键问题。


硅谷大厂们在这方面已经取得了显著成果。

Anthropic内部发现,模型已经展现出递归自我提升的迹象,这预示着一个新时代的到来;OpenAI则强调,AI研究的自动化和自我改进是技术突破的关键;谷歌DeepMind通过各种项目,如AlphaTensor、AlphaCode、Gemini 3 Deep Think、AlphaEvolve,构建了递归式的自我进化体系。

MiniMax团队在M2.7上所进行的尝试,为业界提供了一种新的参考模式。

此次,他们没有单纯提升模型能力,而是致力于构建一个“模型驱动模型进化”的系统,其中的核心是研究型Agent Harness。

该团队仅用一个人四天的时间,零人工编码,就自主搭建了一个包含CI、测试、代码审查在内的开发Agent Harness。

这个系统整合了数据流水线、训练环境、评测基础设施、跨团队协作以及持久化记忆,使模型能够直接参与到研发流程中,而不仅仅是执行指令。
在实践中,研究人员只需要提出方向,如一个RL实验的方法,而模型则承担了大部分执行工作,包括文献调研、实验方案跟踪、数据流水线搭建与实验启动。
在运行过程中,Agent还会自动监控实验状态,分析日志,排查问题,进行指标分析,甚至直接修改代码并提交合并请求,同时完成冒烟测试等流程。
通常,这些工作需要人类团队协作完成,而M2.7却承担了其中30%到50%的工作流。
甚至,研究者还让M2.7参与到了Agent Harness的迭代过程中。
他们命令M2.7去优化某个内部scaffold上模型的软件工程开发表现。
M2.7全程自主运行,对于“分析失败轨迹 → 规划改动 → 修改 scaffold 代码 → 运行评测 → 对比结果 → 决定保留或回退”这一迭代循环,执行了超过100轮。
这一过程中,M2.7确实发现了一些针对模型的有效优化,最终在评测集上的效果提升了30%!

M2.7:持续验证自我优化机制
从科研能力的角度来看,这种“自我优化”机制也得到了验证。
团队基于一个包含短时记忆、自反馈与自优化模块的简易脚手架,让M2.7在MLE Bench Lite的22个机器学习任务中持续迭代。
每一轮,模型都会生成记忆文件,并对当前结果进行自反馈,再基于历史信息进行下一轮优化。
在三次24小时的独立实验中,M2.7的表现随时间持续提升。最佳成绩为9金、5银、1铜,三次平均得牌率为66.6%,与Gemini-3.1持平,仅次于Opus-4.6(75.7%)和GPT-5.4(71.2%)。


这些结果表明,M2.7成功验证了一种新的范式——在闭环系统中,通过记忆与反馈机制,持续优化自身性能。
它成功地证明了自己有能力真正迭代和优化某个机器学习模型的效果。
彩蛋:OpenRoom里的人形虾登场

随着M2.7在人设保持与对话能力上的大幅提升,MiniMax还推出了一项有趣的开源项目——OpenRoom。
该项目不再是传统的对话框,而是一个充满互动的Web空间:你说一句话,场景就会实时变化,角色也会做出反应,甚至主动和环境产生互动。

在这个小屋里,你可以体验到AI带来的沉浸式互动,角色们有自己的情绪,仿佛真正活在这个房间。
看来,AI自我进化的终极交互形式,就是多模态人形虾。
MiniMax M2.7:开启模型的自我进化之旅。
硅谷大厂们都已经在这条路上取得了成果。
Anthropic内部已经发现:模型有了递归自我提升的迹象,这个时代将提前到来;OpenAI强调,AI研究的自动化、自我改进,将是技术起飞的开始;谷歌DeepMind,则通过AlphaTensor、AlphaCode、Gemini 3 Deep Think、AlphaEvolve等等,构建了递归式的自我进化。
而MiniMax团队在M2.7上进行的探索,给业界提供了一种新的参考范例。
这一次,他们没有单纯提升模型能力,而是尝试构建一个「模型驱动模型进化」的体系,其中的核心,就是一个研究型Agent Harness。
团队让M2系列模型以解决方案架构师身份,仅用1人4天、零人工编码,就自主搭建了包含CI、测试、代码审查的开发Agent harness。

这个系统整合了数据流水线、训练环境、评测基础设施、跨团队协作以及持久化记忆,使模型能够直接参与到研发流程中,而不仅仅是执行指令。
在实践中,人类研究员只需要提出方向,比如一个RL实验的方法,而模型则需要承担大部分执行工作,包括从文献调研、实验方案跟踪,到数据流水线搭建与实验启动。
而且在运行过程中,Agent还会自动监控实验状态,分析日志,排查问题,进行指标分析,甚至直接修改代码并提交合并请求,同时完成冒烟测试等流程。
原本,这些工作都要人类团队协作完成,结果,M2.7竟然承担了其中30%到50%的工作流。
甚至,研究者还让M2.7,直接参与到了Agent Harness的迭代中。
他们给出命令,让M2.7去优化某个内部scaffold上模型的软件工程开发表现。
它全程自主运行,对于「分析失败轨迹 → 规划改动 → 修改 scaffold 代码 → 运行评测 → 对比结果 → 决定保留或回退」这个迭代循环,执行了超过100轮。
这个过程中,M2.7竟然真的发现了针对模型的有效优化,最终在评测集上效果提升了30%!
M2.7,持续验证自优化机制
在科研能力层面,这种「自优化」机制也得到了验证。
团队基于一个包含短时记忆、自反馈与自优化模块的简易脚手架,让M2.7在MLE Bench Lite的22个机器学习任务中进行持续迭代。

每一轮,模型都会生成记忆文件,并对当前结果进行自反馈,再基于历史信息进行下一轮优化。
结果,在三次24小时的独立实验中,M2.7的表现随时间持续提升。最佳成绩为9金、5银、1铜,三次平均得牌率达到66.6%,与Gemini-3.1持平,仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%)。

这就证明,M2.7成功验证了一种全新的范式——在闭环系统中,通过记忆与反馈机制,持续优化自身表现。
它成功证明,自己有能力真正去迭代某个机器学习模型的效果!
彩蛋:OpenRoom里的人形虾来了
有趣的是,随着M2.7在人设保持与对话能力上的大幅提升,MiniMax还推出了一个很有意思的开源项目——OpenRoom。
它不再是冷冰冰的对话框,而是一个万物皆可互动的Web空间:你说一句话,场景就会实时变化,角色也会做出反应,甚至主动和环境产生互动。
这间小屋中,你可以体验AI的超绝沉浸感,角色们有自己的情绪,仿佛真正活在这个房间。
看来,AI自我进化的终极交互形式,就是多模态人形虾!
参考资料:
MiniMax M2.7: 开启模型的自我进化
