各大行业都在积极跟进“吃虾”潮流,MiniMax M2.7则更进一步,让它自己掌握了操作的主动权。
大模型自我进化的新纪元已然到来。
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
MiniMax在推出M2.5后仅一个月,便带来了新的重大更新。
他们正式发布了最新的M2.7版本,这次它在执行复杂任务和团队协作方面有了显著提升。
在推理和工程能力方面,M2.7也实现了质的飞跃,能够独立解决生产线上复杂的故障问题。
以往的模型可能只能帮忙写写代码,但现在的M2.7已经能够胜任成熟的SRE工作。
它不仅能够自动监控、精确定位错误并编写脚本来修复漏洞,还能一条龙搞定所有问题。
最具震撼力的是,M2.7能够自主搭建Agent Harness,将思考与实践紧密结合,开启了自我进化之路。
深度整合了OpenClaw长期记忆框架后,无论是虚拟角色扮演还是复杂的Office自动化任务,M2.7都能轻松应对。
目前,M2.7已在MiniMax Agent和开放平台上全面上线,用户可以随时体验它的强大功能。
顶尖的Cowork Agent模型
接下来,我们来看看M2.7的几个重要特点。
首先是指令遵循和多智能体协作能力的显著增强,即使面对复杂的环境和技能组合,M2.7也能稳定地完成任务。
在包含40个复杂技能的场景中,官方测试显示其遵循率高达97%,并且在“龙虾测试”中正确率也达到了62.7%。
此外,M2.7还具备原生多智能体协作能力,无需外部框架即可组建Agent团队,智能体之间能够相互配合完成复杂的长流程任务。

在代码能力方面,M2.7不仅能够生成代码,还能进行代码重构、防止漏洞以及解决复杂的故障。
在SWE-Pro测试中,它的正确率达到了56.22%,与GPT-5.3-Codex持平,并在VIBE-Pro基准测试中取得了高分。
以SRE线上排障为例,一旦发生警报,M2.3会立即关联监控进行原因分析,并通过调用链分析和数据库验证来找到问题,甚至能够先用非阻塞方式建立索引,随后再提交代码合并。
【视频请移步公众号查看】
在办公场景下,M2.7同样表现出色,能够处理复杂的Office文档,支持Excel表格、Word文档和PPT的多轮修改。
在GDPval-AA评测中,它的ELO评分位居开源模型首位,超越了GPT-5.3。
以一家公司的真实案例为例,M2.7能够根据年报和会议资料,自主比对研报并构建营收预测模型。
完成数据分析后,它可以生成Excel透视表,撰写Word版调研报告,并基于模板制作出可以直接用于汇报的PPT,展示出一个初级分析师的水准。
【视频请移步公众号查看】
在角色扮演场景中,M2.7进一步强化了人设的稳定性和对话能力。
它支持十种语言,能够保持跨语言交流时的人格统一。在深度适配长期记忆框架后,它在赛博养崽等场景中表现出色。
基于这一特性,MiniMax官方设计并开源了一个OpenRoom交互系统,让AI融入到各种互动环境中。
在这个充满赛博朋克风格的空间里,对话能够实时产生视觉反馈与场景互动,大大增强了沉浸感。
【视频请移步公众号查看】
经过一番介绍,接下来将通过实际测试来验证M2.7的实力。
一个模型,就能带动整个“AI团队”
首先进行的是多Agent原生协作测试,这一次我们不再模拟“一人公司”,而是让多个Agent模型模拟人类玩游戏。
指令要求M2.7不仅需要组织一个主持人Agent和五个玩家Agent,还要为每个角色编写独立的人设文件。
最后,它还需要开发一个后台程序和前端网页来调度和呈现游戏过程。
这项测试旨在全面检验模型的指令遵循能力、统筹规划能力、多角色扮演稳定性以及全栈代码执行力。

结果,M2.7迅速制定了详细的方案,并以直观的方式呈现出来。

之后,我们对其游戏界面进行了调整,使其更具Minecraft风格,最终效果如图所示。
同时,主持人和五位选手的角色设定也已完成。

点击开始按钮后,六个原生Agent便基于既定规则,在游戏中进行流畅的互动,最终自主完成了整个游戏流程并决出了胜负。

点击开始按钮后,六个原生Agent便开始基于既定规则,在这个游戏房间里进行顺畅交流。
第二个测试是在真实生产环境中检验M2.7的SRE级故障排查与综合推理能力。
我们将一份“案发现场记录”直接丢给M2.7,其中包含了四份复杂生产系统文件。
任务要求它像资深后端架构师一样,找出故障的直接原因和数据库CPU飙升的根本原因,并当场提供排查命令与安全的止血代码。
面对复杂的系统材料,M2.7展现出了非凡的诊断能力,迅速锁定了问题根源,并提供了精准的EXPLAIN命令。
更令人印象深刻的是,它在提供紧急恢复脚本时,使用了PostgreSQL的CONCURRENTLY语法,确保了系统的非阻塞运行。

整个排障流程一气呵成,展示了M2.7在处理复杂系统故障方面的硬实力。

在这些能力的背后,M2.7还具备了自我构建复杂Agent Harness的能力。
通过自主搭建工具箱和操作台,M2.7能够自己创造工具,并在强化学习实验中表现出色。

它不仅能够自动监控状态、排查故障、修改代码,还能提交合并请求和进行冒烟测试。
此外,M2.7还能主动迭代Harness本身,优化内部代码,显著提升了模型的性能。
大模型开始自我进化了
在自主优化机器学习模型的测试中,M2.7通过短时记忆、自反馈和自优化,每次运行后都会生成md文件记住教训,并为下一轮指路。
投入到MLE Lite这种高难度的竞赛题中,M2.7在24小时内自主优化了ML模型,并取得了优异的成绩。
目前整个行业都在紧跟硅谷的风向,努力适应OpenClaw以跟上潮流。
跟进开源脚手架虽然能快速提升体验,但这仍然局限于教会模型使用人类工具。
而MiniMax已经跳出了这个层面,让模型自己创造工具并参与研发,甚至成为自身研发链条的一部分。
这种自我进化的主动能力,将决定下一代大模型的核心竞争力。

具备这种能力的MiniMax M2.7,已经领先一步进入了模型自我迭代的新时代。
在优化内部Agent Harness代码的测试中,M2.7全程自主把控,通过反复试错,成功摸索出了优化路径,让模型在内部评测集上的效果直接拔高了30%。
再进一步,就是模型自己去训练和升级机器学习模型,这也是它能持续提升算法性能的关键。
M2.7靠短时记忆、自反馈和自优化这三招,每次跑完一轮都会生成md文件记住教训并给下一轮指路。
把它扔进MLE Lite这种极高难度的22道竞赛题里,给足24小时让它去自主优化ML模型,最终它拿下了9金5银1铜的成绩。
眼下整个行业都在紧盯硅谷风向,跟着一起疯狂吃虾,忙着适配OpenClaw来追赶热度。
跟进开源脚手架确实能快速补齐体验,但这依然停留在教模型怎么用人类工具的层面。
但就在此时,MiniMax已经切入了下一个更重要的论题,也就是让模型自己造工具搞研发,甚至成为自身研发链条的一环。
这种主动进化的能力,正是决定下一代大模型核心竞争力的分水岭。
具备了这般能力的MiniMax M2.7,已经抢先开启了模型自我迭代的新纪元。

克雷西