- 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
MiniMax团队在短短一个月内,迅速推出了M2.7版本,带来了重大的功能升级。
此次更新,M2.7在执行复杂任务和多智能体协同方面有了显著提升。
它不仅在推理和工程能力上实现了飞跃,还能够独立解决生产线上出现的技术难题。
与之前的版本相比,M2.7已经成长为一个成熟的SRE专家,能够自动关联监控,精准定位并修复漏洞。
它甚至能够自主搭建Agent Harness,将思考与行动结合,开启了自我进化的模式。
通过深度集成OpenClaw长期记忆框架,M2.7现在可以处理更复杂的任务,无论是情感互动还是办公自动化需求,都能游刃有余。
目前,M2.7已在MiniMax Agent和开放平台上全面上线,用户可以立即体验其强大功能。
现在,M2.7已经在MiniMax Agent和开放平台全量上线了,大家随时可以去体验一把。
最佳Cowork Agent模型
现在,让我们来看看M2.7有哪些引人注目的特性。
它在遵循指令和多智能体协作方面有了明显的进步,能够稳定地处理含有大量技能的复杂环境。
在官方测试中,M2.7在包含40个复杂技能的环境中,仍然能够保持97%的遵循率,并在MM-Claw的“龙虾测试”中达到了62.7%的正确率,接近Claude Sonnet 4.6的水平。
M2.7还具备原生的多智能体协作能力,无需外部框架就能组建智能体团队。

在执行力层面,M2.7在代码生成、重构、防漏洞及复杂排障方面表现出色。
在SWE-Pro测试中,它以56.22%的正确率追平了GPT-5.3-Codex,并在端到端项目交付的VIBE-Pro基准测试中取得了高分。
在SRE线上排障方面,M2.7能在收到告警时关联监控推导原因,通过分析调用链并验证数据库,查出漏掉的索引文件,然后使用非阻塞方式修复问题。
【视频请移步公众号查看】
在办公场景中,M2.7同样表现出色,可以处理复杂的Office文档,支持Excel、Word和PPT的多轮修改。
在GDPval-AA评测中,M2.7的ELO评分位居开源首位,超过了GPT-5.3。
举例来说,当给它提供年报和沟通会资料时,它可以自主比对研报并构建营收预测模型。
它还能生成Excel透视表,撰写Word版调研报告,并基于模板生成可以直接汇报的PPT,具备初级分析师的水平。
【视频请移步公众号查看】
在互动角色扮演场景中,M2.7也有了显著的提升,人设更加稳定,对话情商更高。
它支持十种语言,跨语言交流时人格统一,深度适配长期记忆框架后,能够在游戏中保持身份认同。
MiniMax团队还开源了一个OpenRoom交互系统,将AI融入各种互动环境中。
在这个虚拟环境中,对话可以实时产生视觉反馈与场景互动,极大地增强了沉浸感。
【视频请移步公众号查看】
说完理论,让我们来看看实际效果。
M2.7能够带动整个“AI团队”
第一个测试是多Agent原生协作,要求M2.7模拟人类玩游戏,并搭建一个“谁是卧底”的游戏框架。
它需要统筹1个主持人Agent和5个玩家Agent,并为每个角色撰写独立的人设文件。
还要开发一个后台程序和前端网页,来调度和展示游戏过程。
这次测试不仅考验了模型的指令遵循能力,还考验了其统筹规划和多角色扮演的能力。

结果,M2.7成功地完成了整个任务,并整理成易于理解的格式。

根据反馈,我们对页面布局进行了一些调整,M2.7随后进行了改进。
开始时,游戏界面较为简单,但功能完整,我们将其调整为Minecraft风格。

同时,主持人和玩家的角色设定也得到了完善。

点击开始按钮后,六个Agent便开始按照规则进行互动。
最终,游戏流程顺利进行,并产生了胜负。
【视频请移步公众号查看】
第二个测试是模拟真实生产环境,检验M2.7的故障排查能力。
在这个任务中,我们给M2.7提供了一份“案发现场记录”,其中包括四份复杂生产系统文件。
它需要像资深架构师一样,找出故障原因并写出排查命令与修复代码。

面对复杂的系统材料,M2.7迅速定位了问题,并提供了精准的EXPLAIN命令。

在提供紧急恢复脚本时,它还使用了PostgreSQL的CONCURRENTLY语法,展现了对生产环境安全规范的理解。
此外,它还提供了完整的数据库迁移文件代码,完全符合提交合并请求的标准。

整个排障过程顺畅,展示了M2.7在复杂系统中的强大故障排查能力。

除此之外,M2.7还具备自我构建复杂Agent Harness的能力。
大模型开始自我进化了
Agent Harness是模型与现实环境交互的工具,M2.7已经能够自主创建这些工具。
在强化学习实验中,只需提供一个初始想法,M2.7就能独立完成实验。
它会持续监控状态,自动排查故障、改写代码,甚至完成提交合并请求和冒烟测试。
更进一步,M2.7还能主动迭代优化自身,提升模型性能。
在优化内部Agent Harness的测试中,M2.7自主完成了优化,提升了30%的内部评测集效果。
通过短时记忆、自反馈和自优化,M2.7每次运行后都会生成md文件,记录经验和指导下一步。

在MLE Lite竞赛中,M2.7自主优化ML模型,取得了9金5银1铜的成绩。
目前,整个行业都在关注硅谷的最新趋势,跟进OpenClaw的进展。
而MiniMax则更进一步,让模型自我研发,成为自身研发链条的一部分。
这种主动进化的能力,决定了下一代大模型的核心竞争力。
具备这种能力的MiniMax M2.7,已经领先一步进入了自我迭代的新纪元。
眼下整个行业都在紧盯硅谷风向,跟着一起疯狂吃虾,忙着适配OpenClaw来追赶热度。
跟进开源脚手架确实能快速补齐体验,但这依然停留在教模型怎么用人类工具的层面。
但就在此时,MiniMax已经切入了下一个更重要的论题,也就是让模型自己造工具搞研发,甚至成为自身研发链条的一环
这种主动进化的能力,正是决定下一代大模型核心竞争力的分水岭。
具备了这般能力的MiniMax M2.7,已经抢先开启了模型自我迭代的新纪元。
