各大行业都在积极跟进“吃虾”潮流，MiniMax M2.7则更进一步，让它自己掌握了操作的主动权。

克雷西 2026-03-18 21:25:01 量子位

大模型自我进化的新纪元已然到来。

克雷西发自凹非寺
量子位 | 公众号 QbitAI

MiniMax在推出M2.5后仅一个月，便带来了新的重大更新。

他们正式发布了最新的M2.7版本，这次它在执行复杂任务和团队协作方面有了显著提升。

在推理和工程能力方面，M2.7也实现了质的飞跃，能够独立解决生产线上复杂的故障问题。

以往的模型可能只能帮忙写写代码，但现在的M2.7已经能够胜任成熟的SRE工作。

它不仅能够自动监控、精确定位错误并编写脚本来修复漏洞，还能一条龙搞定所有问题。

最具震撼力的是，M2.7能够自主搭建Agent Harness，将思考与实践紧密结合，开启了自我进化之路。

深度整合了OpenClaw长期记忆框架后，无论是虚拟角色扮演还是复杂的Office自动化任务，M2.7都能轻松应对。

目前，M2.7已在MiniMax Agent和开放平台上全面上线，用户可以随时体验它的强大功能。

顶尖的Cowork Agent模型

接下来，我们来看看M2.7的几个重要特点。

首先是指令遵循和多智能体协作能力的显著增强，即使面对复杂的环境和技能组合，M2.7也能稳定地完成任务。

在包含40个复杂技能的场景中，官方测试显示其遵循率高达97%，并且在“龙虾测试”中正确率也达到了62.7%。

此外，M2.7还具备原生多智能体协作能力，无需外部框架即可组建Agent团队，智能体之间能够相互配合完成复杂的长流程任务。

在代码能力方面，M2.7不仅能够生成代码，还能进行代码重构、防止漏洞以及解决复杂的故障。

在SWE-Pro测试中，它的正确率达到了56.22%，与GPT-5.3-Codex持平，并在VIBE-Pro基准测试中取得了高分。

以SRE线上排障为例，一旦发生警报，M2.3会立即关联监控进行原因分析，并通过调用链分析和数据库验证来找到问题，甚至能够先用非阻塞方式建立索引，随后再提交代码合并。

【视频请移步公众号查看】

在办公场景下，M2.7同样表现出色，能够处理复杂的Office文档，支持Excel表格、Word文档和PPT的多轮修改。

在GDPval-AA评测中，它的ELO评分位居开源模型首位，超越了GPT-5.3。

以一家公司的真实案例为例，M2.7能够根据年报和会议资料，自主比对研报并构建营收预测模型。

完成数据分析后，它可以生成Excel透视表，撰写Word版调研报告，并基于模板制作出可以直接用于汇报的PPT，展示出一个初级分析师的水准。

【视频请移步公众号查看】

在角色扮演场景中，M2.7进一步强化了人设的稳定性和对话能力。

它支持十种语言，能够保持跨语言交流时的人格统一。在深度适配长期记忆框架后，它在赛博养崽等场景中表现出色。

基于这一特性，MiniMax官方设计并开源了一个OpenRoom交互系统，让AI融入到各种互动环境中。

在这个充满赛博朋克风格的空间里，对话能够实时产生视觉反馈与场景互动，大大增强了沉浸感。

【视频请移步公众号查看】

经过一番介绍，接下来将通过实际测试来验证M2.7的实力。

一个模型，就能带动整个“AI团队”

首先进行的是多Agent原生协作测试，这一次我们不再模拟“一人公司”，而是让多个Agent模型模拟人类玩游戏。

指令要求M2.7不仅需要组织一个主持人Agent和五个玩家Agent，还要为每个角色编写独立的人设文件。

最后，它还需要开发一个后台程序和前端网页来调度和呈现游戏过程。

这项测试旨在全面检验模型的指令遵循能力、统筹规划能力、多角色扮演稳定性以及全栈代码执行力。

结果，M2.7迅速制定了详细的方案，并以直观的方式呈现出来。

之后，我们对其游戏界面进行了调整，使其更具Minecraft风格，最终效果如图所示。

同时，主持人和五位选手的角色设定也已完成。

点击开始按钮后，六个原生Agent便基于既定规则，在游戏中进行流畅的互动，最终自主完成了整个游戏流程并决出了胜负。

点击开始按钮后，六个原生Agent便开始基于既定规则，在这个游戏房间里进行顺畅交流。

第二个测试是在真实生产环境中检验M2.7的SRE级故障排查与综合推理能力。

我们将一份“案发现场记录”直接丢给M2.7，其中包含了四份复杂生产系统文件。

任务要求它像资深后端架构师一样，找出故障的直接原因和数据库CPU飙升的根本原因，并当场提供排查命令与安全的止血代码。

面对复杂的系统材料，M2.7展现出了非凡的诊断能力，迅速锁定了问题根源，并提供了精准的EXPLAIN命令。

更令人印象深刻的是，它在提供紧急恢复脚本时，使用了PostgreSQL的CONCURRENTLY语法，确保了系统的非阻塞运行。

整个排障流程一气呵成，展示了M2.7在处理复杂系统故障方面的硬实力。

在这些能力的背后，M2.7还具备了自我构建复杂Agent Harness的能力。

通过自主搭建工具箱和操作台，M2.7能够自己创造工具，并在强化学习实验中表现出色。

它不仅能够自动监控状态、排查故障、修改代码，还能提交合并请求和进行冒烟测试。

此外，M2.7还能主动迭代Harness本身，优化内部代码，显著提升了模型的性能。

大模型开始自我进化了

在自主优化机器学习模型的测试中，M2.7通过短时记忆、自反馈和自优化，每次运行后都会生成md文件记住教训，并为下一轮指路。

投入到MLE Lite这种高难度的竞赛题中，M2.7在24小时内自主优化了ML模型，并取得了优异的成绩。

目前整个行业都在紧跟硅谷的风向，努力适应OpenClaw以跟上潮流。

跟进开源脚手架虽然能快速提升体验，但这仍然局限于教会模型使用人类工具。

而MiniMax已经跳出了这个层面，让模型自己创造工具并参与研发，甚至成为自身研发链条的一部分。

这种自我进化的主动能力，将决定下一代大模型的核心竞争力。

具备这种能力的MiniMax M2.7，已经领先一步进入了模型自我迭代的新时代。

在优化内部Agent Harness代码的测试中，M2.7全程自主把控，通过反复试错，成功摸索出了优化路径，让模型在内部评测集上的效果直接拔高了30%。

再进一步，就是模型自己去训练和升级机器学习模型，这也是它能持续提升算法性能的关键。

M2.7靠短时记忆、自反馈和自优化这三招，每次跑完一轮都会生成md文件记住教训并给下一轮指路。

把它扔进MLE Lite这种极高难度的22道竞赛题里，给足24小时让它去自主优化ML模型，最终它拿下了9金5银1铜的成绩。

眼下整个行业都在紧盯硅谷风向，跟着一起疯狂吃虾，忙着适配OpenClaw来追赶热度。

跟进开源脚手架确实能快速补齐体验，但这依然停留在教模型怎么用人类工具的层面。

但就在此时，MiniMax已经切入了下一个更重要的论题，也就是让模型自己造工具搞研发，甚至成为自身研发链条的一环。

这种主动进化的能力，正是决定下一代大模型核心竞争力的分水岭。

具备了这般能力的MiniMax M2.7，已经抢先开启了模型自我迭代的新纪元。

各大行业都在积极跟进“吃虾”潮流，MiniMax M2.7则更进一步，让它自己掌握了操作的主动权。

克雷西 2026-03-18 21:25:01 量子位

大模型自我进化的新纪元已然到来。

克雷西发自凹非寺
量子位 | 公众号 QbitAI

MiniMax在推出M2.5后仅一个月，便带来了新的重大更新。

他们正式发布了最新的M2.7版本，这次它在执行复杂任务和团队协作方面有了显著提升。

在推理和工程能力方面，M2.7也实现了质的飞跃，能够独立解决生产线上复杂的故障问题。

以往的模型可能只能帮忙写写代码，但现在的M2.7已经能够胜任成熟的SRE工作。

它不仅能够自动监控、精确定位错误并编写脚本来修复漏洞，还能一条龙搞定所有问题。

最具震撼力的是，M2.7能够自主搭建Agent Harness，将思考与实践紧密结合，开启了自我进化之路。

深度整合了OpenClaw长期记忆框架后，无论是虚拟角色扮演还是复杂的Office自动化任务，M2.7都能轻松应对。

目前，M2.7已在MiniMax Agent和开放平台上全面上线，用户可以随时体验它的强大功能。

顶尖的Cowork Agent模型

接下来，我们来看看M2.7的几个重要特点。

首先是指令遵循和多智能体协作能力的显著增强，即使面对复杂的环境和技能组合，M2.7也能稳定地完成任务。

在包含40个复杂技能的场景中，官方测试显示其遵循率高达97%，并且在“龙虾测试”中正确率也达到了62.7%。

此外，M2.7还具备原生多智能体协作能力，无需外部框架即可组建Agent团队，智能体之间能够相互配合完成复杂的长流程任务。

在代码能力方面，M2.7不仅能够生成代码，还能进行代码重构、防止漏洞以及解决复杂的故障。

在SWE-Pro测试中，它的正确率达到了56.22%，与GPT-5.3-Codex持平，并在VIBE-Pro基准测试中取得了高分。

【视频请移步公众号查看】

在办公场景下，M2.7同样表现出色，能够处理复杂的Office文档，支持Excel表格、Word文档和PPT的多轮修改。

在GDPval-AA评测中，它的ELO评分位居开源模型首位，超越了GPT-5.3。

以一家公司的真实案例为例，M2.7能够根据年报和会议资料，自主比对研报并构建营收预测模型。

完成数据分析后，它可以生成Excel透视表，撰写Word版调研报告，并基于模板制作出可以直接用于汇报的PPT，展示出一个初级分析师的水准。

【视频请移步公众号查看】

在角色扮演场景中，M2.7进一步强化了人设的稳定性和对话能力。

它支持十种语言，能够保持跨语言交流时的人格统一。在深度适配长期记忆框架后，它在赛博养崽等场景中表现出色。

基于这一特性，MiniMax官方设计并开源了一个OpenRoom交互系统，让AI融入到各种互动环境中。

在这个充满赛博朋克风格的空间里，对话能够实时产生视觉反馈与场景互动，大大增强了沉浸感。

【视频请移步公众号查看】

经过一番介绍，接下来将通过实际测试来验证M2.7的实力。

一个模型，就能带动整个“AI团队”

首先进行的是多Agent原生协作测试，这一次我们不再模拟“一人公司”，而是让多个Agent模型模拟人类玩游戏。

指令要求M2.7不仅需要组织一个主持人Agent和五个玩家Agent，还要为每个角色编写独立的人设文件。

最后，它还需要开发一个后台程序和前端网页来调度和呈现游戏过程。

这项测试旨在全面检验模型的指令遵循能力、统筹规划能力、多角色扮演稳定性以及全栈代码执行力。

结果，M2.7迅速制定了详细的方案，并以直观的方式呈现出来。

之后，我们对其游戏界面进行了调整，使其更具Minecraft风格，最终效果如图所示。

同时，主持人和五位选手的角色设定也已完成。

点击开始按钮后，六个原生Agent便基于既定规则，在游戏中进行流畅的互动，最终自主完成了整个游戏流程并决出了胜负。

点击开始按钮后，六个原生Agent便开始基于既定规则，在这个游戏房间里进行顺畅交流。

第二个测试是在真实生产环境中检验M2.7的SRE级故障排查与综合推理能力。

我们将一份“案发现场记录”直接丢给M2.7，其中包含了四份复杂生产系统文件。

任务要求它像资深后端架构师一样，找出故障的直接原因和数据库CPU飙升的根本原因，并当场提供排查命令与安全的止血代码。

面对复杂的系统材料，M2.7展现出了非凡的诊断能力，迅速锁定了问题根源，并提供了精准的EXPLAIN命令。

更令人印象深刻的是，它在提供紧急恢复脚本时，使用了PostgreSQL的CONCURRENTLY语法，确保了系统的非阻塞运行。

整个排障流程一气呵成，展示了M2.7在处理复杂系统故障方面的硬实力。

在这些能力的背后，M2.7还具备了自我构建复杂Agent Harness的能力。

通过自主搭建工具箱和操作台，M2.7能够自己创造工具，并在强化学习实验中表现出色。

它不仅能够自动监控状态、排查故障、修改代码，还能提交合并请求和进行冒烟测试。

此外，M2.7还能主动迭代Harness本身，优化内部代码，显著提升了模型的性能。

大模型开始自我进化了

在自主优化机器学习模型的测试中，M2.7通过短时记忆、自反馈和自优化，每次运行后都会生成md文件记住教训，并为下一轮指路。

投入到MLE Lite这种高难度的竞赛题中，M2.7在24小时内自主优化了ML模型，并取得了优异的成绩。

目前整个行业都在紧跟硅谷的风向，努力适应OpenClaw以跟上潮流。

跟进开源脚手架虽然能快速提升体验，但这仍然局限于教会模型使用人类工具。

而MiniMax已经跳出了这个层面，让模型自己创造工具并参与研发，甚至成为自身研发链条的一部分。

这种自我进化的主动能力，将决定下一代大模型的核心竞争力。

具备这种能力的MiniMax M2.7，已经领先一步进入了模型自我迭代的新时代。

在优化内部Agent Harness代码的测试中，M2.7全程自主把控，通过反复试错，成功摸索出了优化路径，让模型在内部评测集上的效果直接拔高了30%。

再进一步，就是模型自己去训练和升级机器学习模型，这也是它能持续提升算法性能的关键。

M2.7靠短时记忆、自反馈和自优化这三招，每次跑完一轮都会生成md文件记住教训并给下一轮指路。

把它扔进MLE Lite这种极高难度的22道竞赛题里，给足24小时让它去自主优化ML模型，最终它拿下了9金5银1铜的成绩。

眼下整个行业都在紧盯硅谷风向，跟着一起疯狂吃虾，忙着适配OpenClaw来追赶热度。

跟进开源脚手架确实能快速补齐体验，但这依然停留在教模型怎么用人类工具的层面。

但就在此时，MiniMax已经切入了下一个更重要的论题，也就是让模型自己造工具搞研发，甚至成为自身研发链条的一环。

这种主动进化的能力，正是决定下一代大模型核心竞争力的分水岭。

具备了这般能力的MiniMax M2.7，已经抢先开启了模型自我迭代的新纪元。

MiniMax M2.7引领创新，让虚拟虾自主用餐

各大行业都在积极跟进“吃虾”潮流，MiniMax M2.7则更进一步，让它自己掌握了操作的主动权。

克雷西发自凹非寺
量子位 | 公众号 QbitAI

顶尖的Cowork Agent模型

一个模型，就能带动整个“AI团队”

大模型开始自我进化了

MiniMax M2.7引领创新，让虚拟虾自主用餐

各大行业都在积极跟进“吃虾”潮流，MiniMax M2.7则更进一步，让它自己掌握了操作的主动权。

克雷西发自凹非寺
量子位 | 公众号 QbitAI

顶尖的Cowork Agent模型

一个模型，就能带动整个“AI团队”

大模型开始自我进化了

相关文章

相关文章

MiniMax M2.7引领创新，让虚拟虾自主用餐

各大行业都在积极跟进“吃虾”潮流，MiniMax M2.7则更进一步，让它自己掌握了操作的主动权。

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI

顶尖的Cowork Agent模型

一个模型，就能带动整个“AI团队”

大模型开始自我进化了

MiniMax M2.7引领创新，让虚拟虾自主用餐

各大行业都在积极跟进“吃虾”潮流，MiniMax M2.7则更进一步，让它自己掌握了操作的主动权。

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI

顶尖的Cowork Agent模型

一个模型，就能带动整个“AI团队”

大模型开始自我进化了

相关文章

相关文章

克雷西发自凹非寺
量子位 | 公众号 QbitAI

克雷西发自凹非寺
量子位 | 公众号 QbitAI