AI双雄掌控Office：GPT操刀创作Claude严审把关，微软已启用默认设置

作者：世界网2026年4月1日科技5 阅读

新智元报道

微软的最大挑战并非来自谷歌，而是它曾经高度依赖的对象。最近的更新中，Copilot集成了GPT撰写初稿与Claude审阅的功能，并且Anthropic的Agent骨架也被嵌入到了Office套件之中。微软的战略转变体现在从单一模型到多顶级模型整合的方向上。

单模型时代，结束了。

最近，微软调整了Copilot的核心引擎，在研究者模块中引入多个智能体协作功能。

现在，Copilot中的Researcher将同时使用GPT和Claude进行工作。

这种设计并非手动切换不同模型那么简单，而是通过让一个模型撰写初稿，另一个模型自动审查来完成整个流程。

一个是创作者，另一个则是评论家。

微软宣称这是Microsoft 365 Copilot研究代理Researcher的重大升级。

Researcher专为处理复杂的研究任务而设计，并通过两项新功能：“批判”和“智囊团”，显著提高了准确性和可靠性。

实测效果惊人。

在最近的DRACO基准测试中，这套双模型架构比之前被认为是深度研究标杆的Perplexity Deep Research高出13.8%的成绩。

但这还不是全部。

同时发布的还有Copilot Cowork，它将Claude的技术平台整合进Microsoft 365 Copilot，并与Work IQ、企业权限和治理体系进行了深度融合。

这一变化不再局限于简单的API接入层面，而是真正地融合了外部先进智能体的能力到微软的产品体系中。

微软当前的策略是将Anthropic、OpenAI等前沿模型纳入其多模型编排框架内，并非押注于单一模型。

由此可以看出，Copilot正从传统的个人助手角色转变成一个企业级多模型执行与整合系统。

Critique

在新的工作流程中，AI自己评审自己的创作

过去的AI研究过程往往依赖单个模型完成所有任务。

让同一个模型既做创作者又作评判员会导致潜在的偏见问题。

微软采取了一种不同方案：将“生成”和“评估”的角色分离出来，分别由不同的智能体承担。

具体而言，GPT负责任务规划、检索信息及起草初稿；Claude则以评审者的身份进行审查。

审查的依据主要包括以下几个方面：

确保报告完整性，确保涵盖了所有用户需求；

对每条关键结论进行严格的证据来源追溯。

更重要的是，审阅并非简单的重复修改工作，而是促使作者提高质量。

微软365与Copilot的副总裁Nicole Herskowitz表示：“我们不仅仅是在多模型中选择一个来使用，而是在利用这些不同模型之间的协同作用。”

在未来的发展规划里，GPT和Claude之间还会实现双向评审机制。

用户无需手动开启Critique模式，它已经设置为Researcher的默认选项。

这实际上是对长期以来在学术界运作的同行评议制度的一种技术化应用。

通过架构设计减少幻觉现象的影响，而不是单纯依赖于模型自身的能力提升。

DRACO跑分拆解

13.8%的含金量

数据不说谎。

DRACO基准测试涵盖10个领域和100项复杂研究任务，完全基于真实场景进行设置。

测试中每个问题经过五次独立运行取平均值，并从四个方面进行评估：事实准确性、分析深度与广度、表达质量和引用质量。

GPT-5.2负责评审工作。

微软特别强调，测试采用的是与基准论文完全一致的评估协议和配置方式，确保了对比的公正性。

搭载Critique功能后的Researcher在综合得分上获得了+7.0分（SEM±1.90）的进步，并且比之前表现最佳的Perplexity Deep Research高出13.88%。

DRACO基准测试结果图表显示各深度研究系统之间的对比情况，除了Researcher with Critique之外的数据引自Zhong et al., arXiv:2602.11685。

拆开四个维度看：

分析的广度和深度得分提升最为显著，其次是表达质量及事实准确性。引用质量也有提高。

所有维度均通过配对t检验达到了统计学意义上的显著性（p<0.0001）。

+3.33分的增幅尤其引人注目，表明Critique在推动更全面分析视角方面的价值显著。

在十个领域中，八个观察到明显的性能提升，涵盖了医学、技术、法律等关键场景。

只有两个领域——学术和大海捞针——的表现没有显著变化。

DRACO基准测试四项评测维度的改进表：Researcher with Critique与单模型Researcher之间的差异及其对总分的影响。

单纯从数字上看，13.8%的增长似乎微不足道。

在深度研究领域，此前的竞争非常激烈，而Perplexity搭载Claude Opus 4.6的领先地位已被Critique功能所超越。

Council则进一步推动了GPT和Claude之间的竞争关系，Cowork则让Anthropic的技术直接服务于Office用户群体。

而是一场辩论

这种策略不再是专注于单一模型的表现，而是构建了一个多模型协作平台。

Copilot Cowork界面：描述任务 → 自动规划 → 跨工具执行 → 实时进度展示

内置Claude技能结合微软原生能力，如日历管理、每日简报等，涵盖从日常事务到月度预算审查的多种场景。

Capital Group等机构已经开始使用，并反馈良好的效果集中在规划、排程和产出成果等方面。

目前通过Frontier计划向一部分用户开放试用

这表明微软与Anthropic的合作关系已经从单纯的模型供应商转变为技术平台共建的模式，Cowork将Claude的能力直接嵌入到M365中。

微软已于本月早些时候以测试模式推出Copilot Cowork，目标是满足市场对自主AI智能体日益增长的需求。

这一举措标志着微软从单一模型的竞争转向多模型协作平台的全面转型

无论是与谷歌Gemini在多模态领域的竞争，还是Anthropic Claude Cowork的自主Agent路线，微软都采取了兼容并包的态度，将这些技术整合进自己的生态系统中。

对开发者而言，未来的竞争力在于如何有效编排多个模型的能力

然而，市场对这次Copilot的升级反应平淡。当天微软股价仅微涨约1%，本季度跌幅达到近25%：这是自2008年金融危机以来最差的表现。

华尔街更关注实际落地数据和成本问题：多模型间的交互成本如何解决？企业员工能否真正将这些功能融入日常工作流程？

显然，这次升级改变了微软与OpenAI的合作模式，使后者在微软生态中的位置不再独一无二。

对于Anthropic、OpenAI以及谷歌来说，当平台方开始以模块化方式整合他们的技术时，模型本身的优势可能就不再具有竞争力了。

企业级AI正从简单的聊天机器人阶段过渡到更复杂的工作系统时代。

在这个转折点上，决定胜负的关键不再是谁拥有最高的基准测试分数，而是谁能将多个模型组合成一个可靠、可审核且实用的工作流程。

这里不是「接入」或者「兼容」，而是「基于其技术平台构建」。

它的工作方式很简单：你描述想要的结果，Copilot Cowork自动制定计划，跨工具和文件进行逻辑推理，在推进过程中实时展示进度，你可以随时介入和引导。

Copilot Cowork操作界面：描述目标 → 自动规划 → 跨工具执行 → 实时进度展示。

内置Claude加上微软原生技能：日历管理、每日简报等，覆盖从一次性杂事到每月预算审查的各类任务。

Capital Group等机构已经在使用，反馈集中在规划、排程、产出成果以及准备管理层审查等高价值场景。

目前通过Frontier计划向早期客户开放。

这意味着，微软和Anthropic的关系，已经从「模型供应商」进化到了「技术平台共建」，Cowork把Claude的Agent骨架直接嵌进了M365的肌肉里。

微软本月早些时候已以测试模式发布Copilot Cowork，目标是「抓住市场对自主AI智能体日益增长的需求」。

所以，这不是一次产品更新，这是一次架构级别的站队。

微软的真正野心

从AI助手到模型指挥中心

把以上所有动作连起来看，微软的战略意图已经很清晰：它不再押注自己或者某一个模型能赢，而是转向押注无论谁赢，流量都经过我。

从对OpenAI的深度依赖，到把Anthropic的技术深度整合进产品线，微软正在从「模型选手」转型为「编排层」。

Critique让GPT和Claude协作，Council让它们竞争，Cowork让Anthropic的Agent能力直接为Office用户服务。

这是平台逻辑，不是模型逻辑。

正面战场上，微软同时在硬刚谷歌Gemini的多模态路线和Anthropic Claude Cowork的自主Agent路线。

但当Anthropic、OpenAI、谷歌三巨头的模型格局已经成型，微软的策略不是下场当选手，而是用生态开放把所有选手的能力收编进自己的平台。

对开发者来说，信号已经非常明确：未来的竞争力不在于绑死一个模型，而在于编排多模型的能力。

但市场对于微软这次Copilot升级，似乎并不买账。

微软股价当日仅微涨约1%，本季度仍面临近25%的跌幅：这是2008年金融危机以来最差的单季表现。

华尔街更在意的，可能是落地数据：多模型来回调用的成本谁买单？企业员工真能把它融入日常工作流？

可以确定的是，这次升级改写了微软与OpenAI的合作关系，OpenAI在微软生态里的位置，已经从「唯一的王牌」变成了「牌桌上的一张」。

而对Anthropic、OpenAI、谷歌三家来说，值得警惕的是：当平台方开始把你的能力当作可替换的模块来编排，模型能力本身或许就不再是护城河了。

企业级AI正在从「聊天机器人」时代翻篇，进入「工作系统」时代。

这个转折点上，决定胜负的不再是谁家的benchmark最高，而是谁能把多个模型编排成一条可靠的、可审计的、可落地的工作流。

参考资料：

https://www.reuters.com/business/microsoft-unveils-ai-upgrades-rolls-out-copilot-cowork-early-access-customers-2026-03-30/

https://techcommunity.microsoft.com/blog/microsoft365copilotblog/introducing-multi-model-intelligence-in-researcher/4506011

https://www.microsoft.com/en-us/microsoft-365/blog/2026/03/30/copilot-cowork-now-available-in-frontier/

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

AI双雄掌控Office：GPT操刀创作Claude严审把关，微软已启用默认设置

作者：世界网2026年4月1日科技5 阅读

新智元报道

单模型时代，结束了。

最近，微软调整了Copilot的核心引擎，在研究者模块中引入多个智能体协作功能。

现在，Copilot中的Researcher将同时使用GPT和Claude进行工作。

这种设计并非手动切换不同模型那么简单，而是通过让一个模型撰写初稿，另一个模型自动审查来完成整个流程。

一个是创作者，另一个则是评论家。

微软宣称这是Microsoft 365 Copilot研究代理Researcher的重大升级。

Researcher专为处理复杂的研究任务而设计，并通过两项新功能：“批判”和“智囊团”，显著提高了准确性和可靠性。

实测效果惊人。

在最近的DRACO基准测试中，这套双模型架构比之前被认为是深度研究标杆的Perplexity Deep Research高出13.8%的成绩。

但这还不是全部。

同时发布的还有Copilot Cowork，它将Claude的技术平台整合进Microsoft 365 Copilot，并与Work IQ、企业权限和治理体系进行了深度融合。

这一变化不再局限于简单的API接入层面，而是真正地融合了外部先进智能体的能力到微软的产品体系中。

微软当前的策略是将Anthropic、OpenAI等前沿模型纳入其多模型编排框架内，并非押注于单一模型。

由此可以看出，Copilot正从传统的个人助手角色转变成一个企业级多模型执行与整合系统。

Critique

在新的工作流程中，AI自己评审自己的创作

过去的AI研究过程往往依赖单个模型完成所有任务。

让同一个模型既做创作者又作评判员会导致潜在的偏见问题。

微软采取了一种不同方案：将“生成”和“评估”的角色分离出来，分别由不同的智能体承担。

具体而言，GPT负责任务规划、检索信息及起草初稿；Claude则以评审者的身份进行审查。

审查的依据主要包括以下几个方面：

确保报告完整性，确保涵盖了所有用户需求；

对每条关键结论进行严格的证据来源追溯。

更重要的是，审阅并非简单的重复修改工作，而是促使作者提高质量。

微软365与Copilot的副总裁Nicole Herskowitz表示：“我们不仅仅是在多模型中选择一个来使用，而是在利用这些不同模型之间的协同作用。”

在未来的发展规划里，GPT和Claude之间还会实现双向评审机制。

用户无需手动开启Critique模式，它已经设置为Researcher的默认选项。

这实际上是对长期以来在学术界运作的同行评议制度的一种技术化应用。

通过架构设计减少幻觉现象的影响，而不是单纯依赖于模型自身的能力提升。

DRACO跑分拆解

13.8%的含金量

数据不说谎。

DRACO基准测试涵盖10个领域和100项复杂研究任务，完全基于真实场景进行设置。

测试中每个问题经过五次独立运行取平均值，并从四个方面进行评估：事实准确性、分析深度与广度、表达质量和引用质量。

GPT-5.2负责评审工作。

微软特别强调，测试采用的是与基准论文完全一致的评估协议和配置方式，确保了对比的公正性。

搭载Critique功能后的Researcher在综合得分上获得了+7.0分（SEM±1.90）的进步，并且比之前表现最佳的Perplexity Deep Research高出13.88%。

DRACO基准测试结果图表显示各深度研究系统之间的对比情况，除了Researcher with Critique之外的数据引自Zhong et al., arXiv:2602.11685。

拆开四个维度看：

分析的广度和深度得分提升最为显著，其次是表达质量及事实准确性。引用质量也有提高。

所有维度均通过配对t检验达到了统计学意义上的显著性（p<0.0001）。

+3.33分的增幅尤其引人注目，表明Critique在推动更全面分析视角方面的价值显著。

在十个领域中，八个观察到明显的性能提升，涵盖了医学、技术、法律等关键场景。

只有两个领域——学术和大海捞针——的表现没有显著变化。

DRACO基准测试四项评测维度的改进表：Researcher with Critique与单模型Researcher之间的差异及其对总分的影响。

单纯从数字上看，13.8%的增长似乎微不足道。

在深度研究领域，此前的竞争非常激烈，而Perplexity搭载Claude Opus 4.6的领先地位已被Critique功能所超越。

Council则进一步推动了GPT和Claude之间的竞争关系，Cowork则让Anthropic的技术直接服务于Office用户群体。

而是一场辩论

这种策略不再是专注于单一模型的表现，而是构建了一个多模型协作平台。

Copilot Cowork界面：描述任务 → 自动规划 → 跨工具执行 → 实时进度展示

内置Claude技能结合微软原生能力，如日历管理、每日简报等，涵盖从日常事务到月度预算审查的多种场景。

Capital Group等机构已经开始使用，并反馈良好的效果集中在规划、排程和产出成果等方面。

目前通过Frontier计划向一部分用户开放试用

这表明微软与Anthropic的合作关系已经从单纯的模型供应商转变为技术平台共建的模式，Cowork将Claude的能力直接嵌入到M365中。

微软已于本月早些时候以测试模式推出Copilot Cowork，目标是满足市场对自主AI智能体日益增长的需求。

这一举措标志着微软从单一模型的竞争转向多模型协作平台的全面转型

无论是与谷歌Gemini在多模态领域的竞争，还是Anthropic Claude Cowork的自主Agent路线，微软都采取了兼容并包的态度，将这些技术整合进自己的生态系统中。

对开发者而言，未来的竞争力在于如何有效编排多个模型的能力

然而，市场对这次Copilot的升级反应平淡。当天微软股价仅微涨约1%，本季度跌幅达到近25%：这是自2008年金融危机以来最差的表现。

华尔街更关注实际落地数据和成本问题：多模型间的交互成本如何解决？企业员工能否真正将这些功能融入日常工作流程？

显然，这次升级改变了微软与OpenAI的合作模式，使后者在微软生态中的位置不再独一无二。

对于Anthropic、OpenAI以及谷歌来说，当平台方开始以模块化方式整合他们的技术时，模型本身的优势可能就不再具有竞争力了。

企业级AI正从简单的聊天机器人阶段过渡到更复杂的工作系统时代。

在这个转折点上，决定胜负的关键不再是谁拥有最高的基准测试分数，而是谁能将多个模型组合成一个可靠、可审核且实用的工作流程。

这里不是「接入」或者「兼容」，而是「基于其技术平台构建」。

Copilot Cowork操作界面：描述目标 → 自动规划 → 跨工具执行 → 实时进度展示。

内置Claude加上微软原生技能：日历管理、每日简报等，覆盖从一次性杂事到每月预算审查的各类任务。

Capital Group等机构已经在使用，反馈集中在规划、排程、产出成果以及准备管理层审查等高价值场景。

目前通过Frontier计划向早期客户开放。

这意味着，微软和Anthropic的关系，已经从「模型供应商」进化到了「技术平台共建」，Cowork把Claude的Agent骨架直接嵌进了M365的肌肉里。

微软本月早些时候已以测试模式发布Copilot Cowork，目标是「抓住市场对自主AI智能体日益增长的需求」。

所以，这不是一次产品更新，这是一次架构级别的站队。

微软的真正野心

从AI助手到模型指挥中心

把以上所有动作连起来看，微软的战略意图已经很清晰：它不再押注自己或者某一个模型能赢，而是转向押注无论谁赢，流量都经过我。

从对OpenAI的深度依赖，到把Anthropic的技术深度整合进产品线，微软正在从「模型选手」转型为「编排层」。

Critique让GPT和Claude协作，Council让它们竞争，Cowork让Anthropic的Agent能力直接为Office用户服务。

这是平台逻辑，不是模型逻辑。

正面战场上，微软同时在硬刚谷歌Gemini的多模态路线和Anthropic Claude Cowork的自主Agent路线。

但当Anthropic、OpenAI、谷歌三巨头的模型格局已经成型，微软的策略不是下场当选手，而是用生态开放把所有选手的能力收编进自己的平台。

对开发者来说，信号已经非常明确：未来的竞争力不在于绑死一个模型，而在于编排多模型的能力。

但市场对于微软这次Copilot升级，似乎并不买账。

微软股价当日仅微涨约1%，本季度仍面临近25%的跌幅：这是2008年金融危机以来最差的单季表现。

华尔街更在意的，可能是落地数据：多模型来回调用的成本谁买单？企业员工真能把它融入日常工作流？

可以确定的是，这次升级改写了微软与OpenAI的合作关系，OpenAI在微软生态里的位置，已经从「唯一的王牌」变成了「牌桌上的一张」。

而对Anthropic、OpenAI、谷歌三家来说，值得警惕的是：当平台方开始把你的能力当作可替换的模块来编排，模型能力本身或许就不再是护城河了。

企业级AI正在从「聊天机器人」时代翻篇，进入「工作系统」时代。

这个转折点上，决定胜负的不再是谁家的benchmark最高，而是谁能把多个模型编排成一条可靠的、可审计的、可落地的工作流。

参考资料：

https://www.reuters.com/business/microsoft-unveils-ai-upgrades-rolls-out-copilot-cowork-early-access-customers-2026-03-30/

https://techcommunity.microsoft.com/blog/microsoft365copilotblog/introducing-multi-model-intelligence-in-researcher/4506011

https://www.microsoft.com/en-us/microsoft-365/blog/2026/03/30/copilot-cowork-now-available-in-frontier/

“”

AI双雄掌控Office：GPT操刀创作Claude严审把关，微软已启用默认设置

AI双雄掌控Office：GPT操刀创作Claude严审把关，微软已启用默认设置

相关文章

相关文章