OpenAI推出GPT-5.4：全能模型震撼登场

作者：世界网2026年3月7日AI8 阅读

GPT-5.4 来了！这款新版本融合了推理、编程、电脑使用等多个领域的技术。

它将这些能力整合到了一个模型中，且每一项性能并未因此受损。

OpenAI在多个关键基准测试中证明了GPT-5.4的领先地位。

开发者们特别关注其原生支持“计算机使用”这一功能。

GPT-5.4推出后，人们对它的期待越来越高。

在官方博客文章中，提到该版本效率有了显著提升。

相较于GPT-5.2，新版在推理过程中使用的Token数量明显减少。

这意味着响应速度更快且成本更低。

OpenAI强调了其性能与效率并重的特性。

随着GPT-5.4的发布，ChatGPT中的模型体系也随之调整。

新版本同时在ChatGPT、API及Codex中上线。

在价格策略上，尽管单Token成本略有上涨，但由于所需Token数减少，总体费用并未大幅增加。

面向复杂任务的GPT-5.4 Pro也一并推出，在ChatGPT中则命名为GPT-5.4 Thinking。

值得注意的是，原有的GPT-5.2将在三个月后停止服务。

GPT-5.1系列也将于3月11日退出服务。

这引发了人们对与这些模型共度时光的怀念之情。

目前社交媒体上关于这一消息的讨论十分热烈。

有用户感慨，GPT-5.4和苹果最新的低价笔记本电脑同时发布……

“天啊！我的电脑正在面临一场存在主义危机！”

GPT-5.4的能力提升主要集中在知识工作、计算机使用及编程三大领域。

在处理职业场景中的任务时，GPT-5.4表现出色，在多个基准测试中得分超过80%。

例如在内部投资银行建模测试和人类评审的PPT生成测试中，它都取得了优异的成绩。

GPT-5.4还展示了其处理办公文档的强大能力。

在SWE-Bench Pro测试中也展现出了更优的表现。

其原生计算机操作功能是GPT-5.4的独特之处，能够通过截图理解界面并执行相关任务。
这种能力在WebArena和Online-Mind2Web等测试中得到了验证。
GPT-5.4的高阶编程能力也获得了显著提升。

例如，在复杂前端任务中的表现更接近人类工程师的工作流程。

我们一一来看。

首先是知识工作能力。

这一进步使得GPT-5.4能够更好地模仿真实工作的处理过程。

在UI交互方面，它展示了一种新的操作世界的方式。

这可能意味着许多中间件的价值将会下降。

GPT-5.4的目标是成为可以独立完成任务的代理系统。

其“AI数字员工化”体现在其直接执行电脑环境中的任务的能力上。

在浏览和搜索信息方面，GPT-5.4也展示了出色的表现。

它还可以调用多个工具来完成复杂指令。

此外，在办公软件的使用细节上也有显著改进。

其表格建模准确率从68.4%提升至87.3%，在PPT生成测试中也更加出色。

文档解析能力也得到了增强，错误率下降了21%。

GPT-5.4的视觉理解能力比前一代更加强大。

其工具搜索功能进一步优化了成本控制机制。

在保持准确性的前提下，总Token使用量减少了近一半。

虽然新版定价有所上涨，但其技术进步带来的效率提升使得用户依然能够从中受益。

高端的GPT-5.4 Pro版价格更是高出许多，这使其更适合作为专业机构和高端生产力场景下的选择。

对于简单的文案工作来说，继续使用旧版本可能会更加划算一些。

但是高昂的价格也引发了人们对于其应用场景及价值的思考。

如果GPT-5.4 Pro是最接近AGI水平的产品，那么它能解决哪些真正具有挑战性的问题呢？（尽管价格不菲）

GPT-5.4吸纳了此前最强的编程模型GPT-5.3-Codex的能力。现在的它不仅支持Token输出速度提升1.5倍的/fast模式，还加入了一个名为“Playwright (Interactive)”的实验性技能。

它允许AI在帮你写网页或者应用时，开启一个窗口进行视觉化调试。

比如你给它一个简单的需求去做模拟游戏，它能一边生成美术资产、一边写逻辑，甚至一边运行自动测试来验证游戏状态是否正常。

在SWE-Bench Pro测试中，GPT-5.4取得57.7%的成绩，略高于GPT-5.3-Codex的56.8%，同时延迟更低。

内部测试还显示，GPT-5.4在复杂前端任务中的表现明显优于此前模型。生成的界面设计更加美观，功能结构也更完整。

为了展示这一能力，OpenAI演示了一个由GPT-5.4生成的浏览器主题公园模拟游戏。

模型从简单提示词出发，生成游戏资源、构建场景、编写逻辑，并通过自动浏览器测试不断迭代。

这种“边造边测”的能力，已经非常接近一个人类高级全栈工程师的工作流。

一种趋势不言而喻：

UI交互正在取代繁琐的API对接，成为AI操作世界的新主流路径。

emmmm，这可能会让很多中间件失去价值。

看完上述能力的整合，你就能读懂OpenAI在官方博文里透露出的野心。

OpenAI在发布文章中多次提到：

GPT-5.4的目标是成为能够完成真实工作的Agent系统。

如果说之前的GPT模型版本还是一个需要你盯着看的辅助工具，那么GPT-5.4已经开始尝试成为一个能独立负责整块业务的数字员工。

这种“AI数字员工化”体现在三个维度的飞跃。

首先是电脑操作能力。

模型可以通过截图理解软件界面，并通过鼠标和键盘指令进行操作。

这使得AI能够直接在电脑环境中执行任务。

其次是浏览器任务能力。

在BrowseComp测试中，GPT-5.4的成绩达到82.7%，而GPT-5.4 Pro达到89.3%，比GPT-5.2提升17个百分点。

这意味着模型能够持续搜索网页、筛选信息并整合结果，尤其适合处理需要多轮检索的问题。

第三是多工具调用能力。

在Toolathlon基准测试中，GPT-5.4取得54.6%的准确率，高于GPT-5.2的45.7%。

这个测试的任务通常需要多步骤操作，例如读取邮件附件、上传文件、评分作业并记录到表格中。

这种按需检索工具的能力是降低Agent运行成本的关键，它解决了过去模型在面对复杂指令时容易“迷路”或者Token爆炸的问题。

此外，对于对延迟要求较高的场景（在这种场景中，人们倾向于不进行推理操作），GPT-5.4 比其前辈版本有了进一步的改进。

除了上述支柱能力，GPT-5.4在办公细节上也进行了大量打磨。

比如它在创建和编辑电子表格、PPT方面的表现，其表格建模准确率从68.4%跃升至87.3%。

在演示文稿生成测试中，人类评审也更偏好GPT-5.4的结果，认为其视觉多样性和审美更强。

同时，视觉能力的提升也带动了文档解析的进步。

在MMMU-Pro视觉推理测试中，GPT-5.4取得81.2%的准确率，高于GPT-5.2的79.5%。

更重要的是，它现在支持高达1024万像素的原图输入，对高密度、高分辨率的图像理解更加精准。

视觉能力的提升也带来了更强的文档解析能力。

在OmniDocBench测试中，GPT-5.4的平均错误率从0.140下降到0.109。

最令人欣慰的是错误率的下降。

从官方介绍中能初步感觉到，GPT-5.4是个极其讲求事实的模型，其事实错误概率比前代降低了33%，大大缓解了用户对模型幻觉的焦虑。

在效率方面，GPT-5.4引入工具搜索机制。

过去模型在使用工具时，需要在Prompt中包含所有工具定义。如果工具数量很多，Prompt就会变得非常庞大。

现在模型可以先获取工具列表，然后按需查询具体工具定义。

在实现相同准确率的情况下，将总Token使用率降低了47%。

这种成本控制手段说明OpenAI正试图让大模型大规模商业化变得更加现实，毕竟对于企业来说，省钱和好用同等重要。

从OpenAI公布的API定价表来看，GPT-5.4的定价确实比5.2版本要高出一截。

GPT-5.2的每百万Token输入/输出价格分别是1.75美元和14美元，而GPT-5.4则上涨到了2.5美元和15美元。

尤其是对于那些追求极限性能的用户，GPT-5.4 Pro的价格更是飙升到了每百万输入30美元。

当然，原因肯定是5.4被定位为针对专业机构和高端生产力场景的溢价产品。

如果你只是写写简单的闲聊文案，继续用5.2其实更划算。

不过虽然单价涨了，但GPT-5.4在Agent任务中的“省钱之道”主要藏在它的技术机制里。

最核心的一点是就是工具搜索（Tool Search）功能。

以往我们让AI接入外部工具（比如接入几十个公司的数据库和内部接口）时，必须把所有工具的定义全部塞进提示词里。

哪怕AI这次只用了一个工具，你也得为剩下的几十个工具的定义支付Token费用。

但在GPT-5.4下，由于引入了类似“查字典”的搜索机制，模型可以先看一遍简略的工具清单，等确定要用哪个时，再临时去调取那个工具的详细定义。

在针对MCP Atlas基准测试的实验中，这项技术在保持同等准确率的情况下，把总Token使用量足足降低了47%。

大家沉浸在技术狂欢中时，也有网友分享了一些肉痛瞬间。

永远在冲浪一线的Yuchen Jin只是对GPT 5.4 Pro说了一句“Hi，俺是Anthropic创始人”，就花掉了整整560元……

技术进步好快，但网友的心好痛。

这也引出一个问题，杀鸡焉用牛刀？

如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么，你有什么AGI级别的问题要问它呢？
（何况还这么贵，TAT）

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

OpenAI推出GPT-5.4：全能模型震撼登场

作者：世界网2026年3月7日AI8 阅读

GPT-5.4 来了！这款新版本融合了推理、编程、电脑使用等多个领域的技术。

它将这些能力整合到了一个模型中，且每一项性能并未因此受损。

OpenAI在多个关键基准测试中证明了GPT-5.4的领先地位。

开发者们特别关注其原生支持“计算机使用”这一功能。

GPT-5.4推出后，人们对它的期待越来越高。

在官方博客文章中，提到该版本效率有了显著提升。

相较于GPT-5.2，新版在推理过程中使用的Token数量明显减少。

这意味着响应速度更快且成本更低。

OpenAI强调了其性能与效率并重的特性。

随着GPT-5.4的发布，ChatGPT中的模型体系也随之调整。

新版本同时在ChatGPT、API及Codex中上线。

在价格策略上，尽管单Token成本略有上涨，但由于所需Token数减少，总体费用并未大幅增加。

面向复杂任务的GPT-5.4 Pro也一并推出，在ChatGPT中则命名为GPT-5.4 Thinking。

值得注意的是，原有的GPT-5.2将在三个月后停止服务。

GPT-5.1系列也将于3月11日退出服务。

这引发了人们对与这些模型共度时光的怀念之情。

目前社交媒体上关于这一消息的讨论十分热烈。

有用户感慨，GPT-5.4和苹果最新的低价笔记本电脑同时发布……

“天啊！我的电脑正在面临一场存在主义危机！”

GPT-5.4的能力提升主要集中在知识工作、计算机使用及编程三大领域。

在处理职业场景中的任务时，GPT-5.4表现出色，在多个基准测试中得分超过80%。

例如在内部投资银行建模测试和人类评审的PPT生成测试中，它都取得了优异的成绩。

GPT-5.4还展示了其处理办公文档的强大能力。

在SWE-Bench Pro测试中也展现出了更优的表现。

其原生计算机操作功能是GPT-5.4的独特之处，能够通过截图理解界面并执行相关任务。
这种能力在WebArena和Online-Mind2Web等测试中得到了验证。
GPT-5.4的高阶编程能力也获得了显著提升。

例如，在复杂前端任务中的表现更接近人类工程师的工作流程。

我们一一来看。

首先是知识工作能力。

这一进步使得GPT-5.4能够更好地模仿真实工作的处理过程。

在UI交互方面，它展示了一种新的操作世界的方式。

这可能意味着许多中间件的价值将会下降。

GPT-5.4的目标是成为可以独立完成任务的代理系统。

其“AI数字员工化”体现在其直接执行电脑环境中的任务的能力上。

在浏览和搜索信息方面，GPT-5.4也展示了出色的表现。

它还可以调用多个工具来完成复杂指令。

此外，在办公软件的使用细节上也有显著改进。

其表格建模准确率从68.4%提升至87.3%，在PPT生成测试中也更加出色。

文档解析能力也得到了增强，错误率下降了21%。

GPT-5.4的视觉理解能力比前一代更加强大。

其工具搜索功能进一步优化了成本控制机制。

在保持准确性的前提下，总Token使用量减少了近一半。

虽然新版定价有所上涨，但其技术进步带来的效率提升使得用户依然能够从中受益。

高端的GPT-5.4 Pro版价格更是高出许多，这使其更适合作为专业机构和高端生产力场景下的选择。

对于简单的文案工作来说，继续使用旧版本可能会更加划算一些。

但是高昂的价格也引发了人们对于其应用场景及价值的思考。

如果GPT-5.4 Pro是最接近AGI水平的产品，那么它能解决哪些真正具有挑战性的问题呢？（尽管价格不菲）

它允许AI在帮你写网页或者应用时，开启一个窗口进行视觉化调试。

比如你给它一个简单的需求去做模拟游戏，它能一边生成美术资产、一边写逻辑，甚至一边运行自动测试来验证游戏状态是否正常。

在SWE-Bench Pro测试中，GPT-5.4取得57.7%的成绩，略高于GPT-5.3-Codex的56.8%，同时延迟更低。

内部测试还显示，GPT-5.4在复杂前端任务中的表现明显优于此前模型。生成的界面设计更加美观，功能结构也更完整。

为了展示这一能力，OpenAI演示了一个由GPT-5.4生成的浏览器主题公园模拟游戏。

模型从简单提示词出发，生成游戏资源、构建场景、编写逻辑，并通过自动浏览器测试不断迭代。

这种“边造边测”的能力，已经非常接近一个人类高级全栈工程师的工作流。

一种趋势不言而喻：

UI交互正在取代繁琐的API对接，成为AI操作世界的新主流路径。

emmmm，这可能会让很多中间件失去价值。

看完上述能力的整合，你就能读懂OpenAI在官方博文里透露出的野心。

OpenAI在发布文章中多次提到：

GPT-5.4的目标是成为能够完成真实工作的Agent系统。

如果说之前的GPT模型版本还是一个需要你盯着看的辅助工具，那么GPT-5.4已经开始尝试成为一个能独立负责整块业务的数字员工。

这种“AI数字员工化”体现在三个维度的飞跃。

首先是电脑操作能力。

模型可以通过截图理解软件界面，并通过鼠标和键盘指令进行操作。

这使得AI能够直接在电脑环境中执行任务。

其次是浏览器任务能力。

在BrowseComp测试中，GPT-5.4的成绩达到82.7%，而GPT-5.4 Pro达到89.3%，比GPT-5.2提升17个百分点。

这意味着模型能够持续搜索网页、筛选信息并整合结果，尤其适合处理需要多轮检索的问题。

第三是多工具调用能力。

在Toolathlon基准测试中，GPT-5.4取得54.6%的准确率，高于GPT-5.2的45.7%。

这个测试的任务通常需要多步骤操作，例如读取邮件附件、上传文件、评分作业并记录到表格中。

这种按需检索工具的能力是降低Agent运行成本的关键，它解决了过去模型在面对复杂指令时容易“迷路”或者Token爆炸的问题。

此外，对于对延迟要求较高的场景（在这种场景中，人们倾向于不进行推理操作），GPT-5.4 比其前辈版本有了进一步的改进。

除了上述支柱能力，GPT-5.4在办公细节上也进行了大量打磨。

比如它在创建和编辑电子表格、PPT方面的表现，其表格建模准确率从68.4%跃升至87.3%。

在演示文稿生成测试中，人类评审也更偏好GPT-5.4的结果，认为其视觉多样性和审美更强。

同时，视觉能力的提升也带动了文档解析的进步。

在MMMU-Pro视觉推理测试中，GPT-5.4取得81.2%的准确率，高于GPT-5.2的79.5%。

更重要的是，它现在支持高达1024万像素的原图输入，对高密度、高分辨率的图像理解更加精准。

视觉能力的提升也带来了更强的文档解析能力。

在OmniDocBench测试中，GPT-5.4的平均错误率从0.140下降到0.109。

最令人欣慰的是错误率的下降。

从官方介绍中能初步感觉到，GPT-5.4是个极其讲求事实的模型，其事实错误概率比前代降低了33%，大大缓解了用户对模型幻觉的焦虑。

在效率方面，GPT-5.4引入工具搜索机制。

过去模型在使用工具时，需要在Prompt中包含所有工具定义。如果工具数量很多，Prompt就会变得非常庞大。

现在模型可以先获取工具列表，然后按需查询具体工具定义。

在实现相同准确率的情况下，将总Token使用率降低了47%。

这种成本控制手段说明OpenAI正试图让大模型大规模商业化变得更加现实，毕竟对于企业来说，省钱和好用同等重要。

从OpenAI公布的API定价表来看，GPT-5.4的定价确实比5.2版本要高出一截。

GPT-5.2的每百万Token输入/输出价格分别是1.75美元和14美元，而GPT-5.4则上涨到了2.5美元和15美元。

尤其是对于那些追求极限性能的用户，GPT-5.4 Pro的价格更是飙升到了每百万输入30美元。

当然，原因肯定是5.4被定位为针对专业机构和高端生产力场景的溢价产品。

如果你只是写写简单的闲聊文案，继续用5.2其实更划算。

不过虽然单价涨了，但GPT-5.4在Agent任务中的“省钱之道”主要藏在它的技术机制里。

最核心的一点是就是工具搜索（Tool Search）功能。

以往我们让AI接入外部工具（比如接入几十个公司的数据库和内部接口）时，必须把所有工具的定义全部塞进提示词里。

哪怕AI这次只用了一个工具，你也得为剩下的几十个工具的定义支付Token费用。

在针对MCP Atlas基准测试的实验中，这项技术在保持同等准确率的情况下，把总Token使用量足足降低了47%。

大家沉浸在技术狂欢中时，也有网友分享了一些肉痛瞬间。

永远在冲浪一线的Yuchen Jin只是对GPT 5.4 Pro说了一句“Hi，俺是Anthropic创始人”，就花掉了整整560元……

技术进步好快，但网友的心好痛。

这也引出一个问题，杀鸡焉用牛刀？

如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么，你有什么AGI级别的问题要问它呢？
（何况还这么贵，TAT）

“”

OpenAI推出GPT-5.4：全能模型震撼登场

OpenAI推出GPT-5.4：全能模型震撼登场

相关文章

相关文章