GPT-5.4 来了!这款新版本融合了推理、编程、电脑使用等多个领域的技术。
它将这些能力整合到了一个模型中,且每一项性能并未因此受损。
OpenAI在多个关键基准测试中证明了GPT-5.4的领先地位。
开发者们特别关注其原生支持“计算机使用”这一功能。
GPT-5.4推出后,人们对它的期待越来越高。
在官方博客文章中,提到该版本效率有了显著提升。
相较于GPT-5.2,新版在推理过程中使用的Token数量明显减少。
这意味着响应速度更快且成本更低。
OpenAI强调了其性能与效率并重的特性。
随着GPT-5.4的发布,ChatGPT中的模型体系也随之调整。
新版本同时在ChatGPT、API及Codex中上线。
在价格策略上,尽管单Token成本略有上涨,但由于所需Token数减少,总体费用并未大幅增加。
面向复杂任务的GPT-5.4 Pro也一并推出,在ChatGPT中则命名为GPT-5.4 Thinking。
值得注意的是,原有的GPT-5.2将在三个月后停止服务。
GPT-5.1系列也将于3月11日退出服务。
这引发了人们对与这些模型共度时光的怀念之情。
目前社交媒体上关于这一消息的讨论十分热烈。
有用户感慨,GPT-5.4和苹果最新的低价笔记本电脑同时发布……
“天啊!我的电脑正在面临一场存在主义危机!”
GPT-5.4的能力提升主要集中在知识工作、计算机使用及编程三大领域。
在处理职业场景中的任务时,GPT-5.4表现出色,在多个基准测试中得分超过80%。
例如在内部投资银行建模测试和人类评审的PPT生成测试中,它都取得了优异的成绩。
GPT-5.4还展示了其处理办公文档的强大能力。
在SWE-Bench Pro测试中也展现出了更优的表现。
- 其原生计算机操作功能是GPT-5.4的独特之处,能够通过截图理解界面并执行相关任务。
- 这种能力在WebArena和Online-Mind2Web等测试中得到了验证。
- GPT-5.4的高阶编程能力也获得了显著提升。
例如,在复杂前端任务中的表现更接近人类工程师的工作流程。
我们一一来看。
首先是知识工作能力。
这一进步使得GPT-5.4能够更好地模仿真实工作的处理过程。
在UI交互方面,它展示了一种新的操作世界的方式。
这可能意味着许多中间件的价值将会下降。
GPT-5.4的目标是成为可以独立完成任务的代理系统。
其“AI数字员工化”体现在其直接执行电脑环境中的任务的能力上。
在浏览和搜索信息方面,GPT-5.4也展示了出色的表现。
它还可以调用多个工具来完成复杂指令。
此外,在办公软件的使用细节上也有显著改进。
其表格建模准确率从68.4%提升至87.3%,在PPT生成测试中也更加出色。
文档解析能力也得到了增强,错误率下降了21%。
GPT-5.4的视觉理解能力比前一代更加强大。
其工具搜索功能进一步优化了成本控制机制。
在保持准确性的前提下,总Token使用量减少了近一半。
虽然新版定价有所上涨,但其技术进步带来的效率提升使得用户依然能够从中受益。
高端的GPT-5.4 Pro版价格更是高出许多,这使其更适合作为专业机构和高端生产力场景下的选择。
对于简单的文案工作来说,继续使用旧版本可能会更加划算一些。
但是高昂的价格也引发了人们对于其应用场景及价值的思考。
如果GPT-5.4 Pro是最接近AGI水平的产品,那么它能解决哪些真正具有挑战性的问题呢?(尽管价格不菲)
GPT-5.4吸纳了此前最强的编程模型GPT-5.3-Codex的能力。现在的它不仅支持Token输出速度提升1.5倍的/fast模式,还加入了一个名为“Playwright (Interactive)”的实验性技能。
它允许AI在帮你写网页或者应用时,开启一个窗口进行视觉化调试。
比如你给它一个简单的需求去做模拟游戏,它能一边生成美术资产、一边写逻辑,甚至一边运行自动测试来验证游戏状态是否正常。
在SWE-Bench Pro测试中,GPT-5.4取得57.7%的成绩,略高于GPT-5.3-Codex的56.8%,同时延迟更低。
内部测试还显示,GPT-5.4在复杂前端任务中的表现明显优于此前模型。生成的界面设计更加美观,功能结构也更完整。
为了展示这一能力,OpenAI演示了一个由GPT-5.4生成的浏览器主题公园模拟游戏。
模型从简单提示词出发,生成游戏资源、构建场景、编写逻辑,并通过自动浏览器测试不断迭代。
这种“边造边测”的能力,已经非常接近一个人类高级全栈工程师的工作流。
一种趋势不言而喻:
UI交互正在取代繁琐的API对接,成为AI操作世界的新主流路径。
emmmm,这可能会让很多中间件失去价值。
看完上述能力的整合,你就能读懂OpenAI在官方博文里透露出的野心。
OpenAI在发布文章中多次提到:
GPT-5.4的目标是成为能够完成真实工作的Agent系统。
如果说之前的GPT模型版本还是一个需要你盯着看的辅助工具,那么GPT-5.4已经开始尝试成为一个能独立负责整块业务的数字员工。
这种“AI数字员工化”体现在三个维度的飞跃。
首先是电脑操作能力。
模型可以通过截图理解软件界面,并通过鼠标和键盘指令进行操作。
这使得AI能够直接在电脑环境中执行任务。
其次是浏览器任务能力。
在BrowseComp测试中,GPT-5.4的成绩达到82.7%,而GPT-5.4 Pro达到89.3%,比GPT-5.2提升17个百分点。
这意味着模型能够持续搜索网页、筛选信息并整合结果,尤其适合处理需要多轮检索的问题。
第三是多工具调用能力。
在Toolathlon基准测试中,GPT-5.4取得54.6%的准确率,高于GPT-5.2的45.7%。
这个测试的任务通常需要多步骤操作,例如读取邮件附件、上传文件、评分作业并记录到表格中。
这种按需检索工具的能力是降低Agent运行成本的关键,它解决了过去模型在面对复杂指令时容易“迷路”或者Token爆炸的问题。
此外,对于对延迟要求较高的场景(在这种场景中,人们倾向于不进行推理操作),GPT-5.4 比其前辈版本有了进一步的改进。
除了上述支柱能力,GPT-5.4在办公细节上也进行了大量打磨。
比如它在创建和编辑电子表格、PPT方面的表现,其表格建模准确率从68.4%跃升至87.3%。
在演示文稿生成测试中,人类评审也更偏好GPT-5.4的结果,认为其视觉多样性和审美更强。
同时,视觉能力的提升也带动了文档解析的进步。
在MMMU-Pro视觉推理测试中,GPT-5.4取得81.2%的准确率,高于GPT-5.2的79.5%。
更重要的是,它现在支持高达1024万像素的原图输入,对高密度、高分辨率的图像理解更加精准。
视觉能力的提升也带来了更强的文档解析能力。
在OmniDocBench测试中,GPT-5.4的平均错误率从0.140下降到0.109。
最令人欣慰的是错误率的下降。
从官方介绍中能初步感觉到,GPT-5.4是个极其讲求事实的模型,其事实错误概率比前代降低了33%,大大缓解了用户对模型幻觉的焦虑。
在效率方面,GPT-5.4引入工具搜索机制。
过去模型在使用工具时,需要在Prompt中包含所有工具定义。如果工具数量很多,Prompt就会变得非常庞大。
现在模型可以先获取工具列表,然后按需查询具体工具定义。
在实现相同准确率的情况下,将总Token使用率降低了47%。
这种成本控制手段说明OpenAI正试图让大模型大规模商业化变得更加现实,毕竟对于企业来说,省钱和好用同等重要。
从OpenAI公布的API定价表来看,GPT-5.4的定价确实比5.2版本要高出一截。
GPT-5.2的每百万Token输入/输出价格分别是1.75美元和14美元,而GPT-5.4则上涨到了2.5美元和15美元。
尤其是对于那些追求极限性能的用户,GPT-5.4 Pro的价格更是飙升到了每百万输入30美元。
当然,原因肯定是5.4被定位为针对专业机构和高端生产力场景的溢价产品。
如果你只是写写简单的闲聊文案,继续用5.2其实更划算。
不过虽然单价涨了,但GPT-5.4在Agent任务中的“省钱之道”主要藏在它的技术机制里。
最核心的一点是就是工具搜索(Tool Search)功能。
以往我们让AI接入外部工具(比如接入几十个公司的数据库和内部接口)时,必须把所有工具的定义全部塞进提示词里。
哪怕AI这次只用了一个工具,你也得为剩下的几十个工具的定义支付Token费用。
但在GPT-5.4下,由于引入了类似“查字典”的搜索机制,模型可以先看一遍简略的工具清单,等确定要用哪个时,再临时去调取那个工具的详细定义。
在针对MCP Atlas基准测试的实验中,这项技术在保持同等准确率的情况下,把总Token使用量足足降低了47%。
大家沉浸在技术狂欢中时,也有网友分享了一些肉痛瞬间。
永远在冲浪一线的Yuchen Jin只是对GPT 5.4 Pro说了一句“Hi,俺是Anthropic创始人”,就花掉了整整560元……
技术进步好快,但网友的心好痛。
这也引出一个问题,杀鸡焉用牛刀?
如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么,你有什么AGI级别的问题要问它呢?
(何况还这么贵,TAT)

