
AI编程进入下半场!新基准不测补丁,拷问真正的工程能力
新智元报道【新智元导读】AI写代码已从补丁阶段进入全流程工程评估,SWE Atlas 首次系统评测代码理解、测试编写与重构等核心能力。结果显示,尽管GPT-5.4等模型能完成基础功能,但在代码健康、边界覆盖和跨文件协调上仍有明显不足。当全世界都在用SWE-Bench类基准为编程智能体封神时,Scale AI抛出了一颗深水炸弹:SWE Atlas。在这套由资深工程师手写的284道考题里,前沿模型集体
共找到 23 篇相关文章

新智元报道【新智元导读】AI写代码已从补丁阶段进入全流程工程评估,SWE Atlas 首次系统评测代码理解、测试编写与重构等核心能力。结果显示,尽管GPT-5.4等模型能完成基础功能,但在代码健康、边界覆盖和跨文件协调上仍有明显不足。当全世界都在用SWE-Bench类基准为编程智能体封神时,Scale AI抛出了一颗深水炸弹:SWE Atlas。在这套由资深工程师手写的284道考题里,前沿模型集体

DeepSeek近日在GitHub上公开了一款多模态推理模型及其技术报告《以视觉原语思考》。这个模型基于DeepSeek V4-Flash架构(总计参数量为284B,实际运行时激活的参数数量为13B)开发而成,并提出了一种新的多模态推理方式。研究指出当前市面上的许多大型多模态模型存在一个未被充分重视的问题:“指代鸿沟”(Reference Gap),即尽管这些模型能够识别图像中的内容,但在用自然语

新智元报道最近,GPT-5.5刚一发布便打破了多项纪录,没想到GPT-5.6却已悄然起步?OpenAI的模型似乎陷入了对哥布林的痴迷之中,网络上对此议论纷纷。这种现象不仅让大众感到困惑,也引起了技术社区的关注。人们开始猜测背后的原因究竟是什么?实际上,在GPT-5.4到GPT-5.5期间,“小妖精”和“食人魔”的词频出现了显著的增长。全网都在热议:为何OpenAI的模型会突然对哥布林产生如此浓厚的

近日,DeepSeek-V4模型成功开源并在Hugging Face平台的开源项目排名中迅速攀升至榜首。此项目的相关技术报告详细披露了其针对华为昇腾与英伟达芯片优化、架构升级及预训练和后训练阶段改进等方面的技术细节。DeepSeek-V4在推理、知识获取和代码能力等关键领域均有显著提升,整体性能可比肩GPT-5.4和Claude Opus 4.6这些顶级闭源模型。此外,该版本首次以“百万上下文”作

据报道,OpenAI最近推出了新一代的大语言模型GPT-5.5。该公司声称这是迄今为止最为智能且易于使用的版本。OpenAI的联合创始人兼总裁格雷格·布罗克曼表示:“与之前的GPT-5.4相比,新推出的GPT-5.5在运算速度上有了显著提升,并且更加精准地处理逻辑问题。此外,它还减少了词元(Token)的使用量。”他强调了让企业和个人都能享受最新人工智能技术的重要性。GPT-5.5的应用范围十分广

机器之心编辑部近日,OpenAI 宣布了其最新的大模型 GPT-5.4-Cyber 的问世,这款新模型给人们带来了强烈的熟悉感。新发布的这款产品,在目标群体、应用场景乃至推广策略上都与 Anthropic 几日前推出的 Claude Mythos 非常相似。双方的竞争态势已经毫无保留地展现在了公众面前,《纽约时报》的最新报道标题也明确指出了这一点:“与 Anthropic 类似,OpenAI……”

新智元报道GPT-5.4的重大更新终于到来,OpenAI连夜对基础设施进行了全面重构,并整合了七大沙盒平台,彻底关闭了第三方框架的发展空间。近日,OpenAI悄然推出了一项重大举措。今天凌晨,Agents SDK迎来了一个全新的架构升级。新版本原生支持harness、沙箱功能以及Codex级别的文件系统工具,并与七家顶尖沙盒供应商无缝对接。在今年三月初GPT-5.4首次亮相时,开发者就对计算机使用

新智元报道GPT-5.4的重磅更新终于来了!一夜之间,OpenAI对基础设施进行了彻底改造,并整合了七大沙盒服务,宣告旧时代的聊天工具正式落幕。OpenAI悄然出手,再次布局深远棋局。今天凌晨,Agents SDK迎来了全面架构升级。新版原生控制框架、文件系统工具以及一键接入七家主流沙盒提供商,一应俱全。在三月初GPT-5.4首次亮相时,开发者们就对计算机使用功能提出了质疑。尽管模型能够操作电脑,

据报道,在美国时间本周二,OpenAI发布了其最新版人工智能模型GPT-5.4-Cyber,专门用于增强网络安全防御。仅在几天前的4月7日,Anthropic公司推出了名为Mythos的新一代AI模型,并通过Project Glasswing项目进行内部测试。该项目采取定向邀请机制,允许特定机构使用Claude Mythos预览版来执行网络防护任务。据透露,在各种操作系统、浏览器以及基础软件中,

新智元报道Meta超级智能实验室(MSL)沉寂了九个月后,终于推出首个重要作品Muse Spark,并在深夜引发轰动。该产品的评分从之前的18分跃升至52分,在短短几个月内实现了巨大的飞跃。Muse Spark正式上线,代号为Avocado的它引发了广泛关注。这款产品集成了多种先进技术:原生多模态感知、工具调用、视觉思维链和多Agent编排等全方位功能。在Artificial Analysis的测

沉寂9天之后,OpenClaw正式推送了号称里程碑的3.22大版本更新,但我们给普通用户的核心建议是,千万别急着点升级。3月22日,项目创始人彼得·斯坦伯格(Peter Steinberger)亲自推动这次重大更新,从底层架构到模型适配进行了一次全面翻新。有社区成员将OpenClaw3.22版本视为AI智能体自主能力发展中的一个里程碑。他认为,插件市场ClawHub的推出以及GPT-5.4-min

3月18日,OpenAI发布了两款新的AI模型:GPT-5.4 mini和GPT-5.4 nano。这两款产品旨在满足快速、大规模的AI工作负载需求,同时保持较低的成本。这些小型模型适用于多种AI工作流程。为了达到最佳性能,高效的模型往往需要在响应速度、工具调用能力和性能之间取得平衡。OpenAI强调,这些模型特别适合那些对延迟敏感的应用场景。例如,它们可以用于需要快速响应的编程助手、执行辅助任务

新智元报道【新智元导读】深夜,OpenAI祭出「双子星」GPT-5.4 mini和nano,实力逼近满血版,速度性价比拉满,用来编码、当「龙虾」主力真香!OpenAI一声不吭,又扔了一颗炸弹。今天,GPT-5.4 mini和GPT-5.4 nano正式发布。没有预热,没有倒计时,直接上线。这两个模型要解决的问题很明确:在真实的生产环境里,怎么让AI又快又准又便宜地干活?它们继承了GPT-5.4核心

GPT-5.4 在短短一周内创造了超过10亿美元的年化净收入。 听雨 2026-03-17 14:07:02 量子位 GPT-5.

报!龙虾更新了! 最近,新的OpenClaw测试版(版本号为2026.3.7)已经迅速上线,并包含了最新的GPT-5.4和Gemini Flash 3.1模型。 此次更新还带来了以下改进: 在重启后,ACP绑定依然能够保留。 精简版Docker支持多阶段构建。 新增了用于网关认证的SecretRef功能。 可插拔的上下文引擎 支持HEIF图像格式 修复Zalo渠道问题 其中最受关注的是可插拔

自从OpenAI推出了GPT-5.4后,我发现朋友圈和订阅的信息中几乎都在谈论这个话题。大家对“原生电脑操控能力”(Native Computer Use)这个概念产生了极大的兴趣,并且纷纷评论称人工智能终于能够接管个人电脑了。面对这些消息,我并没有感到过分激动,而是抱持着怀疑的态度。毕竟,“AI操作电脑”的理念并不新鲜,早在今年一月OpenClaw风靡一时的时候就已经引发了广泛讨论。过去两年里,

在3月5日当天,OpenAI推出了名为GPT-5.4的基础模型。该公司声称这是当前最先进且效能最佳的专业级模型之一。除了常规版本外,还提供了专门用于推理的版本(GPT-5.4 Thinking)以及经过性能优化的高级版(GPT-5.4 Pro)。新发布的API接口将支持多达100万个Tokens的上下文容量,这是OpenAI迄今为止提供过的最大值。此外,OpenAI特别指出该模型在Token使用

GPT-5.4 来了!这款新版本融合了推理、编程、电脑使用等多个领域的技术。 它将这些能力整合到了一个模型中,且每一项性能并未因此受损。 OpenAI在多个关键基准测试中证明了GPT-5.4的领先地位。 开发者们特别关注其原生支持“计算机使用”这一功能。 GPT-5.4推出后,人们对它的期待越来越高。 在官方博客文章中,提到该版本效率有了显著提升。 相较于GPT-5.2,新版在推理过程中使用

奥特曼推文截图3月6日,美国时间,OpenAI发布了最新的GPT-5.4版本,标志着该公司在人工智能技术上的又一重要进展。新发布的模型被公司描述为最真实和高效的解决方案之一,具备低耗量、高效率的特点。此外,在ChatGPT中,用户可以随时中断对话并修改指令或改变提问的方向,这得益于该版本改进后的思考机制和更长的上下文维持能力。接下来,OpenAI计划推出适用于复杂任务的专业级产品——GPT-5.4