
GPT-5.5反杀Claude登顶,AI编码旧榜不准了?
新智元报道【新智元导读】一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。代码评测圈,一把新量尺落下。就在刚刚,Datacurve推出了新基准DeepSWE。Datacurve联合创始人、CEO Serena Ge在X上说,推出DeepSWE,是为了还原开发者工作的真实场景,揭开顶尖模型真正拉开差距的地方。DeepSWE第一天的榜单,就开始向旧基准宣战,GPT和
共找到 224 篇相关文章

新智元报道【新智元导读】一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。代码评测圈,一把新量尺落下。就在刚刚,Datacurve推出了新基准DeepSWE。Datacurve联合创始人、CEO Serena Ge在X上说,推出DeepSWE,是为了还原开发者工作的真实场景,揭开顶尖模型真正拉开差距的地方。DeepSWE第一天的榜单,就开始向旧基准宣战,GPT和

新智元报道Code Arena最新放榜,Qwen3.7-Max以1541分冲进全球第四,成为前五中唯一的非Claude模型。编程,中国模型第一次杀到这个位置。就在今天,Code Arena最新榜单出炉!Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的,只剩Claude Opus 4.7和Opus 4.6。换句话说

新智元报道【新智元导读】Code Arena最新放榜,Qwen3.7-Max以1541分冲进全球第四,成为前五中唯一的非Claude模型。编程,中国模型第一次杀到这个位置。就在今天,Code Arena最新榜单出炉!Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的,只剩Claude Opus 4.7和Opus 4

凤凰网科技讯 5月26日,百川智能在清华大学举办的“AI医疗新范式”学术论坛上,正式发布新一代医疗大模型Baichuan-M4及AI家庭医生“百小医”。据官方披露,Baichuan-M4在HealthBench、HealthBench Hard、HealthBench Professional三大权威医疗榜单中同时位列世界第一,超越GPT-5.5、Opus 4.7、DeepSeek-V4-Pro等

快科技5月26日消息,AI行业目前冰火两重天,一方面OpenAI、Anthropic估值都已上万亿美元,旗下的AI大模型正在不断取代程序员,然而另一方面可不那么好,AI现在已经出现比人还贵的情况了。AI编程是这一年来AI领域进步最大、方向也最明确的地方,现在几乎没有哪个程序员不使用Cluade、GPT等大模型写代码了,古法手工编程不能说被淘汰,至少也不再是主流了。这也导致很多公司都在想着用AI来取

全面落地或已不远。文丨范东成在新一轮AI浪潮中,自动驾驶赛道长期受到市场的密切关注。头部玩家特斯拉的动向即是热点之一。特斯拉官方于2026年5月21日宣布,旗下监督版(Supervised)自动驾驶系统FSD(Full-Self Driving)已获批准进入中国。需要说明的是,2025年7月以来,国内智驾系统均停留在辅助驾驶阶段,政策禁止汽车品牌随意宣传自动驾驶功能。与之相关,特斯拉中国官网于20

凤凰网科技讯 5月25日,脉脉创始人兼CEO林凡在《AI圆桌π对》第三期节目中表示,从技术成熟度来看,机器人仍处于非常早期阶段,“还没有到ChatGPT-3.5阶段,甚至可能还在GPT-2阶段”。谈“智能元年”还为时尚早。但从场景和需求的角度看,2026年已经是机器人创业的不错起点,甚至可以说是一个right time。林凡透露,2026年1-4月,具身智能相关岗位招聘量较去年同期增长15倍,岗

GPT-4o 一边看屏幕一边和你语音对话;Veo-3、MovieGen、Seedance 2.0 直接把原生音轨纳入视频生成链路;HappyHorse 这类近期模型也开始探索音视频联合生成;OpenVLA 让机器人” 听音辨物”—— 音视频大模型,正在从” 加在视觉模型旁边的一个 ASR”,进化成 omni-modal 基础模型的核心能力之一。NUS 联合牛津、多伦多、UTD、HKUST、QMUL

背景:自回归图像生成的崛起与推理瓶颈大语言模型的成功让 "next-token prediction" 这套范式从文本延伸到了图像领域。把图像用视觉分词器编码成离散 token,再一个接一个的预测出来 —— 这就是自回归(AR)图像生成的核心思路。从早期的 PixelCNN、iGPT、Parti,到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image,AR 模型的生成

新智元报道【新智元导读】前谷歌DeepMind研究员离职并发表长文指出AI行业当前最被低估的瓶颈。他认为,现有的基准测试和安全评估都隐含假设下一代模型只是当前模型的增强版,但如果模型跨入全新能力区间,整个评估基础设施将悄然崩溃。AI训练,到底能持续多久?这是2026年整个科技圈都在问的问题。GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——每一家头部实验室都还在烧钱

新智元报道【新智元导读】AI写代码已从补丁阶段进入全流程工程评估,SWE Atlas 首次系统评测代码理解、测试编写与重构等核心能力。结果显示,尽管GPT-5.4等模型能完成基础功能,但在代码健康、边界覆盖和跨文件协调上仍有明显不足。当全世界都在用SWE-Bench类基准为编程智能体封神时,Scale AI抛出了一颗深水炸弹:SWE Atlas。在这套由资深工程师手写的284道考题里,前沿模型集体

新智元报道【新智元导读】有人晒出开源项目:GPT-5.5连续狂飙150小时,自主挑战诺奖级AlphaFold2!它用拓扑「单纯形」重构蛋白质折叠逻辑,虽然性能暂未登顶,却展示了AI科学家的恐怖潜力:秒回滚、零情绪、全自动进化。科研范式,真要变天了。就在最近,GitHub上一个名为SimplexFold 的开源项目突然火出了圈。它的共同作者名单里,居然出现了这样一个名字——GPT-5.5!Meta的

IT之家 5 月 22 日消息,Comscore 于 5 月 18 日发布报告,指出在 2026 年 3 月 OpenAI 的 ChatGPT 依然是美国最受欢迎的桌面端消费级 AI 聊天机器人,不过 Claude 以环比 130.1% 的增速快速追赶。IT之家注:Comscore 是一家全球性互联网信息服务提供商,通过整合数字平台、电视、电影屏幕及移动设备数据,提供受众测评、广告效果追踪及市场

IT之家 5 月 22 日消息,OpenAI 今天(5 月 22 日)以 Beta 版形式,推出 ChatGPT for PowerPoint,用户安装插件并登录 OpenAI 账号后,可在 PowerPoint 内直接调用 ChatGPT 新建、改写和润色幻灯片。用户通过 ChatGPT for PowerPoint,可以使用自然语言指令提出要求,让 ChatGPT 从零生成新幻灯片,也可以针对

5月21日,The Information报道称,OpenAI今年一季度收入约57亿美元,比Anthropic同期高出近10亿美元。报道援引两名了解财务数据的人士称,OpenAI的增长来自几个方向:编程智能体Codex、企业客户销售,以及ChatGPT广告测试。这个数字说明OpenAI仍然是AI模型公司里收入规模最大的公司,也意味着它仍有机会实现此前提出的"2026年收入300亿美元"目标。但收

知情人士透露,人工智能公司OpenAI正准备在未来几周提交首次公开售股(IPO)文件,并计划最快于今年秋季上市。 彭博社引述知情人士说,高盛(Goldman Sachs)与摩根士丹利(Morgan Stanley)正协助这家ChatGPT开发商,最快于星期五(5月22日)秘密提交上市文件,但具体时间仍未确定。由于消息未公开,知情人士要求匿名。 OpenAI声明说:“我们会定期评估各种战略选项,目

机器之心编辑部2026 年以来,OpenAI、Anthropic、LangChain 等机构纷纷发布关于 Harness Engineering 的技术博客,OpenClaw、Hermes Agent 等项目的火爆更让 Harness Engineering 成为业界热词。人们的共识正在形成:模型的能力释放,依赖于一套精密的外部框架Harness 的开发与优化是一个工程问题,需要结合模型能力、任务

财联社5月20日讯(编辑 周子意)在新加坡举行的ATxSummit大会上,OpenAI与新加坡式签署谅一份解备忘录,宣布开启一项深度的战略合作。根据ChatGPT开发商OpenAI与新加坡数字发展与信息部门周三(5月20日)发布的一份联合声明,OpenAI将投入超过3亿新元(约合2.34亿美元)在该地设立一个“应用人工智能实验室”(Applied AI Lab),以加强新加坡的人工智能生态系统。O

孙正义豪赌奥特曼凤凰网科技讯 北京时间5月20日,据彭博社报道,随着软银集团对OpenAI的投资承诺超过600亿美元,一些软银内部人士开始对孙正义(Masayoshi Son)给予萨姆·奥特曼(Sam Altman)的高度信任感到愈发不安。去年,当软银开始向OpenAI投资数十亿美元时,部分高管曾向孙正义提出一个问题:如果这家ChatGPT开发商在极端情况下失败,该怎么办?知情人士称,孙正义曾多次

智东西作者 陈骏达编辑 云鹏智东西5月19日报道,今天,阿里的Qwen3.7系列预览版模型已上线,共有Max和Plus两个版本。大模型竞技场也放出了Qwen3.7-Max-Preview的评测结果。在大模型竞技场覆盖主流基座大模型的总榜上,Qwen3.7-Max-Preview排名第13,介于GPT 5.5和Grok 4.2之间,是这一榜单上排名最高的国产模型。在具体的细分榜单上,Qwen