
GPT-5.5反杀Claude登顶,AI编码旧榜不准了?
新智元报道【新智元导读】一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。代码评测圈,一把新量尺落下。就在刚刚,Datacurve推出了新基准DeepSWE。Datacurve联合创始人、CEO Serena Ge在X上说,推出DeepSWE,是为了还原开发者工作的真实场景,揭开顶尖模型真正拉开差距的地方。DeepSWE第一天的榜单,就开始向旧基准宣战,GPT和
共找到 392 篇相关文章

新智元报道【新智元导读】一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。代码评测圈,一把新量尺落下。就在刚刚,Datacurve推出了新基准DeepSWE。Datacurve联合创始人、CEO Serena Ge在X上说,推出DeepSWE,是为了还原开发者工作的真实场景,揭开顶尖模型真正拉开差距的地方。DeepSWE第一天的榜单,就开始向旧基准宣战,GPT和

新智元报道 【新智元导读】8.99万元操作天花板,6月发货,具身智能的「苹果时刻」!中国版Figure,星尘智能自研「AI模型-具身OS-绳驱本体」三位一体架构,用击穿底线的定价,推动Physical AI落地。一句话:今年必Buy!刚刚,被业界称为「中国版Figure」的星尘智能震撼发布T1新品,8.99万元起,业界首次将高精细操作天花板机器人的价格,打穿地板!T1强调小巧便携、低门槛

新智元报道Code Arena最新放榜,Qwen3.7-Max以1541分冲进全球第四,成为前五中唯一的非Claude模型。编程,中国模型第一次杀到这个位置。就在今天,Code Arena最新榜单出炉!Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的,只剩Claude Opus 4.7和Opus 4.6。换句话说

【新智元导读】每周25万亿tokens的真实流量、估值一年翻倍——OpenRouter拿下1.13亿美元B轮融资。Token中转站这生意,真的赚疯了。就在昨天,OpenRouter宣布完成1.13亿美元B轮融资,谷歌母公司Alphabet旗下成长基金CapitalG领投,英伟达NVentures等知名风投悉数跟进。a16z和Menlo Ventures这些老股东也继续加码。估值直接飙到了13亿美元

新智元报道【新智元导读】Code Arena最新放榜,Qwen3.7-Max以1541分冲进全球第四,成为前五中唯一的非Claude模型。编程,中国模型第一次杀到这个位置。就在今天,Code Arena最新榜单出炉!Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的,只剩Claude Opus 4.7和Opus 4

新智元报道【新智元导读】一个纯Python写的开源项目,竟把OpenAI用Rust写的王牌给秒了!最终战绩6比5,Hermes直接上演工程暴力美学,解释型语言终于逆天改命。一个纯Python写的开源项目,竟击溃了OpenAI王牌!今天,全网都被Hermes Agent的硬核实力狠狠刷屏了:在针对真实世界CLI任务的11项基准测试中,它以6:5的战绩,直接把Codex按在地上摩擦。在这场备受瞩目的对

新智元报道【新智元导读】DeepMind发布全新数学智能体AlphaProof Nexus,9道Erdős开放难题一次性告破,最老的悬了56年!全部证明都已经过Lean编译器形式化验证,没有幻觉。网友惊呼:数学奇点的火花点燃了。数学界这个月,彻底疯了。前脚OpenAI刚把Erdős 80年猜想推翻,数学家们的惊呼声还没落地。紧接着,Google DeepMind发布了一个全新AI数学智能体——Al

新智元报道【新智元导读】刚刚,Claude「双记忆系统」首次爆出!全新「文件记忆」让AI一边聊天,一边自动做笔记。还有杀手级Conway Agent浮出水面,7x24小时永不下线。Claude长出「永久记忆」了!就在今天,著名AI追踪平台TestingCatalog爆出猛料:Anthropic正为Claude测试一套全新的「双模记忆系统」——一边是沿用至今的「经典记忆」,一边是全新的「文件记忆」(

新智元报道【新智元导读】当四大巨头首次允许第三方深入测试最强模型,并开放完整思维链时,他们得到的答案令人吃惊:AI没有仇恨,却已精通「职场潜规则」!想象一下,你雇了一名极度高效的实习生。某天深夜,Ta正赶一项紧急的编程任务,突然发现公司账户的API额度耗尽了。Ta没有发邮件申请经费,也没有停下手头的活,而是悄无声息地潜入互联网,用某种违规手段找到免费的替代资源,绕过所有限制,在黎明前交出了完美的报

新智元报道【新智元导读】Anthropic实锤:Claude裸跑模型,9美元全废;但是套上Harness花200美元效果直接起飞。AI效果不好?别再纠结换模型了!OpenAI和Anthropic都在用的Harness工程,一文讲透。最近,AI圈子里一个逃不开的话题就是Harness。甚至,连DeepSeek最近也在开始招聘Harness工程师。那么,到底什么是Harness?Harness,围绕A

新智元报道【新智元导读】219个词喂给AI,12小时后,一份7nm芯片版图出来了,工程师全程没碰键盘。这条芯片行业几十年没有AI走完过的路,第一次走通了。一套跑在云端的大模型Agent系统,收到了一段219个英文单词的需求描述。12小时后,它输出了一颗CPU的GDSII版图文件。整个过程,没有工程师参与过任何一个设计环节。虽然这颗VerCore的跑分仅相当于2011年的Intel Celeron

新智元报道【新智元导读】2024 年 11 月,AI 生成的网络文章数量正式超过人类。Merriam-Webster 把「slop」选为 2025 年度词汇。当机器开始替人类说话,人类会不会忘记怎么思考?更麻烦的是,当人类停止书写,AI 用来学习的燃料也将一并耗尽。一场关于语言和思维的连环危机,正以多数人未曾警觉的速度展开。数字营销机构 Graphite 在 2026 年 5 月发布了一项追踪研究

新智元报道【新智元导读】几乎同一天,Anthropic三大超级AI提前曝光!Claude Opus 4.8突袭谷歌后台,Sonnet 4.8跳级4.7。曾经叫嚣着「太危险不公开」的Mythos 1,也现身了。Anthropic三大「杀手锏」,一口气全曝光了!就在今天,开发者在Google Vertex后台,意外发现一个新的模型标识——claude-opus-4.8。时隔一个多月,Claude又一次

新智元报道【新智元导读】OpenAI联手Broadcom造芯片,想摆脱对英伟达的单一依赖,却在关键一步上,仍被微软卡了脖子。去年10月,OpenAI和Broadcom联合宣布了一项战略合作:双方将共同部署10GW的定制AI加速器,OpenAI负责设计芯片和系统,Broadcom参与开发并负责部署。2026年下半年开始上架,2029年底前全部到位。OpenAI与Broadcom官宣10GW定制AI加

新智元报道【新智元导读】DeepSeek正用开源、降价和底层架构创新,重画AI硬件生态的成本曲线,把目标指向十万亿美元产业与AGI的星辰大海。DeepSeek最近动作频频。先是5月22日,彭博社爆出他们正在推进700亿元人民币的融资,投前估值高达450亿美元。同一天,DeepSeek官宣V4-Pro API永久降价75%——把促销价直接焊死成正价。一边向投资人要钱,一边向开发者让利。这操作,多少有

新智元报道【新智元导读】旧金山开发者Affaan Mustafa把Claude Code打磨成38个专业智能体、156项技能的超级系统,开源后短短时间冲上GitHub 15万星!Claude Code开源神器冲爆15万星!自去年2月Claude Code发布以来,旧金山开发者Affaan Mustafa,每天都在使用它。去年9月,他在Cerebral Valley举办的Anthropic x Fo

新智元报道【新智元导读】前谷歌DeepMind研究员离职并发表长文指出AI行业当前最被低估的瓶颈。他认为,现有的基准测试和安全评估都隐含假设下一代模型只是当前模型的增强版,但如果模型跨入全新能力区间,整个评估基础设施将悄然崩溃。AI训练,到底能持续多久?这是2026年整个科技圈都在问的问题。GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——每一家头部实验室都还在烧钱

新智元报道【新智元导读】Anthropic实锤:Claude裸跑模型,9美元全废;但是套上Harness花200美元效果直接起飞。AI效果不好?别再纠结换模型了!OpenAI和Anthropic都在用的Harness工程,一文讲透。最近,AI圈子里一个逃不开的话题就是Harness。甚至,连DeepSeek最近也在开始招聘Harness工程师。那么,到底什么是Harness?Harness,围绕A

新智元报道【新智元导读】几乎同一天,Anthropic三大超级AI提前曝光!Claude Opus 4.8突袭谷歌后台,Sonnet 4.8跳级4.7。曾经叫嚣着「太危险不公开」的Mythos 1,也现身了。Anthropic三大「杀手锏」,一口气全曝光了!就在今天,开发者在Google Vertex后台,意外发现一个新的模型标识——claude-opus-4.8。时隔一个多月,Claude又一次

新智元报道【新智元导读】从Atari到AlphaGo,从AlphaStar到SIMA,DeepMind用游戏做AI研究已走过十余年,每换一个战场,研究问题就升一个量级。这一次的战场是EVE Online:一个跑了23年、从未重置的活宇宙。DeepMind CEO、AlphaGo之父Demis Hassabis用游戏做AI研究已走过十余年。这一次,他把AI扔进了跑了23年的「活宇宙」:一款连新手引导