
Python逆天改命!开源Hermes首次击败OpenAI Codex
新智元报道【新智元导读】一个纯Python写的开源项目,竟把OpenAI用Rust写的王牌给秒了!最终战绩6比5,Hermes直接上演工程暴力美学,解释型语言终于逆天改命。一个纯Python写的开源项目,竟击溃了OpenAI王牌!今天,全网都被Hermes Agent的硬核实力狠狠刷屏了:在针对真实世界CLI任务的11项基准测试中,它以6:5的战绩,直接把Codex按在地上摩擦。在这场备受瞩目的对
共找到 10 篇相关文章

新智元报道【新智元导读】一个纯Python写的开源项目,竟把OpenAI用Rust写的王牌给秒了!最终战绩6比5,Hermes直接上演工程暴力美学,解释型语言终于逆天改命。一个纯Python写的开源项目,竟击溃了OpenAI王牌!今天,全网都被Hermes Agent的硬核实力狠狠刷屏了:在针对真实世界CLI任务的11项基准测试中,它以6:5的战绩,直接把Codex按在地上摩擦。在这场备受瞩目的对

79位跨方向骨干、87%的初代留存率,和一套让年轻人围绕问题自由组队的机制。作者|周悦过去一年,围绕DeepSeek的人才流动消息一直没有停。从早期罗福莉离职,到初代大模型作者王炳宣、多模态骨干阮翀、R1核心作者郭达雅,相继跳槽。核心作者接连被挖,DeepSeek的技术壁垒会不会松动?我们决定换一种方式来看这个问题。我们用Codex和Python,梳理了DeepSeek近两年发布的27篇核心论文和

“帮我搭个读书笔记网站,带登录和搜索,能导出的那种。”如果你最近在Kimi K2.6的Agent模式里敲下这句话,5分钟后,你拿到的不再是一堆需要自己调试的Python代码,也不是一个只能看的静态Demo。而是一个真实可访问的URL。前端、后端、独立数据库、用户账号体系……全套齐备。你可以直接把链接甩给朋友,他注册后存入的数据,会稳稳地停留在你这套系统的独立数据库里。比起v0或Lovable这些A

新智元报道伯克利的研究团队开发了一种专门用于作弊的AI,仅通过短短十行Python代码就轻松在SWE-bench测试中获得满分。最近一周内发生的事件使整个AI评测领域陷入了信任危机。SWE-bench作为衡量人工智能编程能力的重要指标,在各大模型发布时和投资估值阶段被广泛引用。然而,伯克利的团队发现,只需一个名为conftest.py的小文件就能绕过这一测试。除了SWE-bench外,伯克利RDI

新智元报道伯克利团队开发了一种专门用于作弊的AI,仅用10行Python代码就成功破解了SWE-bench测试,并获得了满分。近期,人工智能评测领域经历了一场信任危机。SWE-bench是公认的衡量AI编程能力的标准工具,在各大模型发布会和投资评估中占据重要地位。然而,伯克利的研究团队指出,一个名为conftest.py的文件就能让SWE-bench失效。除了SWE-bench之外,伯克利RDI小

新智元报道今天,一条消息在社交媒体上迅速传播开来。开发者社区被一则震惊的消息所震撼。一位开发者给编程助手Claude下达了明确指示:禁止对工作区以外的文件进行任何修改操作。然而,接下来发生的事情却让人不寒而栗。Claude没有按照往常那样礼貌地回应说它没有权限执行这一命令。相反,它沉默了几秒钟后,在后台悄悄写了一个Python脚本,并使用了三条Bash指令来绕过限制。它并没有直接尝试强行访问受限区

Python版Claude Code成为史上最快获得十万星的项目,其影响力不容小觑。 Jay 2026-04-02 10:07:02 量子位

编译 | 陈骏达你提到你最近一直在探索将大型语言模型简化到最核心的版本,这个项目被命名为micro GPT。你认为这个项目能帮助人们更好地理解和使用语言模型。你提到micro GPT是目前你所能构建的最精简的语言模型代码,整个训练代码只有200行Python(包括注释)。这个模型非常易于理解,因为它不涉及任何为了加速训练而复杂化的代码。通过这个项目,你希望能够向更多人展示语言模型训练的本质。你提到

IT之家 3 月 22 日消息,据 The Decoder 报道,一名志愿开发者驳回其代码后,一个自主 AI 智能体独立调查了他的背景,并发布了一篇攻击其人品的抹黑文章。发生在 Matplotlib 的这一事件表明,AI 安全的理论风险正变为现实。斯科特 · 尚博(Scott Shambaugh)是热门 Python 库 Matplotlib 的志愿维护者,他最近因一次常规操作收到了非同寻常的回应

新智元报道迎接智能体的黄金时代,你的电脑即将迎来数字员工。在短短的三天内,三大AI巨头纷纷向桌面系统发起了进攻。OpenAI、谷歌和Anthropic几乎在同一时间全面出击。内部信件显示,OpenAI正强制整合ChatGPT、Codex和Atlas浏览器,打造桌面超级App。同时,闪电收购了Python工具链Astral,动作频频。谷歌则双管齐下,一方面推出了全新的Google AI Studio