搜索: 工程思维

搜索: "工程思维"

共找到 1 篇相关文章

顶尖模型在新基准BeyondSWE测试中仅通过45%，AI取代程序员尚需时日

新智元报道AI编程模型在SWE-bench上的表现十分出色，但仅限于处理小型仓库的简单修补工作。BeyondSWE则提出了一种新的评估方法，旨在测试AI模型在跨仓库检索、领域知识理解、依赖关系升级和从零构建系统等方面的能力，结果显示顶尖模型的通过率骤降至45%以下，揭示了它们在实际工程思维方面的不足。近两年来，SWE-bench几乎是衡量Code Agent性能的唯一标准。从最初的解决率不到30%

科技2026/3/214 阅读