搜索: "工程思维"

共找到 1 篇相关文章

顶尖模型在新基准BeyondSWE测试中仅通过45%,AI取代程序员尚需时日

顶尖模型在新基准BeyondSWE测试中仅通过45%,AI取代程序员尚需时日

新智元报道AI编程模型在SWE-bench上的表现十分出色,但仅限于处理小型仓库的简单修补工作。BeyondSWE则提出了一种新的评估方法,旨在测试AI模型在跨仓库检索、领域知识理解、依赖关系升级和从零构建系统等方面的能力,结果显示顶尖模型的通过率骤降至45%以下,揭示了它们在实际工程思维方面的不足。近两年来,SWE-bench几乎是衡量Code Agent性能的唯一标准。从最初的解决率不到30%

科技1 阅读