
自动化软件遭遇困境:深度解析上下文检索揭示核心问题
新智元报道ContextBench是首个专注于评估代码智能体在修复问题过程中如何定位和使用关键代码片段的评测基准,揭示了当前模型存在的多读少用、被关键词误导以及复杂架构无效等问题,并推动AI助手向更可靠与可解释的方向发展。自动化软件工程领域中,SWE-bench及其衍生版本(如SWE-bench Pro和Multi-SWE-bench)已成为衡量大型语言模型代码能力的标准基准,这些评测基准促进了代
科技2 阅读
共找到 3 篇相关文章

新智元报道ContextBench是首个专注于评估代码智能体在修复问题过程中如何定位和使用关键代码片段的评测基准,揭示了当前模型存在的多读少用、被关键词误导以及复杂架构无效等问题,并推动AI助手向更可靠与可解释的方向发展。自动化软件工程领域中,SWE-bench及其衍生版本(如SWE-bench Pro和Multi-SWE-bench)已成为衡量大型语言模型代码能力的标准基准,这些评测基准促进了代

田晏林 发自 凹非寺量子位 | 公众号 QbitAI2026年2月堪称AI史上最密集的“超级发布月”。全球厂商集中推出重磅产品——Claude Opus 4.6、GPT‑5.3‑Codex持续刷新通用与代码能力;国内阵营同样强势出击,Seedance 2.0、GLM‑5、DeepSeek V4接连亮相,AI正式迈入实用化与自主进化新阶段。当告别数量优势,中国科技企业已成为全球AI赛道的核心引领力量

2026年2月堪称AI史上最密集的“超级发布月”。 全球厂商集中推出重磅产品——Claude Opus 4.6、GPT‑5.3‑Codex持续刷新通用与代码能力; 国内阵营同样强势出击,Seedance 2.0、GLM‑5、DeepSeek V4接连亮相,AI正式迈入实用化与自主进化新阶段。 当告别数量优势,中国科技企业已成为全球AI赛道的核心引领力量,而这一跃升的背后,政府的战略引导与制度保障至