搜索: 上下文检索

搜索: "上下文检索"

共找到 1 篇相关文章

自动化软件遭遇困境：深度解析上下文检索揭示核心问题

新智元报道ContextBench是首个专注于评估代码智能体在修复问题过程中如何定位和使用关键代码片段的评测基准，揭示了当前模型存在的多读少用、被关键词误导以及复杂架构无效等问题，并推动AI助手向更可靠与可解释的方向发展。自动化软件工程领域中，SWE-bench及其衍生版本（如SWE-bench Pro和Multi-SWE-bench）已成为衡量大型语言模型代码能力的标准基准，这些评测基准促进了代

科技2026/3/84 阅读