
Meta与斯坦福严苛测试下,主流AI模型集体折戟沉沙
新智元报道最近,Meta、斯坦福大学和哈佛大学联手推出了一个名为ProgramBench的新测试平台,用于评估顶级AI模型在软件开发中的表现。这项新挑战源自SWE-Bench团队,并且它要求参与者从零开始编写200个完整的软件项目。ProgramBench的目标是检验人工智能是否具备像人类工程师那样思考和设计复杂系统的技能。任何拿到72%分数的模型,在这个全新的测试下都只能得到零分。这次评估不仅包
科技7 阅读
共找到 2 篇相关文章

新智元报道最近,Meta、斯坦福大学和哈佛大学联手推出了一个名为ProgramBench的新测试平台,用于评估顶级AI模型在软件开发中的表现。这项新挑战源自SWE-Bench团队,并且它要求参与者从零开始编写200个完整的软件项目。ProgramBench的目标是检验人工智能是否具备像人类工程师那样思考和设计复杂系统的技能。任何拿到72%分数的模型,在这个全新的测试下都只能得到零分。这次评估不仅包

“天立学科大脑”基于复杂系统的理论框架 量子位的朋友们 2026-04-08 14:51:15 量子位 教育从“经验教学”迈向“数