搜索: "ARC-AGI-3"

共找到 2 篇相关文章

人类满分过关,GPT-5.5与Opus 4.7却颗粒无收

人类满分过关,GPT-5.5与Opus 4.7却颗粒无收

机器之心编辑部当前,各大榜单上不断刷新的高分似乎已经成为了大模型们之间的常态。然而,在一项名为 ARC-AGI-3 的基准测试中,两款广受瞩目的顶尖模型——OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 ——却都遭遇了前所未有的挑战……最近,ARC Prize 官方发布了针对这两款顶级模型的详细分析报告。结果显示,在处理全新逻辑任务时,两者的得分均低于

科技3 阅读
顶尖大模型一夜之间遭遇滑铁卢!人类满分通过最难测试,AI仅获0.2%分数

顶尖大模型一夜之间遭遇滑铁卢!人类满分通过最难测试,AI仅获0.2%分数

新智元报道全球人工智能领域最近受到了一次强烈的冲击。一项名为ARC-AGI-3的全球最艰难的人工智能测试刚刚发布,让顶尖的人工智能模型集体哑口无言。人类在这次测试中获得了满分,而最强大的模型Opus 4.6仅得0.2%,远远不及人类的成绩。今天,这个消息让整个AI圈为之震动。期待已久的全球唯一的未饱和智能体基准测试ARC-AGI-3一经推出,便让全球顶尖的大模型黯然失色。在这次测试中,人类的得分达

科技8 阅读