搜索: 全新逻辑任务

搜索: "全新逻辑任务"

共找到 1 篇相关文章

人类满分过关，GPT-5.5与Opus 4.7却颗粒无收

机器之心编辑部当前，各大榜单上不断刷新的高分似乎已经成为了大模型们之间的常态。然而，在一项名为 ARC-AGI-3 的基准测试中，两款广受瞩目的顶尖模型——OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 ——却都遭遇了前所未有的挑战……最近，ARC Prize 官方发布了针对这两款顶级模型的详细分析报告。结果显示，在处理全新逻辑任务时，两者的得分均低于

科技2026/5/43 阅读