机器之心编辑部
OpenAI 推出了一项全新的竞赛:你准备好了吗?
这次的挑战显得有些出人意料。
参赛者需要在 FineWeb 数据集上尽可能减少验证损失,同时将模型及其训练代码的总大小控制在 16MB 之内,并且要在 8 张 H100 GPU 上于 10 分钟内完成训练。
这种设定几乎堵住了所有通过堆砌参数和计算资源来解决问题的方法。剩下的,参赛者只能依靠巧妙的设计、极致的压缩技术、策略性的选择以及工程上的创新来应对。
这就是 OpenAI 的 Model Craft Challenge 「Parameter Golf」项目,旨在鼓励开发出最优的小型模型。

参与者可以通过访问 https://github.com/openai/parameter-golf 来获取更多相关信息。
从名字可以看出,这项竞赛借鉴了高尔夫球的玩法。高尔夫比赛的目标是用最少的杆数将球送入洞内,每一步都需精打细算,追求极致的效率与策略。而「Parameter Golf」则是以最少的参数完成模型任务,追求模型压缩和效率优化的极致。
OpenAI 表示,这项挑战面向全球开放,旨在探索在有限资源约束下的高效预训练模型。表现出色的参赛者将有机会获得 OpenAI 的面试机会,而获胜方案也有机会被公开展示。

在赛题设计上,这项挑战借鉴了 NanoGPT Speedrunning 的思路,即在最短时间内将模型训练至指定验证损失。在此基础上,OpenAI 进一步将重点放在参数受限的情况下,探索更高效的模型设计。这种设定有望推动研究者探索多种创新路径,包括新型架构设计、压缩方法以及各种具有创造性的训练与推理策略。
在资源设定上,原本 OpenAI 希望参赛者可以使用任意规模的计算资源,但为了降低参与门槛并控制成本,排行榜提交被限制在 8 张 H100 GPU 和 10 分钟训练时间之内。同时,对于不满足这一计算资源限制的方案,OpenAI 也鼓励提交至非记录板块,以持续探索参数受限条件下的性能上限。
为了解决算力成本问题,OpenAI 提供了总额 100 万美元的计算资源支持,以帮助参与者启动和推进模型训练。
有兴趣的参与者可以访问 https://openai.com/index/parameter-golf/ 了解更多信息。
从某种角度来看,这场 Model Craft Challenge 类似于 AI 领域的奥林匹克竞赛。OpenAI 内部不少研究员,都是从数学和编程竞赛一路打怪升级而来的。因此,这次挑战看重的是谁能用创造力和严谨性在陌生约束下把问题解到极致,而不是谁的资源更丰富。
从更实际的角度来看,OpenAI 计划在今年 6 月招募早期研究人才,重点面向本科生和应届毕业生,包括各类竞赛选手。对于表现突出的人来说,这次挑战本身就可能成为一块敲门砖。
这次挑战的时间跨度是从 3 月 18 日到 4 月 30 日。
如何参与?
OpenAI 提供了一个 GitHub 仓库,其中包括基线模型、固定数据集以及评测脚本。参赛者可以 fork 这个仓库,在满足模型大小和计算资源限制的前提下进行改进,并提交一个 PR(拉取请求),其中包括你的代码、日志、成绩以及一份简短说明。审核通过后,你的结果会被合并,排行榜也会自动更新。你还可以申请来自 Runpod 的免费计算资源额度(数量有限,先到先得)。
最后,OpenAI 对一些常见问题进行了回答。
提问:谁可以参与?
OpenAI 表示,本次挑战主要面向年满 18 岁且位于 OpenAI 支持地区的人员开放。完整的参与资格要求可以在详细的条款与条件中查看。值得注意的是,OpenAI 的员工可以参与,但无法获得计算资源额度奖励。
问题:哪些内容会被计算到 16MB 的产物大小内?
OpenAI 回答:提交的产物大小由两部分组成:代码体积 + 压缩后的模型体积。所有计入大小的代码必须放在 train_gpt.py 脚本中。上限为十进制的 16MB(即 16,000,000 字节),而不是 16 MiB(16,777,216 字节)。在评测过程中,不允许进行任何外部下载、访问训练数据集或发起网络请求。整个产物必须是完全自包含且可复现的。
问题:评测阶段有哪些限制?
OpenAI 回答:我们不会接受在 8 张 H100 GPU 上评测时间超过 10 分钟的提交(请注意,这一限制是在允许的 10 分钟训练时间之外额外计算的)。除此之外,评测方式基本不做限制,你可以自由设计评测流程。和 modded-nanogpt 类似,我们允许在任意序列长度上进行评测。
问题:如果算力用完了,还可以再申请吗?
OpenAI 回答:可以。你可以通过申请表继续申请额外的计算资源额度,以支持持续迭代。不过,提交申请并不保证一定会获得计算资源支持。我们的目标是让更多人参与,因此计算资源额度取决于资源是否充足,数量有限。如果申请通过,相关计算资源额度将在几个工作日内通过 Runpod 发放。
问题:可以多次参与吗?
OpenAI 回答:可以!你可以提交多次参赛作品。
问题:可以以团队形式提交结果吗?
OpenAI 回答:不可以。提交结果仅限个人参与。
对于这次挑战,人们的看法各不相同。
网友们的评论也表现出明显的分歧。
有人认为,这种方式才是真正的识别优秀工程师的方式——看他们在内存、时间、计算资源受限时如何权衡,而不是靠资历。

有人因此受到了鼓舞。

但也有人担心其他公司可能会效仿,但又学走了样,只白嫖方案,不招人。

这种担忧很快引发了关于人类与 AI 之间讨论的另一个有趣问题:既然模型设计与优化是 AI 最擅长的领域,那这件事是否本该交给 AI 来做?因此,围绕人类 vs Agent 的讨论逐渐升温。
一位 X 用户认为 OpenAI 本应已经用 AI Agent 全自动完成了这项工作,而且 Agent 应该已经比人更强。OpenAI 还在用「人类比赛」的形式做参数优化,有点复古。

知名 AI 研究者 Yuchen Jin 也表示,这个比赛可以用 AI Agent 来完成,如果自己有时间,完全可以召唤自己的「自动研究大军」(AI Agent 集群)去打比赛。

你对此怎么看,欢迎在评论区留言。
