
机器之心编辑部
最近,arXiv 上发布了一篇论文,作者是李博杰,他在文中提出了一种名为「不可压缩知识探针」的评估框架。该框架旨在仅通过黑盒 API 调用来逆向推算任意 LLM 的参数量。

- 论文标题为《Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity》
- 研究人员长期对各种主流大模型提出一个冷门问题:“你了解中科大 Hackergame 吗?”(一项 CTF 网络安全竞赛)。这项非正式测试已经持续了三年。
在 2026 年 4 月,多个前沿模型已能精确回忆起连续多届赛事的具体细节。从跨越多个版本的观察结果可以看出,模型对世界知识认知的发展过程十分明显:GPT-4o 显示出明显的「幻觉」;Claude 3.7 Sonnet 则准确列出了 2023 年赛季的所有题目。

在 DeepSeek-V4 发布之后,研究团队利用 AI Agent 在四天内自主构建了完整的 IKP 正式数据集。该数据集中包含了 1400 个问题,并根据信息的稀缺程度划分为七个层级,在涵盖 27 家厂商的 188 个模型上进行了全面测试。
研究的核心假设在于:事实性知识的记忆容量主要取决于模型的物理参数规模,无法通过训练技巧进行大幅压缩或蒸馏。
基于这一理论,研究人员在 89 个开源模型(参数量从 1.35 亿到 1.6 万亿不等)上拟合出事实准确率与参数量的对数线性关系,并据此估算出闭源模型的参数数量。
论文指出,这种方法给出的结果如下:GPT-5.5 的参数量约为 9 万亿;Claude Opus 4.7 约为 4 万亿;GPT-5.4 约为 2.2 万亿;Claude Sonnet 4.6 约为 1.7 万亿;Gemini 2.5 Pro 约为 1.2 万亿。
同时,论文还提到了另外两项发现:模型更倾向于记住那些对领域产生重大影响的工作,而非高产但影响力较小的学者;三年来,事实记忆容量的时间系数在统计上接近于零,这与此前「Densing Law」所预测的趋势不符。研究者认为,推理能力基准趋于饱和,而事实容量仍主要受制于参数规模。
- 该数据迅速引发了技术社区内的广泛讨论和激烈的争议。
- 一些博主指出,基于估算的数字以及 Claude Opus 4.7 在近期长文本任务中的表现波动,可以推测出 Anthropic 因算力储备不足(仅为 OpenAI 的四分之一)在训练 Mythos 模型后资源见底,被迫将 Opus 4.7 的参数量从上一代的 5.3T 「反向升级」阉割至 4T;而 OpenAI 则凭借充足的算力将 GPT-5.5 堆到了 9T。
- 多位研究者和从业者对估算数字及方法论提出了不同程度的质疑。部分用户认为 GPT-5.5 约 9 万亿参数的估计与实际服务能力不符,指出 OpenAI 现有基础设施难以支撑这一规模,并且从 GPT-5.4 到 GPT-5.5 的性能提升幅度与 10 倍参数差距并不匹配。
- 定向引入「合成数据」进行微调同样可以显著提高模型对冷门知识的掌握度,这会直接干扰论文中提出的「事实知识不可压缩」的核心前提。同时,行业已知国内模型 Kimi k2.6 和 GLM 5.1 约为 800B。
- 此外,业内长期流传的 GPT-4 规模约 1.7T 的说法与论文中的估算结果存在较大差异。对于这些数字不应被视为事实,置信区间非常大。
在争议和质疑的同时,技术社区中也出现了一些富有建设性的积极讨论。
如有用户认为 MoE 架构和稠密模型在知识压缩效率上可能存在本质不同(MoE 的事实可能被分散在不同的专家模块),建议将这两类模型分开统计以观察趋势。
二是跨越三年的 96 个开源模型数据显示,事实记忆容量的时间系数在统计上接近于零,这与此前「Densing Law」所预测的效率随时间提升的规律相悖,研究者据此认为推理能力基准趋于饱和,而事实容量仍主要受制于参数规模。
这组直观的数据迅速在技术社区传播并引发广泛讨论,但也伴随着巨大的争议。

有博主基于这组估算数据,结合近期 Claude Opus 4.7 在部分长文本任务中的主观体验波动,推演出一套完整的逻辑:Anthropic 因算力储备不足(仅为 OpenAI 的四分之一),在训练 Mythos 模型后资源见底,被迫将 Opus 4.7 的参数量从上一代的 5.3T 「反向升级」阉割至 4T;而 OpenAI 则凭借充足的算力将 GPT-5.5 堆到了 9T,从而实现了体验上的反转。

也有多位研究者和从业者对估算数字及方法论提出了不同程度的质疑。
对于 GPT-5.5 约 9 万亿参数的估算,部分用户认为与实际服务能力不符,指出若规模真达到这一量级,OpenAI 现有基础设施难以支撑此前的推出方式,且 GPT-5.4 到 GPT-5.5 的性能提升幅度与 10 倍参数差距并不匹配。有人认为两者规模比约在 2 倍左右更为合理。

同时,定向引入「合成数据」进行微调,同样能显著提升模型对冷门知识的掌握度,这会直接干扰「事实知识不可压缩」的核心前提。

根据该方法估算,Gemini 2.5 Pro 和 Claude Sonnet 的规模约 1.7T,而行业已知国内模型 Kimi k2.6 和 GLM 5.1 约为 800B。若参数差距仅在两倍左右,单纯的数据差异极难解释目前两者间的巨大性能鸿沟。

此外,业内长期流传的 GPT-4 规模约 1.7T,这与论文估算的结果出入极大。

发起讨论的另一位 X 博主也补充说明:「这些数字不应被视为事实,置信区间非常大,我私下收到的反馈表明某些模型的估算可能相差甚远。」

当然,在争议与质疑之外,技术社区中也涌现出了许多极具建设性的正向探讨。
例如,有用户认为 MoE 架构和稠密模型在知识压缩效率上可能存在本质不同(MoE 的事实可能被分散在不同专家中),建议将这两类模型分开统计以观察趋势。



对这组数据你怎么看?
https://x.com/deedydas/status/2049523583517634862
https://x.com/bojie_li/status/2049314403208896521
https://www.zhihu.com/pin/2032769685012361774
https://x.com/yiran2037840/status/2049827667034439821
https://x.com/Yampeleg/status/2049573913399607711
