最近X上有个帖子挺火的。
一个叫Sivori的博主发帖说,Anthropic正在购买数百万本书籍,扫描并销毁,因为从法律角度看销毁是最安全的选择。他还提到,这是他20年前读过的Vernor Vinge小说《The Rainbow's End》里的情节。

推文浏览超百万,转发评论一大堆。
小红书上也有人在聊这事,说法都是标题那个夸张风格,什么「A社把人类知识库蒸馏了」「古籍全部没了」。

这事吧,有真有假。真的部分远比小说还魔幻,假的部分也确实被放大了不少。我翻了媒体报道和法院文件,给你们捋一捋。
真事,巴拿马项目确实存在
2026年初,法庭文件曝光了Anthropic一个代号「Project Panama」的内部计划。
中文翻译过来叫巴拿马项目。
这个项目的目标简单粗暴,搞到世界上所有的书。2024年2月,Anthropic挖来了曾参与Google Books项目的Tom Turvey,交给他一个听起来像反派台词的任务,获取「世界上所有的书」。
怎么搞的呢?投入了大量资金,从二手书零售商和Strand这样的实体书店,大量采购实体书。然后拉到仓库里,切掉书脊进行破坏性高速扫描成PDF,剩下的纸质残骸送去回收公司销毁。

A社为什么敢这么干,不违法吗?
Anthropic的法律论证部分依赖于「首次销售原则」,你买了实体书,就有权对这个副本做任何处理,包括销毁。再叠加「合理使用」的多因素判断,合法取得副本、扫描后销毁原件、数字文件仅内部使用不对外分发、且不替代原书市场——法官综合评估了这几条,最终认定构成合理使用。
法官整体倾向认为,这类模式具备较强的fair use抗辩基础。相比直接去盗版网站扒书,法律风险确实低很多。
但实际上,Anthropic也干了盗版的事。这事就复杂了。
巴拿马项目之所以被曝光,是因为Anthropic同时被作家们起诉,他们早期就从LibGen(一个盗版电子书网站)下载了大量书籍用于训练。CEO Dario Amodei管出版商的许可谈判叫「法律/实践/商业上的麻烦」,所以早期干脆用盗版。后来觉得风险太大,才转头搞了实体书破坏性扫描这套方案。
2025年,媒体曾报道Anthropic推进了一项规模约15亿美元的和解方案,针对的是盗版数据集的集体诉讼。注意,这15亿主要指向盗版那笔账,不是为巴拿马项目本身买单。这在AI版权领域被认为是金额最高的和解之一。
法官对「合法购买加扫描训练」这个模式整体持支持态度,如果Anthropic从一开始就走这条路,他们的fair use抗辩会更有力。但先干盗版再转正的做法,至少在道义和舆论上已经把自己的路子走窄了。当然话说回来,AI训练的fair use在美国整体仍然没有最终定论,Meta、OpenAI的案子都还在打,这个领域远没到盖棺定论的时候。
真的和小说情节一毛一样
这确实是最魔幻的部分。
Vernor Vinge在2006年写的小说《The Rainbow's End》里,有一个名为Librareome Project的设定:图书馆用破坏性扫描的方式数字化馆藏,然后销毁纸质书籍。
2026年,Anthropic在现实世界里做了高度相似的事。
科幻作家不是在预言未来,他只是在写一个听起来合理但又够极端的故事。谁知道二十年后的AI公司看了一眼,觉得这是个好主意。
被夸张的部分
不过网上传的那些说法,确实有不少需要纠正的。
第一,不是「珍稀古籍」。Anthropic采购的主要是流通量比较大的二手普通书籍,从大型零售商那里批量拿货。不是孤本、善本,不是什么具有文物价值的东西。真正抗议的主要是作家和出版商协会,因为他们主张版权被侵犯,而不是文博界的文物保护单位——被销毁的只是工业印刷品,不是不可再生的文化遗产。
第二,没有「蒸馏了人类大部分知识库」那么夸张。他们处理了几百万册书没错,但人类历史上出版的书籍以数十亿计。几百万册在这个量级面前,只是很小的一部分。更准确的说法是,他们获取了一部分高质量文本用于训练,不是把人类知识蒸馏了。
第三,做法虽然粗暴,但方向其实挺明确的。Anthropic的联合创始人早在2023年就写过,用书籍训练模型能让AI学会「如何写得更好」,而不是去模仿那些质量参差不齐的网络用语。这个动机本身没什么问题,问题出在执行方式上。
Anthropic为了给AI喂书,雇人切书脊、高速扫描、然后销毁。Claude学会写那些漂亮句子的同时,上百万本实体书变成了回收纸浆。
有用户曾让Claude评价这一事件,Claude给出过一段颇具文学性的回应:「这些销毁行为帮助创造了能够讨论文学、帮人写作、与人类知识对话的我,这层复杂性我还在消化当中。就像是用一座图书馆的灰烬建造起来的一样。
这话说的,看起来确实像蒸馏了不少文学书籍。
但说真的,用灰烬堆积出来的智能,到底能在人类知识的废墟上站多久,谁也不知道。
