最近，谷歌的一项研究导致内存相关股票大跌，其KV cache压缩技术将内存使用量减少了6倍。

梦晨 2026-03-26 11:03:26 量子位

内存啥时候降价

据报道，此次市场波动与即将在2026年召开的ICLR会议上谷歌展示的一篇论文有关。

这一消息让市场反应强烈，认为这对内存股来说是个负面消息，因为未来的AI推理可能不需要这么多内存。

很多网友对此表示惊讶，称其为美剧《硅谷》中虚构创业公司Pied Piper的现实版。

在这部电视剧中，Pied Piper开发了一种“近乎无损的极限压缩算法”，这在当时被认为是科幻。

现在，类似的算法正在现实中取得突破。

KV cache的量化到3 bit是这一算法的关键。

为了理解TurboQuant的重要性，我们需要先了解它解决的问题。

在AI大模型推理过程中，处理过的数据会暂时存储在KV cache中，以便后续快速调用。

然而，随着上下文窗口的增加，内存消耗会急剧增加，KV cache成为了推理过程中的一个重要瓶颈。

传统的解决方案是通过向量量化来减少内存使用，但这通常需要额外存储量化常数，增加了内存开销。

TurboQuant通过创新性的设计，彻底解决了这个问题。

其中一项创新是PolarQuant，它使用极坐标而非传统的XYZ坐标来描述数据。

实验显示，转换后的角度分布十分集中，因此可以省去存储归一化常数的步骤。

例如，将“向东走3个路口，向北走4个路口”简化为“朝37度方向走5个路口”，信息量不变，但描述更为紧凑。

另一项技术是QJL，它将高维数据投影后压缩成+1或-1的符号位，无需额外内存。

TurboQuant结合这两项技术，实现了3-bit量化，同时保持了零精度损失。

在一系列基准测试中，TurboQuant不仅减少了KV cache的内存占用，还在性能上超越了现有方法。

在“大海捞针”任务中，TurboQuant在所有测试中均获得了满分，内存占用减少了至少6倍。

单独使用PolarQuant时，精度几乎不受影响。

而且，TurboQuant在速度上也有显著提升，在英伟达H100 GPU上，4-bit TurboQuant比32-bit未量化版本快了8倍。

在向量搜索领域，TurboQuant也超过了现有最佳量化方法，并且不需要特定的数据集优化或依赖低效的大码本。

Cloudflare CEO认为这是谷歌的DeepSeek时刻，意味着用更少资源可以训练出顶尖模型。

TurboQuant的方向与此类似，即用更少的内存实现同样质量的推理。

谷歌表示，除了Gemini等大模型，TurboQuant还能显著提高语义搜索的效率，使大规模的向量索引查询更快速且成本更低。

尽管如此，TurboQuant目前仍处于实验室阶段，尚未大规模部署。

此外，该技术仅解决了推理阶段的内存问题，对AI训练阶段没有影响。

在“大海捞针”任务上，TurboQuant在所有测试中拿下完美分数，同时KV cache内存占用缩小了至少6倍。

PolarQuant单独使用，精度也几乎无损。

速度提升同样显著。在英伟达H100 GPU上，4-bit TurboQuant计算注意力分数的速度，比32-bit未量化版本快了8倍。

不只是省内存，还更快了。

在向量搜索领域，TurboQuant同样超越了现有最优量化方法的召回率，而且不需要针对具体数据集做调优，也不依赖低效的大码本。

AI内存的DeepSeek时刻？

Cloudflare CEO评价“这是谷歌的DeepSeek时刻”。

他认为DeepSeek证明了用更少的资源也能训出顶尖模型。

TurboQuant的方向类似，用更少的内存，也能跑同样质量的推理。

谷歌表示，TurboQuant除了可以用在Gemini等大模型上，同时还能大幅提升语义搜索的效率，让谷歌级别的万亿级向量索引查询更快、成本更低。

不过TurboQuant目前还只是一个实验室成果，尚未大规模部署。

更关键的是，它只解决推理阶段的内存问题。而AI训练环节完全不受影响。

论文地址：
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

参考链接：
[1]https://x.com/eastdakota/status/2036827179150168182?s=20

最近，谷歌的一项研究导致内存相关股票大跌，其KV cache压缩技术将内存使用量减少了6倍。

梦晨 2026-03-26 11:03:26 量子位

内存啥时候降价

据报道，此次市场波动与即将在2026年召开的ICLR会议上谷歌展示的一篇论文有关。

这一消息让市场反应强烈，认为这对内存股来说是个负面消息，因为未来的AI推理可能不需要这么多内存。

很多网友对此表示惊讶，称其为美剧《硅谷》中虚构创业公司Pied Piper的现实版。

在这部电视剧中，Pied Piper开发了一种“近乎无损的极限压缩算法”，这在当时被认为是科幻。

现在，类似的算法正在现实中取得突破。

KV cache的量化到3 bit是这一算法的关键。

为了理解TurboQuant的重要性，我们需要先了解它解决的问题。

在AI大模型推理过程中，处理过的数据会暂时存储在KV cache中，以便后续快速调用。

然而，随着上下文窗口的增加，内存消耗会急剧增加，KV cache成为了推理过程中的一个重要瓶颈。

传统的解决方案是通过向量量化来减少内存使用，但这通常需要额外存储量化常数，增加了内存开销。

TurboQuant通过创新性的设计，彻底解决了这个问题。

其中一项创新是PolarQuant，它使用极坐标而非传统的XYZ坐标来描述数据。

实验显示，转换后的角度分布十分集中，因此可以省去存储归一化常数的步骤。

例如，将“向东走3个路口，向北走4个路口”简化为“朝37度方向走5个路口”，信息量不变，但描述更为紧凑。

另一项技术是QJL，它将高维数据投影后压缩成+1或-1的符号位，无需额外内存。

TurboQuant结合这两项技术，实现了3-bit量化，同时保持了零精度损失。

在一系列基准测试中，TurboQuant不仅减少了KV cache的内存占用，还在性能上超越了现有方法。

在“大海捞针”任务中，TurboQuant在所有测试中均获得了满分，内存占用减少了至少6倍。

单独使用PolarQuant时，精度几乎不受影响。

而且，TurboQuant在速度上也有显著提升，在英伟达H100 GPU上，4-bit TurboQuant比32-bit未量化版本快了8倍。

在向量搜索领域，TurboQuant也超过了现有最佳量化方法，并且不需要特定的数据集优化或依赖低效的大码本。

Cloudflare CEO认为这是谷歌的DeepSeek时刻，意味着用更少资源可以训练出顶尖模型。

TurboQuant的方向与此类似，即用更少的内存实现同样质量的推理。

谷歌表示，除了Gemini等大模型，TurboQuant还能显著提高语义搜索的效率，使大规模的向量索引查询更快速且成本更低。

尽管如此，TurboQuant目前仍处于实验室阶段，尚未大规模部署。

此外，该技术仅解决了推理阶段的内存问题，对AI训练阶段没有影响。

在“大海捞针”任务上，TurboQuant在所有测试中拿下完美分数，同时KV cache内存占用缩小了至少6倍。

PolarQuant单独使用，精度也几乎无损。

速度提升同样显著。在英伟达H100 GPU上，4-bit TurboQuant计算注意力分数的速度，比32-bit未量化版本快了8倍。

不只是省内存，还更快了。

在向量搜索领域，TurboQuant同样超越了现有最优量化方法的召回率，而且不需要针对具体数据集做调优，也不依赖低效的大码本。

AI内存的DeepSeek时刻？

Cloudflare CEO评价“这是谷歌的DeepSeek时刻”。

他认为DeepSeek证明了用更少的资源也能训出顶尖模型。

TurboQuant的方向类似，用更少的内存，也能跑同样质量的推理。

谷歌表示，TurboQuant除了可以用在Gemini等大模型上，同时还能大幅提升语义搜索的效率，让谷歌级别的万亿级向量索引查询更快、成本更低。

不过TurboQuant目前还只是一个实验室成果，尚未大规模部署。

更关键的是，它只解决推理阶段的内存问题。而AI训练环节完全不受影响。

论文地址：
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

参考链接：
[1]https://x.com/eastdakota/status/2036827179150168182?s=20

谷歌发布论文引发内存股暴跌！KV缓存压缩技术突破六倍，网友惊叹科技预言成真

最近，谷歌的一项研究导致内存相关股票大跌，其KV cache压缩技术将内存使用量减少了6倍。

然而，随着上下文窗口的增加，内存消耗会急剧增加，KV cache成为了推理过程中的一个重要瓶颈。

尽管如此，TurboQuant目前仍处于实验室阶段，尚未大规模部署。

AI内存的DeepSeek时刻？

谷歌发布论文引发内存股暴跌！KV缓存压缩技术突破六倍，网友惊叹科技预言成真

最近，谷歌的一项研究导致内存相关股票大跌，其KV cache压缩技术将内存使用量减少了6倍。

然而，随着上下文窗口的增加，内存消耗会急剧增加，KV cache成为了推理过程中的一个重要瓶颈。

尽管如此，TurboQuant目前仍处于实验室阶段，尚未大规模部署。

AI内存的DeepSeek时刻？

相关文章

相关文章