
新智元报道
Transformer的主导地位或许即将被撼动!一个名为SubQ的新模型带着SAA架构闪亮登场,成本仅为Opus的五分之一。
今天,一款革新性的AI模型SubQ问世,引起了全球的关注。
SubQ是世界上首个完全亚二次方稀疏注意力(SSA)架构的模型,具备1200万Token的上下文处理能力。
它的核心特点是动态地选择关注点,大大减少了不必要的计算量。

与传统的Transformer相比,SubQ将计算需求降低到了原来的千分之一。
实验表明,在100万个token的情境下,SubQ的速度几乎是FlashAttention的五十二倍,并且成本仅为Opus的百分之五。
Subquadratic公司,位于迈阿密,只有十三名员工,是这款模型的研发者。

AI领域的权威Bindu Reddy评论说,如果这些信息属实,那么Anthropic和OpenAI的价值可能会归零。
有人认为这将是未来LLM规模化发展的真正方式。

Transformer面临困境九年未解

自2017年谷歌发表论文《Attention is All You Need》以来,Transformer架构便确立了其统治地位。
接下来的九年里,从GPT到Claude再到Gemini,所有的先进模型都采用了密集注意力机制作为基础。
Transformer通过暴力计算每个token与序列中所有其他token的关联来运作,这导致了一个二次方复杂度的问题。

每当上下文长度增加一倍时,所需的计算资源就会飙升四倍。
这种机制使得模型随着输入的增长而变得更昂贵、更慢且更容易崩溃。
因此,几乎所有LLM的上下文都卡在了大约一百万个token的位置上。
即使技术能够处理更多的数据量,成本和性能限制也使其难以实现。
SubQ的出现彻底改变了这一状况。

SSA架构出世
不再追求「更快」,而是致力于「更少」
SSA是SubQ的核心创新点之一,它代表亚二次方稀疏注意力架构。
其基本思想在于避免每个token与所有其他token进行比较。
既然训练后的模型中绝大多数的注意力权重实际上接近于零,为何还要计算这些无用的数据?
SSA通过智能筛选关键信息位置来进行精确计算,从而大幅减少了不必要的处理量。
它只专注于有意义的部分,并忽略掉其余大部分的信息。

以下是SSA的三个重要特性:
线性扩展
计算需求随着实际选中的token数量增加,而不是整个序列长度的变化而变化。当上下文翻倍时,成本也会相应地翻倍,而非呈四次方增长。
内容依赖路由
模型根据内容的重要性来决定需要关注的位置,无论这些位置是在第3个还是第1100万个Token处。
精确检索
与循环模型不同的是,SSA保留了从任何地方精确检索信息的能力,而不会压缩成固定的格式状态。
简单来说,SSA并不是让密集注意力变得更快速,而是从根本上减少了不必要的计算量。

这种减少直接转化为速度的提升。
SubQ的速度提高了52.5倍,成本仅为Opus的五分之一
SubQ公布的数据表明了其卓越性能:
在处理一百万个token时,SSA比标准密集注意力加FlashAttention-2快52.2倍。

处理十二万八千个token速度快7.2倍,二十五万六千个token速度快13.2倍,五十一万二千个token速度快二十多倍。
显然,上下文越长,优势就越明显。
这正是SSA线性扩展的直接体现——随着序列长度的增长,密集注意力变得越来越慢,而SSA则变得更加划算。

在算力消耗方面,在一百万个token下,注意力FLOP减少了六十二点五倍;在一千二百万个token时,则达到了近一千倍的比例。

关于成本,Subquadratic公司提供了一个直观的比较:
例如,在RULER 128K基准测试中,SubQ花费八美元而Opus则需要两千六百美元,差距巨大。
需要注意的是,这些性能优势并没有以牺牲准确率为代价。
在RULER 128K基准测试中,SubQ获得了95%的评分,而Opus 4.6为94.8%;

SWE-Bench Verified(代码工程):SubQ得分为81.8,高于Opus 4.6的80.8。
MRCR v2(长上下文检索):SubQ取得了65.9%的成绩,虽然低于Opus 78%,但远超GPT 5.4 (39%) 和Gemini 3.1 Pro (23%) 的表现。

这些数据综合来看,令人震惊——
一家仅处于种子轮融资阶段的公司,以低于Opus成本五分之一的价格,在多项核心基准测试中与行业巨头并驾齐驱甚至超越他们。

SubQ可以处理多达1200万个Token的信息:
不论是完整的代码库、数月的PR记录还是长时间运行的AI智能体状态,它都能轻松应对,并且成本仅为原价的五分之一。

无法否认的是,如果这一切属实,这将是自Transformer诞生以来最重要的架构性突破。
十三人初创团队,挑战Transformer
Subquadratic成立于2024年,获得了两千九百万美元的种子轮融资,并估值五亿美元。
公司有两位联合创始人:首席执行官Justin Dangel和首席技术官Alexander Whedon。

研发团队由十一名博士组成,他们来自Meta、谷歌、牛津大学、剑桥大学和Adobe等知名机构。
值得一提的是,这家公司之前名为Aldea,专注于语音模型开发,并在后来转型为研究注意力架构。
这次公司推出了三条产品线:
- SubQ API:支持处理十二百万Token的全量上下文接口
- SubQ Search:深度研究工具,在初期阶段免费提供使用。
- SubQ发布后不久,AI领域内就出现了两种截然不同的观点。
要么就是人工智能界的Theranos。”
有人认为这是2026年最引人注目的AI发布之一。
Subquadratic可能找到了与奥特曼提出的另一架构的重大差异点。
然而,怀疑论者毫不留情地指出SubQ公司可能存在夸大事实的情况。
前OpenAI研究员Will Depue更是连发多条推文称,“SubQ几乎可以确定是基于Kimi或DeepSeek的稀疏注意力微调版本。”

支持者一方阵容不小。
人工智能行业见识过太多的“发布即巅峰”故事,发布会与实际部署之间存在巨大的鸿沟。
然而,也正是因为这一赌注的巨大性,整个行业才会认真对待它。



随着技术报告的公布和独立基准测试的重现,真相可能会渐渐浮出水面。


OpenAI前研究员Will Depue更是连发多条,第一时间指出,「SubQ几乎可以确定是基于Kimi或DeepSeek的稀疏注意力微调」。



AI圈见过太多「发布即巅峰」的故事,发布会上的PPT和真实世界的部署之间,隔着一整条死亡谷。
但话说回来,也正因为这个赌注太大,整个行业才不敢不认真对待。
答案,也许只有等技术报告公开、独立benchmark复现之后,才会真正揭晓。
参考资料:
https://x.com/alex_whedon/status/2051663268704636937?s=20
https://subq.ai/how-ssa-makes-long-context-practical
https://x.com/daniel_mac8/status/2051710659822305661?s=20
