SSA架构问世：13人团队挑战Transformer，计算成本降至Opus的5%，效能提升千倍

作者：世界网2026年5月7日科技1 阅读

新智元报道

Transformer的主导地位或许即将被撼动！一个名为SubQ的新模型带着SAA架构闪亮登场，成本仅为Opus的五分之一。

今天，一款革新性的AI模型SubQ问世，引起了全球的关注。

SubQ是世界上首个完全亚二次方稀疏注意力（SSA）架构的模型，具备1200万Token的上下文处理能力。

它的核心特点是动态地选择关注点，大大减少了不必要的计算量。

与传统的Transformer相比，SubQ将计算需求降低到了原来的千分之一。

实验表明，在100万个token的情境下，SubQ的速度几乎是FlashAttention的五十二倍，并且成本仅为Opus的百分之五。

Subquadratic公司，位于迈阿密，只有十三名员工，是这款模型的研发者。

AI领域的权威Bindu Reddy评论说，如果这些信息属实，那么Anthropic和OpenAI的价值可能会归零。

有人认为这将是未来LLM规模化发展的真正方式。

Transformer面临困境九年未解

自2017年谷歌发表论文《Attention is All You Need》以来，Transformer架构便确立了其统治地位。

接下来的九年里，从GPT到Claude再到Gemini，所有的先进模型都采用了密集注意力机制作为基础。

Transformer通过暴力计算每个token与序列中所有其他token的关联来运作，这导致了一个二次方复杂度的问题。

每当上下文长度增加一倍时，所需的计算资源就会飙升四倍。

这种机制使得模型随着输入的增长而变得更昂贵、更慢且更容易崩溃。

因此，几乎所有LLM的上下文都卡在了大约一百万个token的位置上。

即使技术能够处理更多的数据量，成本和性能限制也使其难以实现。

SubQ的出现彻底改变了这一状况。

SSA架构出世

不再追求「更快」，而是致力于「更少」

SSA是SubQ的核心创新点之一，它代表亚二次方稀疏注意力架构。

其基本思想在于避免每个token与所有其他token进行比较。

既然训练后的模型中绝大多数的注意力权重实际上接近于零，为何还要计算这些无用的数据？

SSA通过智能筛选关键信息位置来进行精确计算，从而大幅减少了不必要的处理量。

它只专注于有意义的部分，并忽略掉其余大部分的信息。

以下是SSA的三个重要特性：

线性扩展

计算需求随着实际选中的token数量增加，而不是整个序列长度的变化而变化。当上下文翻倍时，成本也会相应地翻倍，而非呈四次方增长。

内容依赖路由

模型根据内容的重要性来决定需要关注的位置，无论这些位置是在第3个还是第1100万个Token处。

精确检索

与循环模型不同的是，SSA保留了从任何地方精确检索信息的能力，而不会压缩成固定的格式状态。

简单来说，SSA并不是让密集注意力变得更快速，而是从根本上减少了不必要的计算量。

这种减少直接转化为速度的提升。

SubQ的速度提高了52.5倍，成本仅为Opus的五分之一

SubQ公布的数据表明了其卓越性能：

在处理一百万个token时，SSA比标准密集注意力加FlashAttention-2快52.2倍。

处理十二万八千个token速度快7.2倍，二十五万六千个token速度快13.2倍，五十一万二千个token速度快二十多倍。

显然，上下文越长，优势就越明显。

这正是SSA线性扩展的直接体现——随着序列长度的增长，密集注意力变得越来越慢，而SSA则变得更加划算。

在算力消耗方面，在一百万个token下，注意力FLOP减少了六十二点五倍；在一千二百万个token时，则达到了近一千倍的比例。

关于成本，Subquadratic公司提供了一个直观的比较：

例如，在RULER 128K基准测试中，SubQ花费八美元而Opus则需要两千六百美元，差距巨大。

需要注意的是，这些性能优势并没有以牺牲准确率为代价。

在RULER 128K基准测试中，SubQ获得了95%的评分，而Opus 4.6为94.8%；

SWE-Bench Verified（代码工程）：SubQ得分为81.8，高于Opus 4.6的80.8。

MRCR v2（长上下文检索）：SubQ取得了65.9%的成绩，虽然低于Opus 78%，但远超GPT 5.4 (39%) 和Gemini 3.1 Pro (23%) 的表现。

这些数据综合来看，令人震惊——

一家仅处于种子轮融资阶段的公司，以低于Opus成本五分之一的价格，在多项核心基准测试中与行业巨头并驾齐驱甚至超越他们。

SubQ可以处理多达1200万个Token的信息：

不论是完整的代码库、数月的PR记录还是长时间运行的AI智能体状态，它都能轻松应对，并且成本仅为原价的五分之一。

无法否认的是，如果这一切属实，这将是自Transformer诞生以来最重要的架构性突破。

十三人初创团队，挑战Transformer

Subquadratic成立于2024年，获得了两千九百万美元的种子轮融资，并估值五亿美元。

公司有两位联合创始人：首席执行官Justin Dangel和首席技术官Alexander Whedon。

研发团队由十一名博士组成，他们来自Meta、谷歌、牛津大学、剑桥大学和Adobe等知名机构。

值得一提的是，这家公司之前名为Aldea，专注于语音模型开发，并在后来转型为研究注意力架构。

这次公司推出了三条产品线：

SubQ API：支持处理十二百万Token的全量上下文接口
SubQ Search：深度研究工具，在初期阶段免费提供使用。
SubQ发布后不久，AI领域内就出现了两种截然不同的观点。

要么就是人工智能界的Theranos。”

有人认为这是2026年最引人注目的AI发布之一。

Subquadratic可能找到了与奥特曼提出的另一架构的重大差异点。

然而，怀疑论者毫不留情地指出SubQ公司可能存在夸大事实的情况。

前OpenAI研究员Will Depue更是连发多条推文称，“SubQ几乎可以确定是基于Kimi或DeepSeek的稀疏注意力微调版本。”

支持者一方阵容不小。

人工智能行业见识过太多的“发布即巅峰”故事，发布会与实际部署之间存在巨大的鸿沟。

然而，也正是因为这一赌注的巨大性，整个行业才会认真对待它。

随着技术报告的公布和独立基准测试的重现，真相可能会渐渐浮出水面。

OpenAI前研究员Will Depue更是连发多条，第一时间指出，「SubQ几乎可以确定是基于Kimi或DeepSeek的稀疏注意力微调」。

AI圈见过太多「发布即巅峰」的故事，发布会上的PPT和真实世界的部署之间，隔着一整条死亡谷。

但话说回来，也正因为这个赌注太大，整个行业才不敢不认真对待。

答案，也许只有等技术报告公开、独立benchmark复现之后，才会真正揭晓。

参考资料：

https://x.com/alex_whedon/status/2051663268704636937?s=20

https://subq.ai/how-ssa-makes-long-context-practical

https://x.com/daniel_mac8/status/2051710659822305661?s=20

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

SSA架构问世：13人团队挑战Transformer，计算成本降至Opus的5%，效能提升千倍

作者：世界网2026年5月7日科技1 阅读

新智元报道

Transformer的主导地位或许即将被撼动！一个名为SubQ的新模型带着SAA架构闪亮登场，成本仅为Opus的五分之一。

今天，一款革新性的AI模型SubQ问世，引起了全球的关注。

SubQ是世界上首个完全亚二次方稀疏注意力（SSA）架构的模型，具备1200万Token的上下文处理能力。

它的核心特点是动态地选择关注点，大大减少了不必要的计算量。

与传统的Transformer相比，SubQ将计算需求降低到了原来的千分之一。

实验表明，在100万个token的情境下，SubQ的速度几乎是FlashAttention的五十二倍，并且成本仅为Opus的百分之五。

Subquadratic公司，位于迈阿密，只有十三名员工，是这款模型的研发者。

AI领域的权威Bindu Reddy评论说，如果这些信息属实，那么Anthropic和OpenAI的价值可能会归零。

有人认为这将是未来LLM规模化发展的真正方式。

Transformer面临困境九年未解

自2017年谷歌发表论文《Attention is All You Need》以来，Transformer架构便确立了其统治地位。

接下来的九年里，从GPT到Claude再到Gemini，所有的先进模型都采用了密集注意力机制作为基础。

Transformer通过暴力计算每个token与序列中所有其他token的关联来运作，这导致了一个二次方复杂度的问题。

每当上下文长度增加一倍时，所需的计算资源就会飙升四倍。

这种机制使得模型随着输入的增长而变得更昂贵、更慢且更容易崩溃。

因此，几乎所有LLM的上下文都卡在了大约一百万个token的位置上。

即使技术能够处理更多的数据量，成本和性能限制也使其难以实现。

SubQ的出现彻底改变了这一状况。

SSA架构出世

不再追求「更快」，而是致力于「更少」

SSA是SubQ的核心创新点之一，它代表亚二次方稀疏注意力架构。

其基本思想在于避免每个token与所有其他token进行比较。

既然训练后的模型中绝大多数的注意力权重实际上接近于零，为何还要计算这些无用的数据？

SSA通过智能筛选关键信息位置来进行精确计算，从而大幅减少了不必要的处理量。

它只专注于有意义的部分，并忽略掉其余大部分的信息。

以下是SSA的三个重要特性：

线性扩展

计算需求随着实际选中的token数量增加，而不是整个序列长度的变化而变化。当上下文翻倍时，成本也会相应地翻倍，而非呈四次方增长。

内容依赖路由

模型根据内容的重要性来决定需要关注的位置，无论这些位置是在第3个还是第1100万个Token处。

精确检索

与循环模型不同的是，SSA保留了从任何地方精确检索信息的能力，而不会压缩成固定的格式状态。

简单来说，SSA并不是让密集注意力变得更快速，而是从根本上减少了不必要的计算量。

这种减少直接转化为速度的提升。

SubQ的速度提高了52.5倍，成本仅为Opus的五分之一

SubQ公布的数据表明了其卓越性能：

在处理一百万个token时，SSA比标准密集注意力加FlashAttention-2快52.2倍。

处理十二万八千个token速度快7.2倍，二十五万六千个token速度快13.2倍，五十一万二千个token速度快二十多倍。

显然，上下文越长，优势就越明显。

这正是SSA线性扩展的直接体现——随着序列长度的增长，密集注意力变得越来越慢，而SSA则变得更加划算。

在算力消耗方面，在一百万个token下，注意力FLOP减少了六十二点五倍；在一千二百万个token时，则达到了近一千倍的比例。

关于成本，Subquadratic公司提供了一个直观的比较：

例如，在RULER 128K基准测试中，SubQ花费八美元而Opus则需要两千六百美元，差距巨大。

需要注意的是，这些性能优势并没有以牺牲准确率为代价。

在RULER 128K基准测试中，SubQ获得了95%的评分，而Opus 4.6为94.8%；

SWE-Bench Verified（代码工程）：SubQ得分为81.8，高于Opus 4.6的80.8。

MRCR v2（长上下文检索）：SubQ取得了65.9%的成绩，虽然低于Opus 78%，但远超GPT 5.4 (39%) 和Gemini 3.1 Pro (23%) 的表现。

这些数据综合来看，令人震惊——

一家仅处于种子轮融资阶段的公司，以低于Opus成本五分之一的价格，在多项核心基准测试中与行业巨头并驾齐驱甚至超越他们。

SubQ可以处理多达1200万个Token的信息：

不论是完整的代码库、数月的PR记录还是长时间运行的AI智能体状态，它都能轻松应对，并且成本仅为原价的五分之一。

无法否认的是，如果这一切属实，这将是自Transformer诞生以来最重要的架构性突破。

十三人初创团队，挑战Transformer

Subquadratic成立于2024年，获得了两千九百万美元的种子轮融资，并估值五亿美元。

公司有两位联合创始人：首席执行官Justin Dangel和首席技术官Alexander Whedon。

研发团队由十一名博士组成，他们来自Meta、谷歌、牛津大学、剑桥大学和Adobe等知名机构。

值得一提的是，这家公司之前名为Aldea，专注于语音模型开发，并在后来转型为研究注意力架构。

这次公司推出了三条产品线：

SubQ API：支持处理十二百万Token的全量上下文接口
SubQ Search：深度研究工具，在初期阶段免费提供使用。
SubQ发布后不久，AI领域内就出现了两种截然不同的观点。

要么就是人工智能界的Theranos。”

有人认为这是2026年最引人注目的AI发布之一。

Subquadratic可能找到了与奥特曼提出的另一架构的重大差异点。

然而，怀疑论者毫不留情地指出SubQ公司可能存在夸大事实的情况。

前OpenAI研究员Will Depue更是连发多条推文称，“SubQ几乎可以确定是基于Kimi或DeepSeek的稀疏注意力微调版本。”

支持者一方阵容不小。

人工智能行业见识过太多的“发布即巅峰”故事，发布会与实际部署之间存在巨大的鸿沟。

然而，也正是因为这一赌注的巨大性，整个行业才会认真对待它。

随着技术报告的公布和独立基准测试的重现，真相可能会渐渐浮出水面。

OpenAI前研究员Will Depue更是连发多条，第一时间指出，「SubQ几乎可以确定是基于Kimi或DeepSeek的稀疏注意力微调」。

AI圈见过太多「发布即巅峰」的故事，发布会上的PPT和真实世界的部署之间，隔着一整条死亡谷。

但话说回来，也正因为这个赌注太大，整个行业才不敢不认真对待。

答案，也许只有等技术报告公开、独立benchmark复现之后，才会真正揭晓。

参考资料：

https://x.com/alex_whedon/status/2051663268704636937?s=20

https://subq.ai/how-ssa-makes-long-context-practical

https://x.com/daniel_mac8/status/2051710659822305661?s=20

“”

SSA架构问世：13人团队挑战Transformer，计算成本降至Opus的5%，效能提升千倍

SSA架构问世：13人团队挑战Transformer，计算成本降至Opus的5%，效能提升千倍

相关文章

相关文章