搜索: "稀疏注意力"

共找到 2 篇相关文章

SSA架构问世：13人团队挑战Transformer，计算成本降至Opus的5%，效能提升千倍

新智元报道Transformer的主导地位或许即将被撼动！一个名为SubQ的新模型带着SAA架构闪亮登场，成本仅为Opus的五分之一。今天，一款革新性的AI模型SubQ问世，引起了全球的关注。SubQ是世界上首个完全亚二次方稀疏注意力（SSA）架构的模型，具备1200万Token的上下文处理能力。它的核心特点是动态地选择关注点，大大减少了不必要的计算量。与传统的Transformer相比，SubQ

科技2026/5/73 阅读

北大团队革新DeepSeek算法，提速四倍不失精准度

近日，一篇关于新稀疏注意力机制的研究论文引起广泛关注。论文提出了一种名为HISA（Hierarchical Indexing Sparse Attention）的新方法，成功解决了大模型中的索引瓶颈问题，并提高了计算效率。相较于现有的DeepSeek Sparse Attention (DSA) 方法，HISA不仅速度提升了2至4倍，而且无需额外的微调步骤便能实现即插即用的效果。研究团队在多种大模

科技2026/4/711 阅读