搜索: "稀疏注意力"

共找到 2 篇相关文章

SSA架构问世:13人团队挑战Transformer,计算成本降至Opus的5%,效能提升千倍

SSA架构问世:13人团队挑战Transformer,计算成本降至Opus的5%,效能提升千倍

新智元报道Transformer的主导地位或许即将被撼动!一个名为SubQ的新模型带着SAA架构闪亮登场,成本仅为Opus的五分之一。今天,一款革新性的AI模型SubQ问世,引起了全球的关注。SubQ是世界上首个完全亚二次方稀疏注意力(SSA)架构的模型,具备1200万Token的上下文处理能力。它的核心特点是动态地选择关注点,大大减少了不必要的计算量。与传统的Transformer相比,SubQ

科技3 阅读
北大团队革新DeepSeek算法,提速四倍不失精准度

北大团队革新DeepSeek算法,提速四倍不失精准度

近日,一篇关于新稀疏注意力机制的研究论文引起广泛关注。论文提出了一种名为HISA(Hierarchical Indexing Sparse Attention)的新方法,成功解决了大模型中的索引瓶颈问题,并提高了计算效率。相较于现有的DeepSeek Sparse Attention (DSA) 方法,HISA不仅速度提升了2至4倍,而且无需额外的微调步骤便能实现即插即用的效果。研究团队在多种大模

科技11 阅读