搜索: "注意力机制"

共找到 5 篇相关文章

22岁小伙成功开源Mythos架构！借鉴DeepSeek的MoE与注意力机制

一位年轻的开发者最近成功开源了名为Mythos的架构，这位22岁的小伙借鉴了DeepSeek的技术。梦晨 2026-04-20 15:59:51 量子位

AI2026/4/214 阅读

北大团队革新DeepSeek算法，提速四倍不失精准度

近日，一篇关于新稀疏注意力机制的研究论文引起广泛关注。论文提出了一种名为HISA（Hierarchical Indexing Sparse Attention）的新方法，成功解决了大模型中的索引瓶颈问题，并提高了计算效率。相较于现有的DeepSeek Sparse Attention (DSA) 方法，HISA不仅速度提升了2至4倍，而且无需额外的微调步骤便能实现即插即用的效果。研究团队在多种大模

科技2026/4/711 阅读

雷军宣布：未来三年将在人工智能领域投资不少于600亿人民币

3月19日，小米在SU7发布会上公布了其在AI大模型领域的最新研发成果和关键数据。小米公司创始人雷军表示，公司正在加大硬核科技领域的投入，计划在未来三年内至少投入600亿元人民币用于AI研发，而今年的支出已超过160亿元。在大模型基座方面，小米推出了面向智能体时代的旗舰大模型。这款模型采用了总参数量达1万亿的MoE架构，激活参数为420亿，并运用了小米自主研发的混合注意力机制，支持百万级的上下文长

科技2026/3/194 阅读

Kimi的「注意力残差」引发热议，重新定义焦点方向

自2015年ResNet诞生以来，「将输入直接加到输出上」这一简单的机制，几乎统治了所有神经网络架构。近期，沿用了十年的残差机制迎来了重大变革，「注意力机制」成为了其替代方案。这一创新甚至影响到了OpenAI的研究人员，包括负责开发o1/o3系列、Codex编程模型及GPT-4 STEM能力的Jerry Tworek，他深受启发，认为需要重新评估现有的一切，「深度学习2.0」时代即将到来。这一突破

科技2026/3/175 阅读

阿里巴巴开放三款升级版的中型通义千问3.5模型源代码

科技日报记者崔爽2月25日，在春节期间开源了Qwen3.5-397B-A17B之后，阿里巴巴继续发布了千问3.5系列模型的源代码。此次发布的三款新模型分别是Qwen3.5-35B-A3B、Qwen3.5-122B-A10B和Qwen3.5-27B，它们都采用了创新架构并经过了优化训练，在性能上超越了前一代的大规模旗舰模型。千问3.5系列模型运用了一种混合注意力机制，并结合高稀疏的MoE架构进行设

科技2026/2/273 阅读