搜索: "注意力机制"

共找到 3 篇相关文章

雷军宣布:未来三年将在人工智能领域投资不少于600亿人民币

雷军宣布:未来三年将在人工智能领域投资不少于600亿人民币

3月19日,小米在SU7发布会上公布了其在AI大模型领域的最新研发成果和关键数据。小米公司创始人雷军表示,公司正在加大硬核科技领域的投入,计划在未来三年内至少投入600亿元人民币用于AI研发,而今年的支出已超过160亿元。在大模型基座方面,小米推出了面向智能体时代的旗舰大模型。这款模型采用了总参数量达1万亿的MoE架构,激活参数为420亿,并运用了小米自主研发的混合注意力机制,支持百万级的上下文长

科技2 阅读
Kimi的「注意力残差」引发热议,重新定义焦点方向

Kimi的「注意力残差」引发热议,重新定义焦点方向

自2015年ResNet诞生以来,「将输入直接加到输出上」这一简单的机制,几乎统治了所有神经网络架构。近期,沿用了十年的残差机制迎来了重大变革,「注意力机制」成为了其替代方案。这一创新甚至影响到了OpenAI的研究人员,包括负责开发o1/o3系列、Codex编程模型及GPT-4 STEM能力的Jerry Tworek,他深受启发,认为需要重新评估现有的一切,「深度学习2.0」时代即将到来。这一突破

科技1 阅读
阿里巴巴开放三款升级版的中型通义千问3.5模型源代码

阿里巴巴开放三款升级版的中型通义千问3.5模型源代码

科技日报记者 崔爽2月25日,在春节期间开源了Qwen3.5-397B-A17B之后,阿里巴巴继续发布了千问3.5系列模型的源代码。此次发布的三款新模型分别是Qwen3.5-35B-A3B、Qwen3.5-122B-A10B和Qwen3.5-27B,它们都采用了创新架构并经过了优化训练,在性能上超越了前一代的大规模旗舰模型。千问3.5系列模型运用了一种混合注意力机制,并结合高稀疏的MoE架构进行设

科技2 阅读