
人大孟澄团队&华为提出集成剪枝视角下的MoE新架构
本文已被 ICML2026 接收,第一作者康欣来、共同第一作者薛敦耀来自中国人民大学统计与大数据研究院。通讯作者为中国人民大学孟澄助理教授与华为基础大模型部研究员陈汉亭。导语近年来,Mixture-of-Experts(MoE)已经成为大模型扩展的重要架构之一。相比稠密 Transformer,MoE 通过稀疏激活机制,在每个 token 上只调用少量专家,从而在控制计算成本的同时扩大模型容量。然
共找到 8 篇相关文章

本文已被 ICML2026 接收,第一作者康欣来、共同第一作者薛敦耀来自中国人民大学统计与大数据研究院。通讯作者为中国人民大学孟澄助理教授与华为基础大模型部研究员陈汉亭。导语近年来,Mixture-of-Experts(MoE)已经成为大模型扩展的重要架构之一。相比稠密 Transformer,MoE 通过稀疏激活机制,在每个 token 上只调用少量专家,从而在控制计算成本的同时扩大模型容量。然

近年来,Chain-of-Thought(CoT)推理已经成为提升大语言模型和多模态大语言模型复杂问题求解能力的重要技术路径。然而,这种 “显式思考” 也带来了一个越来越突出的效率问题:模型往往需要生成大量的中间推理文本,导致推理 token 数显著增加,从而带来更高的推理延迟、显存占用和计算成本。尤其在多模态大模型(MLLMs)中,输入通常包含图像、问题和复杂上下文,模型为了完成推理,往往需要先

新智元报道Transformer的主导地位或许即将被撼动!一个名为SubQ的新模型带着SAA架构闪亮登场,成本仅为Opus的五分之一。今天,一款革新性的AI模型SubQ问世,引起了全球的关注。SubQ是世界上首个完全亚二次方稀疏注意力(SSA)架构的模型,具备1200万Token的上下文处理能力。它的核心特点是动态地选择关注点,大大减少了不必要的计算量。与传统的Transformer相比,SubQ

OpenAI预计今年的计算成本将达到500亿美元,而其总裁布罗克曼在创立公司时并未投入任何个人资金。这两组数据在同一法庭上被提及,揭示了这家人工智能巨头烧钱速度之快与创始人诉讼中披露的尴尬事实。OpenAI 2026年的五一假期故事比好莱坞电影情节还要离奇。在5月6日,OpenAI宣布GPT-5.5 Instant即日起向所有ChatGPT用户开放。付费用户在未来三个月内仍可继续使用旧版模型,但之

新智元报道最近,中国科学院的一支团队发布了名为「瞬悉2.0」的类脑大模型,该模型在优化架构和编码路径方面取得了显著进展,特别是在长序列处理效率与低功耗部署方面表现出色。当前的大规模模型上下文长度迅速增长,导致代码仓库理解、智能体以及多模态交互等场景对长序列处理能力提出了更高要求。传统Transformer在推理时的计算成本和显存占用会随着输入序列长度的增长而增加,这对实际部署构成了挑战。近期,中国

据知情人士透露,OpenAI已同意在未来三年内向初创芯片公司Cerebras支付超过两百亿美元,以获取后者的服务器支持,并有可能获得一定比例的股权。这一举动发生在OpenAI正试图应对日益增长的需求并努力在人工智能领域保持领先地位之时。同时,此举也有助于该公司减少对英伟达硬件产品的依赖,并通过多样化其硬件布局来显著降低计算成本。日益增长的需求Cerebras公司成立于2015年,因其生产的晶圆级

当前,基于预训练视觉表征构建世界模型已成为具身智能领域的一项重要研究方向。例如,DINO-WM 等先进成果表明,利用视觉 Transformer (ViT) 架构可以准确捕捉复杂的物理动态,并具备强大的零样本规划能力。然而,该方法在处理所有图像块时采用密集计算的方式,导致大量资源被浪费在静态背景上,从而造成了高昂的计算成本和决策速度减缓的问题。特别是在处理如 Push-T 等典型操作任务时,最先进

视频生成扩散模型体积日益增大:从 2B 到 5B 再到 14B 等,效果显著提升的同时,训练和推理的成本也急剧上升。社区希望利用量化技术缩小模型规模,降低显存及计算成本,使其能在更多设备上运行并实现低成本部署。然而实际情况并不乐观:一旦使用 3/4 比特,视频生成的量化感知训练(QAT)相比图像更加难以处理且稳定性较差,画质下降幅度更大——不是轻微减少质量,而是变得无法接受。图表展示了 CogVi