中科院发布瞬悉2.0：破解长序列处理与低能耗部署难题

作者：世界网2026年5月3日科技1 阅读

新智元报道

最近，中国科学院的一支团队发布了名为「瞬悉2.0」的类脑大模型，该模型在优化架构和编码路径方面取得了显著进展，特别是在长序列处理效率与低功耗部署方面表现出色。

当前的大规模模型上下文长度迅速增长，导致代码仓库理解、智能体以及多模态交互等场景对长序列处理能力提出了更高要求。

传统Transformer在推理时的计算成本和显存占用会随着输入序列长度的增长而增加，这对实际部署构成了挑战。

近期，中国科学院自动化研究所李国齐与徐波团队基于「瞬悉1.0」的研究成果，在解决当前大模型长序列处理及低功耗部署等问题的基础上，推出了SpikingBrain2.0-5B（简称SpB2.0-5B）系列。

该系列模型和其前身均采用了类脑机制作为核心理念，并在模型结构、训练算法以及应用范围等方面进行了全面升级。研究团队已经将瞬悉2.0-5B语言模型及视觉语言模型的源代码公开发布。

随着上下文长度的增长，大模型处理长序列的能力变得尤为重要。

瞬悉1.0采用类脑机制解决了传统Transformer在长序列处理上的瓶颈问题，并为低功耗大模型的研发奠定了基础。此次推出的瞬悉2.0则在此基础上进一步改进了脉冲激活值编码策略等关键部分，实现了对前者的全面超越。

新发布的「瞬悉2.0」通过大幅降低训练成本，在保持高性能的同时达到了更高的效率和更低的成本目标，为人工智能轻量化与多模态应用开辟新方向。相较于之前的版本，它在长序列处理能力、能耗以及跨平台适配性等方面取得了显著进步。

在短序列场景下，Transformer模型的计算瓶颈在于前馈矩阵乘法；而在长序列场景中，则转向注意力模块导致推理效率下降。为了应对这一问题，「瞬悉2.0」对这两部分进行了针对性的设计改进。

瞬悉2.0在长文档分析、代码理解和智能体等应用中的表现尤为出色，它能够处理数十万甚至百万级的token，并且实现了比以往更优的综合性能和更低的成本开销。这表明瞬悉2.0不仅具有优秀的长序列处理能力，还能有效降低部署成本。

新模型采用了一种双空间混合稀疏注意力机制（Dual-Space Sparse Attention, DSSA），结合了MoBA与SSE两种计算策略，在保持良好性能的同时实现了更高效的资源利用。此外，它还采用了FP8和INT8-Spiking编码路径，这两种方法分别适用于不同的部署环境。

通过引入双空间稀疏注意力机制（DSSA）以及两种激活值编码策略，瞬悉2.0成功缓解了Transformer模型在长序列处理上的能耗瓶颈问题。研究团队还分享了一些关键的实践经验，为未来的相关研究提供了宝贵的参考。

研究背景

瞬悉2.0系列模型不仅提升了大模型在长序列任务中的性能和效率，同时也显著降低了开发成本，并且展示了其在不同硬件平台上的优异表现，特别是在FP8路径下的高精度和INT8-Spiking路径下的低能耗特点。这为未来类脑基础模型的研发提供了新的可能。

通过采用优化的架构转换流程，瞬悉2.0能够以极少量的数据和计算资源快速构建出高质量的语言及多模态模型，极大地降低了开发成本。

在Huggingface序列并行框架下，与Qwen3相比，瞬悉2.0在长序列处理速度上实现了显著提升。此外，在vLLM张量并行框架下的测试结果也表明了它的强大性能和高效率特点。

瞬悉2.0语言模型不仅具备强大的通用知识推理能力，而且还能有效地完成一系列复杂的任务，其表现甚至超过了Qwen3这一强劲基准模型。同时，在视觉语言任务上也能与主流的强基线模型媲美。

架构设计

「瞬悉2.0」在不同硬件平台上的适应性非常突出，无论是采用FP8还是INT8-Spiking路径时都能保持良好的精度和能耗表现，并且展示了其在处理长序列任务方面的巨大潜力。

该系列模型的成功发布为低功耗、高性能的多模态基础模型研发提供了宝贵的实践经验和技术支持。研究团队表示将继续致力于探索类脑机制与高效大模型架构结合的新路径，推动人工智能技术的发展进入新的阶段。

瞬悉2.0提出双空间稀疏注意力（Dual-Space Sparse Attention, DSSA），用于在层间混合稀疏Softmax注意力MoBA与稀疏线性注意力Sparse State Expansion （SSE）。其中，MoBA对完整的KV cache进行块级稀疏计算，SSE则对压缩式状态表征进行稀疏计算。这一设计对应类脑化的稀疏记忆机制，实现了优良的长序列性能-效率权衡。

瞬悉2.0架构概览

（2）双路径激活值编码策略

瞬悉2.0采用了包括FP8和INT8-Spiking两种对偶激活值编码路径：

FP8编码路径：利用低比特Tensor Core加速矩阵乘运算，该路径面向工业GPU部署（如NVIDIA Hopper GPU）；
INT8-Spiking编码路径：把激活值转为脉冲序列，可将密集矩阵乘法替换为事件驱动的整数累加，大幅降低部署功耗，该路径面向异步神经形态芯片部署。

瞬悉2.0对偶编码路径

转换训练流程

瞬悉2.0采用比瞬悉1.0更高效、模态更广的架构转换流程（Transformer-to-Hybrid Conversion），依托极少量开源数据和计算资源，分别为语言模型与多模态模型构建两条独立的续训转换路径，大幅降低开发成本。

（1）LLM转换路径：包括短上下文蒸馏、三阶段长上下文扩展（最高至512k）以及两阶段的通用加推理SFT，同时开展了在策略蒸馏探索。

（2）VLM转换路径：包括知识蒸馏与指令微调。本文还同时分享了实践过程中的关键Takeaways，为社区研究提供参考。

瞬悉2.0转换训练Pipeline

模型性能

1. 长序列处理效率显著提升

（1）在Huggingface序列并行框架下，瞬悉2.0在4M长度相比Qwen3实现10.13倍的首token生成时延（TTFT）加速（2）在vLLM张量并行框架下，512k长度端到端生成延迟降低4.3倍，128k长度下总吞吐提升1.57倍、请求并发数提升3.17倍；

（3）依托vLLM框架，8卡A100即可支持长达10M序列的推理，而Qwen3基线在4M长度时已超出显存限制，展现出突出的长序列处理优势。

2. 训练成本大幅降低

瞬悉2.0-5B语言与多模态模型的总转换开销低至7k A100卡时以下，仅需32张A100，9天内即可完成对Qwen3-4B和Qwen3-VL-4B的全部转换训练，相较于SpB1.0，训练成本减少10倍以上（LLM CPT数据量从150B降至14B），实现了高效低成本的模型开发。

3. 模型性能保持竞争力

（1）瞬悉2.0语言模型在通用知识（如MMLU、ARC-C、BBH等任务）以及SFT后推理能力（如数学推理GSM8K、MATH，代码HumanEval、MBPP等任务）的表现可与强基线Qwen3比肩且实现比瞬悉1.0更优综合性能。

（2）瞬悉2.0-VL模型性能实现对Qwen3-VL的有效恢复，可与强基线Qwen2.5-VL比肩（如图表推理AI2D、通用视觉推理MMStar等任务），在瞬悉1.0的基础上实现了多模态能力的突破。

4. 跨硬件平台适配性突出

瞬悉2.0可灵活适配不同硬件平台：

（1）采用FP8路径时，精度损失仅为0.24%；在H100上实测显示，256k序列长度下TTFT提速相比瞬悉2.0 BF16版本超2.5倍，同时在4M长度下相比Qwen3 BF16基线提速达15.13倍；

（2）采用INT8-Spiking路径时，精度损失仅为0.69%，且脉冲稀疏度高达64.3%；后仿模拟结果显示，该方案在测试场景下相比INT8矩阵乘法基线，面积减小70.6%，在250/500MHz工作频率下，功耗降低48.1%/46.5%，有望破解端侧部署的功耗瓶颈。

瞬悉2.0系列模型的发布，为轻量级、多模态高效脉冲基础模型的研发提供了可行路径，进一步验证了类脑机制与高效模型架构结合的广阔前景。

同时，该模型为端侧、资源受限场景的大模型部署提供了高性价比解决方案，也为低功耗神经形态计算的后续研发提供重要参考。研究团队将继续秉承类脑大模型技术「概念一致、迭代升级」的理念，持续研发可比肩主流大模型的低功耗神经形态计算。

参考资料：

https://arxiv.org/abs/2604.22575

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

中科院发布瞬悉2.0：破解长序列处理与低能耗部署难题

作者：世界网2026年5月3日科技1 阅读

新智元报道

当前的大规模模型上下文长度迅速增长，导致代码仓库理解、智能体以及多模态交互等场景对长序列处理能力提出了更高要求。

传统Transformer在推理时的计算成本和显存占用会随着输入序列长度的增长而增加，这对实际部署构成了挑战。

随着上下文长度的增长，大模型处理长序列的能力变得尤为重要。

研究背景

通过采用优化的架构转换流程，瞬悉2.0能够以极少量的数据和计算资源快速构建出高质量的语言及多模态模型，极大地降低了开发成本。

架构设计

瞬悉2.0架构概览

（2）双路径激活值编码策略

瞬悉2.0采用了包括FP8和INT8-Spiking两种对偶激活值编码路径：

FP8编码路径：利用低比特Tensor Core加速矩阵乘运算，该路径面向工业GPU部署（如NVIDIA Hopper GPU）；
INT8-Spiking编码路径：把激活值转为脉冲序列，可将密集矩阵乘法替换为事件驱动的整数累加，大幅降低部署功耗，该路径面向异步神经形态芯片部署。

瞬悉2.0对偶编码路径

转换训练流程

（1）LLM转换路径：包括短上下文蒸馏、三阶段长上下文扩展（最高至512k）以及两阶段的通用加推理SFT，同时开展了在策略蒸馏探索。

（2）VLM转换路径：包括知识蒸馏与指令微调。本文还同时分享了实践过程中的关键Takeaways，为社区研究提供参考。

瞬悉2.0转换训练Pipeline

模型性能

1. 长序列处理效率显著提升

（3）依托vLLM框架，8卡A100即可支持长达10M序列的推理，而Qwen3基线在4M长度时已超出显存限制，展现出突出的长序列处理优势。

2. 训练成本大幅降低

3. 模型性能保持竞争力

4. 跨硬件平台适配性突出

瞬悉2.0可灵活适配不同硬件平台：

瞬悉2.0系列模型的发布，为轻量级、多模态高效脉冲基础模型的研发提供了可行路径，进一步验证了类脑机制与高效模型架构结合的广阔前景。

参考资料：

https://arxiv.org/abs/2604.22575

“”

中科院发布瞬悉2.0：破解长序列处理与低能耗部署难题

中科院发布瞬悉2.0：破解长序列处理与低能耗部署难题

相关文章

相关文章