在AI技术迅速发展的背景下,计算架构正面临前所未有的挑战。
最新数据显示,截至今年三月,国内每天的人工智能调用量已经达到了惊人的140万亿次token,相较于去年年底的100万亿以及两年前初期的10亿量级,增幅分别高达四成和超过一千倍。
这种激增的背后,是AI技术在各种场景中的广泛应用,包括智能体、多模态交互及长文本推理等领域。当前市场对高吞吐量、低功耗计算资源的需求日益迫切,而传统的存储技术和带宽限制却无法满足这一需求,导致供需矛盾加剧。
“存算一体”作为解决这些问题的关键技术之一,在最近几年的政策文件中频繁被提及,并在“十五五”规划纲要中上升到了前所未有的战略高度。该技术与三维堆叠、光电融合等一起被视为下一代集成电路架构的重要组成部分。
在这个领域,中国的产业正在经历从概念到实践的过渡期。一方面,许多新兴企业在这一方向上持续涌现;另一方面,一些团队已经开始将原型设计转化为实际产品。
自2022年成立以来,亿铸科技在存算一体技术方面进行了早期布局,并已成为该领域的先行者之一。
最近,智东西与亿铸科技的创始人熊大鹏博士进行了一次深入对话,探讨了存算一体化的技术进步、实施挑战和产业机遇等议题。

一、从“冯·诺依曼架构”说起:存算一体技术的本质及面临的现实障碍
在AI时代,传统计算模式的局限性逐渐显现。传统的冯·诺依曼架构将程序指令与数据存储分离于计算单元之外,这一设计在处理大规模模型时显得力不从心。
这种架构导致了“存储墙”和能耗瓶颈的问题出现,在执行AI任务时尤为明显。随着模型参数量的指数级增长,数据搬运成本急剧上升,成为制约算力提升的重要因素。
在这种情况下,“存算一体”的概念应运而生。它通过将计算单元集成到内存中来减少数据传输需求和能耗,从而提高效率。
亿铸科技的产品正是这一理念的体现,有效解决了高并发、大吞吐量场景下的性能瓶颈问题,并在长文本推理等复杂任务中表现出色。
然而,“存算一体”技术在实际应用过程中仍面临诸多挑战。首先是算法迭代速度过快的问题;其次是软件生态系统兼容性障碍;再次是工程实现的难度;最后则是不同计算单元之间的融合问题。
对于这些挑战,熊大鹏博士认为“存算一体”的发展不仅需要硬件层面的技术创新,还需要在指令集、架构设计和软件工具链等全链条上进行深度研发与自主掌控。
二、迈向通用化:从技术创新到生态融合
目前,“存算一体”技术主要有模拟计算和数字计算两种路径。其中,后者因其高精度和高效能而成为当前主流方向。
存储介质的多样性和复杂性是另一个关键因素。各种存储器如SRAM、NOR Flash等各有优势与限制,这要求企业必须灵活选择适合应用场景的技术路线。
亿铸科技采取了“通用存算一体”的策略,在兼容不同存储介质和算法的同时,积极融入主流软件生态系统。
熊大鹏博士指出,“只有被广泛采用的软件生态才具有真正的商业价值。”为此,公司正致力于通过指令集等方式来实现与现有工具链的无缝对接。
三、政策导向明确,产业步入关键发展阶段
回顾亿铸科技的发展历程,可以看到其在探索通用化“存算一体”路径的过程中经历了多次尝试和调整。从最初的硬件性能至上到后来认识到软件兼容性和生态重要性的转变,这一过程反映了公司不断适应市场变化的战略灵活性。
随着行业重心转向大模型应用,“高带宽、低成本”的3D DRAM存储技术开始凸显其价值,并成为亿铸科技研发重点之一。早在两年前就开始布局该领域的他们,在算法迭代方面取得了显著进展。
在全球竞争格局中,存算一体被视为国内半导体产业实现自主突破的关键路径。它能够以成熟工艺达到甚至超越先进工艺的性能水平,从而减少对外部技术和资源的高度依赖。
十五五规划将“存算一体”技术列为国家战略层面的关注点之一,这表明相关政策信号已经非常明确。
结语:步入产业化阶段的关键时刻
从政策推动到企业探索,“存算一体”的概念正在逐步转化为实际应用。通用计算能力、软件生态兼容性以及工程实现路径将成为决定其成败的核心要素。
熊大鹏博士将当前AI技术的发展比喻为3G移动互联网初期阶段,虽然已初具规模但仍有很大提升空间。未来的理想状态是实现“更低功耗、更高吞吐量、更低成本”的算力,并且具备完善的软件生态系统支持。
他坚信,“存算一体”将在与其特点高度匹配的应用场景中发挥重要作用,成为推动智能化时代发展的重要力量之一。同时也要认识到它并非万能解决方案,其适用性与存储介质的物理特性和工艺现状密切相关。
从存储介质来看,SRAM、NOR Flash、RRAM、3D DRAM、PCRAM等不同存储器各有所长。熊大鹏一共总结出了14个存储介质之间的差异点,包括密度、读写速度、读写次数、读写功耗、成本、良率、一致性、工艺兼容性、产能现状等等。
面临如此庞杂的选项,亿铸并未急于绑定某一技术路径,而是选择了“通用存算一体”的方向,熊大鹏也向我们解释了通用存算一体的三个维度:
第一是存储层面的通用性,即能否兼容不同存储介质;
第二是算力层面的通用性,即能否支持各类算法和模型;
第三是软件生态的通用性,即能否兼容主流生态和被更多开发者使用。
这三个通用性,恰好回应了目前存算一体在存储介质、算法迭代和软件生态三个维度上的核心难题。
存算一体架构目前的主要价值是两个维度,一个是贡献更低功耗,一个是贡献更大容量和吞吐,两者目前无法在同一存储介质上实现,因此就必然带来不同场景需求、不同取舍的优先级决定了不同存储介质存算一体芯片的设计选择。
亿铸已在实践中已尝试过两种将新型存储介质应用于存算一体的方案。这一架构的优势也在探索中显现:企业可以根据目标市场对容量、功耗、成本、性能的不同要求,灵活选择存储介质。在当下新型存储介质并进,标准尚未统一的阶段,这也成为了一种面向不确定性的架构保险。
在软件层面,兼容现有生态被亿铸视为关键策略之一。熊大鹏透露,其团队的实现路径是通过指令集层面对Triton和CUDA等主流生态进行兼容。不过,他也强调,兼容只是第一步:“能跑不代表跑得好,算子效率还需要持续优化。”通过编译器和自动优化工具实现算子自动生成和自动优化,极大减少软件工作量和加快应用部署时间,是通用存算一体的一大优势。
“软件生态不是口号,而是工程师用脚投票的结果”,熊大鹏认为,“只有被广泛使用的软件生态,才真正具备商业价值。”
三、存算一体重心调整,政策信号趋于明朗
回顾亿铸的发展路径可以发现,其通用存算一体的路径并非一蹴而就,而是在不断尝试中成型。
熊大鹏回忆称,他曾在17年-19年专注于研发某创新架构,但在落地过程中遭遇软件生态和通用性巨大阻碍:“我们当时的创业认知是硬件性能更强就可以胜出,但后来发现,软件生态的兼容性和通用性同样关键。”这一经验也成为亿铸在存算一体赛道坚持在硬件架构创新的同时,兼顾生态兼容和通用性的重要原因。
而在存储架构的通用性方面,亿铸也经历了认知演变的过程。23年之前,产业对服务器级的AI算力卡的主流需求是基于75W功耗实现比T4更好的AI推理性能。
然而,自2023年开始,行业的重心向大模型和高存储容量倾斜。熊大鹏观察到:“大模型(2023年前后)流行后,核心问题变成了大容量、大带宽和token高吞吐率,同时功耗维持在合理的范围内。”
大容量、大带宽、低成本的3D DRAM,开始在这一发展阶段体现出价值。
早在2022年,亿铸便关注到了3D DRAM的潜力,并进行持续探索和技术储备。这些前置的技术探索,让亿铸在算法迭代中可以快速实现方案的迭代,满足大模型时代对“大容量、大吞吐、低功耗、高性价比”的AI大算力芯片的要求。
在中国半导体产业寻求自主突破与差异化路径的背景下,这一演进路径显得尤为务实。
在全球算力竞争格局中,传统路径高度依赖先进制程与高带宽存储。在外部环境不确定性加大的背景下,探索新的架构路径被视为提升国内半导体产业自主能力的重要方向。
熊大鹏认为,存算一体的价值在于从架构层面实现突破:“它可以用成熟工艺达到和超越先进工艺的性能,缓解对先进工艺和HBM等高带宽存储的依赖,为算力提供新的解法。”
从这一视角来看,十五五规划对存算一体的高度关注也显得更为顺理成章。熊大鹏说道,列入规划代表国家已经完成了技术原理论证与产业价值论证,政策信号已较为明确。
结语:存算一体,走向产业化的关键阶段
从政策支持到企业探索,存算一体正逐步走出概念验证阶段,迈向产业化落地。在这一过程中,通用计算能力、软件生态兼容以及工程实现路径,将成为决定胜负的关键因素。
对于产业发展阶段,熊大鹏给出了一个形象类比,现在的AI就像3G移动互联网,雏形已现、令人兴奋,但贵、慢、还没有成为人们生活、工作中不可或缺的组成部分。真正的爆发,还需要持续提高性能、降低成本。
他将未来理想的AI算力定义为“3+1”特征,即更低功耗、更高吞吐、更低成本,以及良好的软件生态。目前,国际主流厂商至多做到1+1,比如软件生态做的好,但无法实现功耗、吞吐、成本三者兼顾。而亿铸的团队正致力于用“通用存算一体”技术,实现真正的“3+1”闭环。
熊大鹏也认为,随着智能化时代进一步的发展,算法的发展已经带来更加多元的算力需求,存算一体不是万用良方,它有着很强的适用性,且和存储介质本身的物理特点和工艺现状息息相关,但它一定会和更早的CPU、GPU、TPU、NPU一样,在与其特点高度匹配的场景里发挥不可或缺的作用。
