本文由智东西编辑发布,作者ZeR0,编辑漠影。
近日,全球移动芯片领头羊Arm出人意料地发布了自主研发的CPU。
在3月24日举行的旧金山智东西报道中,Arm正式推出了其首款自主设计的数据中心CPU——Arm AGI CPU,该产品采用了台积电3nm制程工艺,专为AI基础设施打造。

展示AGI CPU时,Arm CEO Rene Haas进行了介绍。
自从1989年成立以来,这是Arm首次推出对外销售的自研芯片,标志着该公司正式进军数据中心芯片领域,为AI基础设施引入高能效架构。
Arm AGI CPU采用台积电3nm工艺,双Chiplet设计,单颗CPU集成了136个高性能核心,配备2MB L2缓存,支持3.7GHz主频,提供每核心6GB/s内存带宽,内存延迟低于100ns,采用96通道PCIe Gen 6接口,支持CXL 3协议,热设计功耗为300W。

Arm宣称AGI CPU是全球最高效的智能体CPU,设计原则包括性能、规模和能效。

英伟达创始人兼CEO黄仁勋通过视频祝贺Arm发布第一款数据中心芯片。

Arm AGI CPU在单核、系统级芯片、刀片式服务器及机架等各个层级均表现出色。
通过优化线程数和单线程性能,AGI CPU实现了单机架性能达到最新x86系统的两倍以上。

此外,Arm还与Supermicro合作推出了200kW液冷设计方案,该方案可容纳336颗AGI CPU,提供超过45000个核心。

Arm计划将其参考服务器设计方案及配套固件贡献给OCP社区,以便整个生态系统受益。
Meta作为Arm AGI CPU的早期合作伙伴,参与了该CPU的联合开发,旨在为Meta全系应用优化GW级规模基础设施。

Meta基础设施负责人Santosh Janardhan表示,Meta和Arm的合作将使Meta能够注入更多算力,优化每瓦性能。

大约两年半前,Meta开始寻找能满足规格要求的CPU,但没有找到满意的解决方案。

Arm提供的可扩展性使Meta能够优化其全平台性能,实现了更高的每瓦性能。
双方承诺将围绕Arm AGI CPU的多代芯片产品展开长期深度合作。

其他首发合作伙伴包括Cerebras、Cloudflare、F5、OpenAI等,他们将在智能体CPU核心应用场景中部署Arm AGI CPU。
在大会展区,SK电信的Rebellions展示了使用Arm AGI CPU作为头节点的实例。
超大规模计算服务商、云计算、芯片、内存、网络、软件、系统设计与制造等领域的50余家行业龙头企业均对Arm计算平台向芯片领域拓展表示支持。
英伟达、谷歌、微软、亚马逊云科技、博通、Marvell、美光、三星、SK海力士、台积电等企业的高管纷纷称赞Arm AGI CPU是整个生态系统发展的重要里程碑。
黄仁勋表示,Arm架构已经成为所有平台的基础,加速计算让CPU成为不可或缺的合作伙伴。

Arm CEO Rene Haas认为,云端AI业务可能在未来几年内成为公司最大的业务。
如今数以万计的公司在云端运行其软件于Arm之上,依托已向全球数据中心交付的超过12.5亿个Arm Neoverse核心。

三十多年来,产业界基于Arm计算平台持续创新,在数千亿台设备上实现了可扩展、高能效的计算能力。
Rene Haas表示,AGI CPU的推出标志着Arm计算平台迈入全新发展阶段,AI基础设施将实现全球规模化部署。
随着智能体AI发展、CPU需求增长,高能效CPU为数据中心带来的价值日益凸显,Arm预判这在未来将代表约1000亿美元的市场机会。

Rene Haas认为,公司将有机会在一个1万亿美元量级的市场中大展身手。

(1)性能
以上就是Arm发布自主研发CPU的详细报道,敬请关注后续更多相关资讯。
(2)规模
本文由智东西编辑发布,感谢各位读者的阅读与支持。
一些传统架构采用多线程。多线程的实质是向同一个核心丢两个任务,但IO和带宽并不会因此翻倍,只是把瓶颈转移到了别处,而且CPU还必须承担管理这种来回切换的负担,导致性能下降,最终导致进程饥饿。
Arm反复观察到,数据中心运营商不得不超额配置数据中心30%甚至更多,来应对这种非线性扩展的问题。
Arm以无需这样做为傲。

▲AGI CPU与x86 CPU运行同一任务的表现对比
(3)能效
Arm对能效有着近乎偏执的专注。AGI CPU是专为目标场景打造的,没有任何遗留架构的包袱,不浪费任何一个周期,不存在搁浅的算力,不浪费任何一瓦的功耗。
在实测中,AGI CPU可提供持续性能,没有因超出功耗预算而导致的性能降频,没有内存或IO争用。

上图中,左边的AGI CPU和中间的x86 CPU柱形均在SMT(同步多线程)禁用的情况下测得,仅对比了单线程核心表现。
一个常见说法是,多线程能改善性能,带来更好的可扩展性。但如果开启多线程,结果如图中第三个柱形所示,性能下降、现实中每机架大量线程闲置、能效略有提升但不足以改变整体的算法取舍。
Arm云AI事业部执行副总裁Mohamed Awad解释说,如果对内存带宽的需求很低,SMT是合理的,因为可以共享带宽,当一个线程在等待时,可将CPU资源让给另一个线程。
但在智能体AI场景中,有大量线程需要同时支撑,有昂贵的加速器和昂贵的基础设施在等待,最不希望发生的事情就是分割I/O带宽或内存带宽,而是希望将那些I/O和内存带宽精确地专用给对应的进程。
“我们认为,这个最优值约为每秒4~6GB的带宽分配给每个核心,这正是我们的设计目标。在这类场景下,不实现SMT是更合适的选择,因此我们目前没有采用SMT的计划。”他谈道。
二、详解AGI CPU规格:3nm、136核、3.7GHz主频
从运行频率到内存及I/O架构,Arm AGI CPU每一处设计都经过专门优化,在高密度机架部署场景下,支持大规模并行、高性能的智能体AI工作负载。
AGI CPU采用台积电3nm制程工艺,基于标准Arm Neoverse V3计算子系统,单颗CPU集成136个Arm Neoverse V3高性能核心,配备2MB L2缓存,支持高达3.7GHz的主频。

该芯片提供每核心6GB/s内存带宽。领先的内存带宽使每个机架能支持更多高效执行的线程。相比之下,x86 CPU在持续高负载下会因核心争抢资源而导致性能下降。

Arm将整个系统设计为低延迟架构,使内存访问延迟低于100纳秒。
为此,AGI CPU采用了双Chiplet设计,每个Chiplet将所有内存和IO直接集成其上,无需担忧复杂的NUMA域和跨硅片的多次跳转。
在互联方面,Arm AGI CPU采用96通道PCIe Gen 6接口,支持CXL 3协议,可连接任意加速器,同时支持内存扩展等功能。

其TDP(热设计功耗)为300W,每线程独立核心,可在持续负载下提供确定性性能,避免降频与线程闲置。
三、支持风冷和液冷,单机架性能达x86系统的2倍以上
为加速产品采用,Arm推出Arm AGI CPU1OU双节点参考服务器。该服务器采用符合OCP(开放计算项目,Open Compute Project)的DC-MHS标准规格设计。

Arm的参考服务器采用1OU双节点设计,每台刀片服务器中集成2颗CPU芯片,并配备独立内存与I/O,共计272个核心。

AGI CPU支持高密度1U服务器机箱的风冷部署方案。下图是一个标准OCP风冷机架。这些刀片服务器可在标准风冷36kW机架中满配部署,30台双节点1OU刀片服务器可提供总计8160个核心。

在该配置下,Arm AGI CPU可实现单机架性能达到最新x86系统的2倍以上。

此外,Arm与Supermicro合作推出200kW液冷设计方案,可容纳336颗Arm AGI CPU,提供超过45000个核心。
Arm计划向OCP社区贡献该参考服务器设计方案及配套固件,并进一步提供包括系统架构规范、调试框架及适用于所有Arm架构系统的诊断与验证工具等资源。
这些贡献将惠及整个生态系统,对所有基于Arm的平台均有裨益。
更多细节将在即将举办的OCP EMEA峰会上公布。
四、与Meta联合开发,还有多家首发合作伙伴
Meta、OpenAI高管均来到Arm Everywhere大会现场并登台分享。
Meta作为Arm AGI CPU的早期合作伙伴与客户,参与该CPU的联合开发,旨在为Meta全系应用优化GW级规模基础设施,并与Meta自研MTIA推理加速器协同运行,从而在大规模AI系统中实现更高效的编排与调度。

“这场联姻,我个人认为是双赢的,非常令人振奋,看到从单纯的IP授权提供商,走向真正参与构建生产级、生产就绪产品的行列,”Meta基础设施负责人Santosh Janardhan谈道,“我认为最甜蜜的事情需要一些时间,而我们现在就要到了。”
他说Meta和Arm谈合作,核心理由是想在每瓦内放入更多的核心,但不想在性能上有任何妥协。
现在每天有约35亿人使用Meta的产品。每一次交互、每一篇帖子、每一个信息流、每一通电话,都建立在Meta后端构建的基础设施之上,即定制数据中心、定制硬件和定制芯片。
大约两年半前,Meta先做了市场调研,看看是否有哪款CPU能满足规格要求,结果要么满足了性能、功耗不满足,要么满足了功耗、性能不达标。
而Arm提供的可扩展性,让Meta能够注入更多算力,做到了优化每瓦性能、每千兆瓦性能、优化Meta全平台性能。
双方承诺将围绕Arm AGI CPU的多代芯片产品展开长期深度合作。
其他首发合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK电讯。
这些客户将在智能体CPU核心应用场景中部署Arm AGI CPU,覆盖加速器管理、控制平面处理、云与企业级API、任务与应用托管等领域。
在大会展区,SK电信旗下Rebellions展示了使用Arm AGI CPU作为头节点,在同一台服务器中有一批加速器的实例。

Arm展示了强大的“朋友圈”。超大规模计算服务商、云计算、芯片、内存、网络、软件、系统设计与制造等领域的50余家行业龙头企业,均对Arm计算平台向芯片领域拓展表示支持。

英伟达、谷歌、微软、亚马逊云科技、博通、Marvell、美光、微软、三星、SK海力士、台积电等企业的高管一通猛夸,认为Arm AGI CPU是整个生态系统发展的重要里程碑,将带来新一代定制化计算能力,进一步释放Arm生态系统的潜力,让更多客户能够便捷地获取Arm的计算能力,为所有基于Arm构建智能未来的合作伙伴创造新的重大机遇。
“我们很自豪能与Arm共同构建这个开放、可扩展、高能效的AI未来。加速计算并没有让CPU变得无关紧要,它让CPU成为不可或缺的合作伙伴。Arm架构已经成为我们所有平台的基础。”黄仁勋说,“Arm的适应性和可定制性,真正使我们能够将Arm整合至所有平台之中。”
结语:云端AI业务有望成Arm最大支柱,未来剑指1万亿美元市场
“全球没有任何一家公司的生态系统,能像我们这样从边缘端到云端贯通服务。”Rene Haas说。
他预测,云端AI业务可能在几年内成为Arm最大的业务。
如今数以万计的公司在云端运行其软件于Arm之上,依托已向全球数据中心交付的超过12.5亿个Arm Neoverse核心。这一增长仍在加速。

三十多年来,产业界基于Arm计算平台持续创新,在数千亿台设备上实现了可扩展、高能效的计算能力。整个生态系统正寻求大规模部署Arm技术的方案。

“今天标志着Arm计算平台迈入全新发展阶段,也成为公司发展的重要里程碑。”Rene Haas谈道,AI从根本上重塑了计算的构建与部署,智能体计算正加速这一变革,随着Arm AGI CPU芯片推出,Arm将助力智能体AI基础设施实现全球规模化部署。
在审视智能体AI发展、CPU需求增长、高能效CPU为数据中心带来的价值后,Arm预判这在未来将代表约1000亿美元的TAM。

“将我们在所有市场上积累的成果,从边缘到云端,从毫瓦到千兆瓦,我们有机会在一个1万亿美元量级的市场中大展身手。”Rene Haas说。

