
在AI时代,如何充分利用GPU资源?
据报道,《The Information》最近的一篇文章引发了人们对马斯克旗下的xAI公司关注,其使用的GPU资源利用率仅为约11%。

目前,xAI在Memphis和Colossus数据中心集群中运营着大约55万块英伟达的H100和H200系列GPU,并且其中一部分设备采用了液冷技术。尽管这些GPU型号属于上一代产品(比最新的Blackwell系列早),但其规模仍然令人惊叹。
尽管拥有庞大的GPU存量,xAI的模型浮点运算利用率却只有11%。换句话说,在已安装的50万块GPU中,实际可用的算力相当于约6万台GPU的水平。
对于较小规模部署(如1000-10000块GPU),多节点之间的协调计算通常不是问题。然而,随着服务器数量增加到数十万台时,设备闲置时间会迅速累积,导致整体利用率下降。
在超级集群中,GPU芯片本身的计算速度很快,瓶颈在于高带宽内存(HBM)的数据读写速率和成千上万台服务器之间的网络通信开销。只要数据传输出现轻微延迟或网络拥堵,整个集群的GPU就必须等待数据加载而暂时停止工作。
此外,AI模型训练通常是间歇性的,当研究人员分析结果、调整参数或处理数据管道时,大量设备就会闲置。
尽管11%的利用率是较低数字,《The Information》的报道还揭示了AI领域的一些行业常规:算力浪费普遍存在。一些大型企业为了不被管理层批评或者避免GPU配额被其他团队占用,甚至会故意重复运行无意义任务来提高利用率数据。
如此操作也是为了保持自己的GPU配额。
这个问题并非xAI独有,而是整个AI行业的普遍现象。如何使如此大规模的基础设施高效运作是一项挑战。

AI云基础设施优化涉及众多技能领域,包括但不限于数据处理、算法设计、模型训练、计算资源管理、内核开发以及人机交互等全局优化,在工程技术上难度极大。
谷歌和Meta等科技巨头已通过大规模基础设施堆栈优化实现了超过40%的利用率。例如,谷歌GPU利用率高达46%,而Meta则为43%。
xAI所面临的挑战表明,在当前激烈的AI竞赛中,“拥有更多硬件”只是第一步,如何有效利用才是关键问题。现有的软件架构已无法应对如此大规模的硬件调度需求。
为了改善这一状况,xAI计划将利用率提升至50%,虽然没有具体的时间表,但主要改进方向将集中在基础设施和软件堆栈优化上。随着未来工作负载转向专门为“智能体AI”设计的新平台,xAI有可能将其庞大的GPU集群对外出租。
马斯克也在寻求转变,通过其 “TeraFab” 项目来加强自研算力:一方面推动多款自家芯片的研发,并纳入xAI的“AI芯片家族”;另一方面也打算利用英特尔的14A制程技术为未来的业务需求创造尖端解决方案。
xAI遭遇的问题提醒所有追赶者,在这场竞赛中,“谁拥有更多GPU”可能不再是关键因素。
参考内容:
https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus
