揭秘惊人数据：马斯克持有的55万块英伟达GPU仅使用了11%

作者：世界网2026年5月6日科技1 阅读

在AI时代，如何充分利用GPU资源？

据报道，《The Information》最近的一篇文章引发了人们对马斯克旗下的xAI公司关注，其使用的GPU资源利用率仅为约11%。

目前，xAI在Memphis和Colossus数据中心集群中运营着大约55万块英伟达的H100和H200系列GPU，并且其中一部分设备采用了液冷技术。尽管这些GPU型号属于上一代产品（比最新的Blackwell系列早），但其规模仍然令人惊叹。

尽管拥有庞大的GPU存量，xAI的模型浮点运算利用率却只有11%。换句话说，在已安装的50万块GPU中，实际可用的算力相当于约6万台GPU的水平。

对于较小规模部署（如1000-10000块GPU），多节点之间的协调计算通常不是问题。然而，随着服务器数量增加到数十万台时，设备闲置时间会迅速累积，导致整体利用率下降。

在超级集群中，GPU芯片本身的计算速度很快，瓶颈在于高带宽内存（HBM）的数据读写速率和成千上万台服务器之间的网络通信开销。只要数据传输出现轻微延迟或网络拥堵，整个集群的GPU就必须等待数据加载而暂时停止工作。

此外，AI模型训练通常是间歇性的，当研究人员分析结果、调整参数或处理数据管道时，大量设备就会闲置。

尽管11%的利用率是较低数字，《The Information》的报道还揭示了AI领域的一些行业常规：算力浪费普遍存在。一些大型企业为了不被管理层批评或者避免GPU配额被其他团队占用，甚至会故意重复运行无意义任务来提高利用率数据。

如此操作也是为了保持自己的GPU配额。

这个问题并非xAI独有，而是整个AI行业的普遍现象。如何使如此大规模的基础设施高效运作是一项挑战。

AI云基础设施优化涉及众多技能领域，包括但不限于数据处理、算法设计、模型训练、计算资源管理、内核开发以及人机交互等全局优化，在工程技术上难度极大。

谷歌和Meta等科技巨头已通过大规模基础设施堆栈优化实现了超过40%的利用率。例如，谷歌GPU利用率高达46%，而Meta则为43%。

xAI所面临的挑战表明，在当前激烈的AI竞赛中，“拥有更多硬件”只是第一步，如何有效利用才是关键问题。现有的软件架构已无法应对如此大规模的硬件调度需求。

为了改善这一状况，xAI计划将利用率提升至50%，虽然没有具体的时间表，但主要改进方向将集中在基础设施和软件堆栈优化上。随着未来工作负载转向专门为“智能体AI”设计的新平台，xAI有可能将其庞大的GPU集群对外出租。

马斯克也在寻求转变，通过其 “TeraFab” 项目来加强自研算力：一方面推动多款自家芯片的研发，并纳入xAI的“AI芯片家族”；另一方面也打算利用英特尔的14A制程技术为未来的业务需求创造尖端解决方案。

xAI遭遇的问题提醒所有追赶者，在这场竞赛中，“谁拥有更多GPU”可能不再是关键因素。

参考内容：

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。