AI主导的时代已经到来,商汤大装置如何重新设计计算资源架构
商汤大装置分享了AI云服务的实践经验
最近,在作为中关村论坛重要组成部分的一场研讨会上,“全栈智能 全域推理:Token爆发元年的全场景大规模推理服务”专题研讨会顺利召开。本次会议由趋境科技和九源智能计算系统生态联合体共同主办。
商汤大装置的首席架构师项铁尧在会议上进行了主题演讲,题为《商汤大装置AI云基础设施探索与实践》,详细阐述了公司在算力集群建设方面的创新理念及实施路径——如何将软硬件能力转化为客户可以轻松使用且高效的计算服务。
他认为,在进入AI原生时代之后,新的架构设计需要具备统一的标准、高度灵活的扩展性以及为大规模模型训练和推理优化的运行环境。
第一,AI算力池:面向不同角色、分层结构、资源自由转换
项铁尧从技术角度出发,提到Kubernetes平台正在向着支持人工智能应用的方向发展。
随着动态资源配置(DRA)、工作负载API和网关API等关键特性的引入,K8s已经不再是单纯的容器管理工具,而是进化为适应AI时代的操作系统。这标志着整个行业正从云原生集群时代向AI原生时代快速过渡。
围绕这个转变过程,项铁尧详细介绍了商汤大装置的核心产品——AI算力池。
据悉,这款AI算力池针对新型计算服务需求设计了一种“三明治”式的分层架构:从底层优化的存储和网络基础设施到中间层全新的虚拟集群技术,再到上层全面覆盖开发、训练及部署平台的PaaS产品体系。
AI算力池具备三大特点:
一是针对不同内部角色提供定制化服务;
二是采用分层结构,确保各产品之间信息互通;
三是用户可以在多种计算形态间自由切换资源。
第二,虚拟集群:全面托管、即时扩展
在基础设施层面,商汤大装置创新性地采用了虚拟集群技术,解决了传统云服务中数据管理繁重和扩容速度慢的问题。
与主流服务商仅提供控制面托管不同,该项新技术实现了对所有层的全量托管,并将扩缩容时间从几分钟缩短到几秒,同时提供了标准K8s API接口,使用户无需修改现有代码即可无缝接入。
第三,三大自主研发工具:助力大规模AI训练和推理
在虚拟集群的基础上,项铁尧提出了AI集群运行时的概念。
他指出,“搭建一个混合了离线处理和在线服务的复杂集群非常困难。”为了解决这个问题,他们通过智能推荐、深度优化以及版本锁定机制等手段帮助用户快速构建复杂的集群环境。
此外,为了满足大规模AI生产场景的需求,商汤大装置还开发了三款工具:
一是SenseCore Scheduler:支持异构硬件的高效调度器;
二是容错引擎:解决大规模训练中的故障问题;
三是Agentic Engine:针对代理程序优化的技术。
第四,虚拟节点技术:实现计算资源灵活配置
商汤大装置自主研发了虚拟节点技术,具有三大优势:
它可以无缝集成到现有的虚拟集群体系中;
提供比传统虚拟机更轻量级的使用体验和更高的性能;
并且提供与runc相比更好的安全性和隔离性。
第五,生态合作:推动国产推理基础设施迭代
在演讲中,项铁尧特别感谢了九源智能计算系统生态联合体及趋境科技的支持。
商汤大装置正在与趋境科技密切合作,为后者提供的ATaaS高效能AI Token生产服务平台提供强大的算力支持。
据介绍,该平台能够处理大规模的推理需求,并具备日均千万级别的Token生成能力。
在生态联盟层面,商汤大装置作为九源智能计算系统生态联合体的一员,积极参与这一以“产学研用服”为核心模式的合作生态系统。
该组织专注于国产智能计算系统的建设、统一软件环境以及促进技术创新成果的转化。通过自身的积累和贡献,商汤希望推动AI技术普及和发展。
展望未来,商汤大装置计划与生态伙伴密切合作,共同推进国产推理基础设施的技术升级,为我国的人工智能产业发展提供强有力的支持。
转载
本文为量子位获授权转载,观点仅为原作者所有。

量子位的朋友们