当前,人工智能领域的竞争正逐步从模型能力的较量转向规模化应用的争夺。应用形式已从单一的问答模式扩展到多智能体协作、长链推理和复合任务执行,这导致了 Token 需求的快速增长。与此同时,算力采购、部署及运行过程中的设备和能源成本持续上升,导致算力投入与实际 Token 产出的匹配问题日益凸显。因此,提高 Token 推理效率的系统优化成为了推动产业持续发展的关键。
针对这一行业趋势,全球领先的高效能 AI Token 生产服务商趋境科技近日发布了一款全新的 AI 推理平台——趋境 ATaaS 高效能 AI Token 生产服务平台(Approaching.AI Token as a Service),旨在解决高额硬件投资难以转化为优质 Token 产能,以及资源浪费和成本空耗的难题。
为应对当前行业挑战,趋境 ATaaS 平台利用四大自主研发的核心技术模块,构建了一个覆盖异构整合、智能调度和弹性扩容的全链路能力体系。该平台将算力与能源封装为分层、面向具体应用场景的高效能 Token 服务,为国产算力的提质增效、解决异构算力孤岛问题、实现大规模降本增效提供了标杆级的中国解决方案。

解读四大行业现状:高投入的硬件不一定带来高效的 Token 产出
1、硬件负载分化:过度依赖 GPU,其他资源闲置浪费
在传统的 Token 生成链路中,GPU 的依赖度极高,而 CPU、大容量内存、集群 SSD 和 IB 高速互联等昂贵资源的长期利用率不足 10%,整个系统的硬件资源利用率不足 20%,导致智算集群的规模化刚性成本空耗严重。
2、软硬件迭代失衡:芯片硬件快速更新,软件生态适配滞后
尽管硬件标称算力持续提升,但在通信、访存和算子融合等方面,软件层的优化未能跟上步伐,PD/PP/CP/DP 等分布式并行策略在复杂组合下稳定性不足,最终导致超过 80% 的理论算力未能得到有效利用。
3、算力配置不当:缺乏业务 SLO 的精细化调度,粗放配置浪费资源
当前的集群算力配置无法根据推理业务在时延、吞吐和稳定性上的差异化需求进行精准匹配,CPU、GPU 和内存等异构资源的配置仍然较为粗放,导致超过 50% 的算力资源被浪费。
4、架构演进失衡:丰富的开源模块,但拼接集成难以支撑大规模生产
开源生态提供了众多的大模型推理模块,但在大规模集群场景下,仅靠组件拼接难以解决系统级协同问题。原生架构对 KV Cache、序列长度等模型状态关键参数的感知不足,容易引发负载失衡,加之通信阻塞和服务波动等因素,系统扩展后性能下降和运维复杂度上升,无法支持大规模高效能 Token 生产。
趋境 ATaaS,四大核心技术突破产业瓶颈,重塑 Token 生产效能曲线
趋境科技提供高效能 Token 的关键在于重构算力、电力与 Token 产量之间的效能曲线。ATaaS 不仅是一个简单的资源供给平台,更是一个效能放大器,通过软件手段大幅提升 Token 产能。

六合:异构推理 2.0|全球首创大模型计算逻辑重构技术
深度融合 CPU+GPU、国产与非国产算力异构 PD 分离等技术,重构模型计算逻辑,并基于算子与任务特征进行智能分流:CPU 承载低计算密度任务,国产算力卡处理高密度 Prefill,大显存显卡承载高访存 Decode。万卡级智算集群的整体运营成本可降低20%以上。
月饼:以存换算 2.0|全球首创超体量 KV Cache 缓存技术
通过架构重构,将原本依赖昂贵显存承载的 KV Cache 存储空间扩展百倍至千倍,形成近乎无限的缓存池资源,缓存命中率最高可达 90%,直接削减 90% GPU 算力开销。
双仪:虚实同构|全球首创算子级 SLO 仿真
基于算子级精细仿真,推演大模型 Token 生成全链路的吞吐、时延与访存表现,实现算力资源的智能预规划与动态调优;围绕业务 SLO 分级需求,精准切分异构算力配额并隔离资源优先级,可将万卡级智算集群硬件综合资源利用率提升数倍。
万象:极致弹性|打通规模化量产最后壁垒
依托系统化工程能力,实现万亿参数大模型 7 秒快速拉起与动态配置变更、数百节点超大规模 EP 弹性调度,以及智能容灾重构和负载均衡,形成平台原生支持万卡级高性能横向扩展的关键能力。在落地初期,便推动某在线公司的AI业务实现千卡集群吞吐翻倍。
从“数据中心”到“Token工厂”
“趋境 ATaaS:高效能 AI Token 生产服务平台(Approaching.AI Token as a Service)”的发布,标志着 AI 基础设施发展重点的进一步演进。行业关注的焦点,已从单纯的算力规模竞争转向对 Token 生产效率的综合衡量,其中包括 Token 响应延时(TTFT)、Token 吞吐(TPS)以及资源利用效率等关键指标。
这一理念与当前的行业共识一致,随着黄仁勋宣布 NVIDIA 的1万亿美元需求预测,以及 Token “供不应求”成为常态,算力基础设施正从“数据中心”演进为“Token 工厂”。
作为高效能 AI Token 生产服务商,趋境科技依托长期的团队积累和推理优化能力,推出趋境 ATaaS 平台的意义不仅在于拓展了推理基础设施的技术边界,更在于为 AI 基础设施的建设和运营提供了新的思路和行业标准:通过提升算力调度效率、优化推理过程、增强资源协同能力,使每单位算力和能耗投入都能数倍转化为更稳定、更可衡量的 Token 价值产出。
转载
本文为量子位获授权转载,观点仅为原作者所有。
