近日,在国内全栈自主研发AI推理GPU领域的企业曦望完成了新一轮融资,金额超过十亿人民币,公司估值已突破百亿元大关,成为该赛道内的首个独角兽企业。

此轮融资发生在人工智能行业全面迈向“落地应用与智能体普及”新时代的背景下,是今年迄今为止中国GPU市场中规模最大的单笔融资之一。自独立运营以来不到一年的时间里,曦望已经完成了七轮累计约四十亿元人民币的投资,成功奠定了其在国内纯推理GPU领域的领先地位。
此次获得的资金主要用于推动新一代启望S3推理GPU的大批量生产和交付、全栈软件生态系统的构建以及后续S4/S5芯片的研发与迭代工作。
曦望自成立以来便专注于AI推理市场。2026年被视为“智能体元年”,伴随大型模型从简单的对话功能升级为能够思考和执行任务的数字员工,对推理能力的需求急剧上升。英伟达在GTC 2026大会上宣布了人工智能行业进入一个全新阶段的消息,并将每瓦特吞吐量视为衡量AI时代的关键指标,这与曦望的战略定位高度一致。
曦望董事长徐冰指出:“计算力的基础建设已经全面转向推理需求。预计到今年年底,AI的推理处理能力将达到训练任务需求的四至五倍,而推理服务的价格在过去半年内上涨了近百分之四十。”公司已成功完成了三代推理GPU的产品迭代,并实现了数万颗芯片的大规模生产应用。
2026年初,曦望推出了启望S3推理GPU这一旗舰级新品。作为国内首款采用LPDDR6内存且兼容LPDDR5X的推理专用GPU,它并未盲目模仿高端训练用GPU的HBM显存设计,而是根据AI代理推理的独特需求进行了架构上的全面优化。
智能体推理过程中频繁出现的“感知-规划-执行-反馈”循环模式产生了对KV-cache密集访问的新计算负载。通用型GPU在为训练任务优化时,其实际使用效率往往远低于理论峰值性能。启望S3通过移除非必要的训练模块,集中资源于推理功能上,从而实现了单位面积内有效算力的大幅提升。
在计算层面,启望S3通过深度定制化设计解决了通用GPU“效能未完全发挥”的核心问题,相比前一代产品,在推理性能方面提升了五倍,并且目标是将Token成本降低至原来的十分之一。针对大型语言模型中的GEMM和Attention运算任务,启望S3的执行效率分别达到了约99%和98%,采用了128位指令集并支持三维指令以提高指令密度;独立线程调度技术精准匹配了智能体复杂的控制流程需求;同时通过片内数据复用技术和FP16至FP4全链路低精度运算的支持,进一步优化了性能。
这轮融资的成功完成将为启望S3的大规模商业化应用以及后续的研发创新提供强有力的资金保障。
