量子位 | QbitAI 的金磊 发表了一篇文章。
杭州速度的概念正变得越来越有价值。
一家专注于推理GPU的初创企业,在独立运营不到两年的时间里,已经完成了七轮融资,累计金额达到40亿元!
最近曝光的一轮投资中,这家公司获得了10亿人民币的巨额融资,成为国内首家估值超过百亿元的大规模推理GPU独角兽。
它,就是曦望。

推理计算已经成为人工智能算力竞争的新亮点。今年英伟达GTC大会推出了一款名为LPU的产品,而国内市场也在迅猛跟进类似的技术趋势。
在众多国产GPU企业都在追求训练和推理一体、追求峰值性能的情况下,曦望凭什么凭借其专注于推理的策略获得如此高的资本青睐?
量子位对曦望联席CEO王湛进行了一次深入访谈,探讨了这个问题。
这位曾是百度创始团队成员之一,并亲身经历了中国互联网从泡沫到繁荣全过程的技术老兵,在这次对话中不仅揭示了资本追捧背后的核心逻辑,还从行业趋势、技术路线、组织管理和未来展望四个维度描绘出一幅清晰的AI推理时代蓝图。
算力需求的结构反转了
回溯两年前,“百模大战”如火如荼之际,市场最关注的是大模型参数量和训练集群规模。然而到了2026年的今天,整个行业的焦点已经发生了巨大变化。
访谈之初,王湛便提出了这样的观点:
谁能提供最低的推理成本,谁就能在竞争中占据优势地位。
Agent的本质在于使AI不再局限于简单的问答模式,而是能够自主分析、学习并执行复杂任务的智能实体。
为确保Agent高效运行所需的底层动力就是推理算力,或者更直接地说——Token消耗量。
这带来了显著的技术转折点:即计算需求结构的重大转变。
目前市场上最热门的需求是推理算力,呈现出指数级增长态势。相比之下,训练算力的需求相对平稳,但根据现有数据,在2026年内,AI推理计算的需求量将是训练算力的4-5倍。
这种转变使得推理算力首次全面超越了训练算力,并且这种超越的速度非常快。
为何会出现这样的逆转?答案在于Agent的操作机制中。
在过去的互动模式下,人与AI之间的交流是一次性的;但在Agent时代,为了完成任务,智能体将进行高频的多轮调用和循环思考。
比如前几天国外一位用户仅仅跟ChatGPT打了声招呼,便消耗了价值80美元的Token。

△图片由AI生成
对此,王湛强调:
这种模式导致单个Token的成本急剧上升。相比之下,过去的人机交互方式对Token的需求要低得多。
也就是说,在当前环境下,企业不再仅仅是关心模型能否运行,而是更加注重其可用性和成本效益。
这也解释了为什么英伟达在GTC大会上强调“每瓦Token吞吐量”,以及国内云服务提供商由于成本压力而调整算力价格的现象。
王湛认为,降低成本不仅是商业目标,更是技术普及的关键前提:
只有大幅降低单位Token的成本,才能真正推动海量Agent的应用。否则即使产品再好用,高昂的使用费用也让人望而却步。
正是因为如此,曦望在一开始就选择了专注于推理这一方向——因为推理是实现AI工业化的关键。
如何将百万Token的成本降至一分钱?
如果说All in 推理是一种策略导向,那么如何从技术层面真正降低成本,则是对团队工程能力和供应链洞察力的考验。
面对那些既需要训练又需要推理的企业客户疑问,曦望的态度十分明确:
对于大规模推理场景而言,通用GPU往往性价比不足。此外,在智能体广泛应用的趋势下,高效的推理算力还需要能应对高频调用下的低延迟、高吞吐量需求。
基于此,曦望开发了一款名为S3的产品,旨在满足这些苛刻的要求,并计划将其推向市场。

在此次访谈的最后部分,作为中国科技发展历程中的见证者和参与者,王湛表达了如下看法:
AI本质上是在分发智能,它为人类提供了消除信息鸿沟的机会。只要明确自己的目标,AI就能提供前所未有的支持。而曦望的目标就是降低这种强大技术的成本。
这不仅是给在这个快速发展的AI时代感到迷茫的年轻人的建议,也是曦望这家年轻独角兽企业能够精准定位、迅速崛起的真实写照。
通用GPU常常面临算力用不满的尴尬,而S3专为推理而生的AI Core架构,将GEMM和Flash Attention等核心算子的利用率硬生生拔高到了约99%与98%。同时,S3原生支持从FP16到FP4的全链路低精度运算,在模型效果接近无损的情况下,吞吐量翻了数倍。
其次是系统层的大胆创新,两个国内第一,也是专门为长上下文和智能体准备的:
S3是国内第一个用LPDDR6的推理GPU,也兼容LPDDR5X,显存最大可以做到接近600GB,是国内显存容量最大的GPU;而且也是目前已发布的国产GPU里,第一个用上PCIe Gen6的,系统通信带宽翻了一倍。
这两个技术加起来,解决了长上下文记忆的瓶颈:S3能同时存更多用户的对话记忆,处理更长的上下文,而且速度也快、成本大幅降低。
王湛对此解释道:我们的目标非常明确:把单位Token的成本降90%,做出普惠的推理算力。
当然,能把LPDDR6和PCIe Gen6 这两个业界最前沿的技术能顺利调通、用起来,用出极高的性能,绝非易事,这极度依赖全栈自研和超群的工程能力。
王湛自豪地表示,曦望的硬件AI Core和软件全栈都是100%自研。
GPU要真正发挥效能,必须是均衡的。你不能某一个地方极强,但中间卡着瓶颈。正是因为我们具备全栈自研能力,才能基于LPDDR6和PICe Gen6去做深度的调配与优化,把它的效能真正压榨出来。
但在坚持底层自主可控的同时,曦望并没有封闭自己,而是实现了对CUDA生态99%+的兼容。
在外界看来,自主可控与兼容CUDA似乎存在天然的矛盾。但在王湛眼中,这完全是路线选择的问题。
我们选择了通用计算架构(GPU),而不是专用架构(ASIC)。通用架构保证了对各种客户需求、不同Agent的极强适配性。在这个基础上,我们通过自己写底层代码来兼容CUDA生态。这既保证了客户零迁移成本的便利,又守住了我们底层的自主可控。这两者并不矛盾。
曦望目前保持了每一代芯片都实现一次性流片成功并点亮。
这背后,其实是一支极其庞大且低调的验证团队在默默支撑。据透露,曦望团队自主开发了全套的仿真验证工具,在芯片真正送去流片前,就已经在仿真平台上跑过了海量算子,哪里有瓶颈、怎么修,早已胸有成竹。
六边形战士和三位一体
任何一次现象级融资的背后,最核心的标的永远是人。
在与王湛的对话中,能强烈感受到他每天来上班时那种肾上腺素飙升的兴奋感。这种兴奋,源于他身处一个极度同频且强大的铁血战队之中。
曦望的顶层架构被业界戏称为“三位一体”:
- 董事长徐冰(商汤联合创始人):负责把控战略方向与融资,有极强的AI发展趋势洞察力;
- 联席CEO王勇(前AMD、昆仑芯核心架构师):专注芯片研发,拥有20多年硬核半导体经验,是实打实的技术灵魂;
- 联席CEO王湛(前百度资深副总裁):操盘商业化、运营与市场,将互联网大厂的敏锐嗅觉与产品打法注入这块硬科技的土壤。

然而,做AI基础设施,光靠三个人是不够的。正如王湛所说:
AI芯片的竞争,是一个全能赛,就像体操里的全能项目,吊环、双杠什么都得行。没有任何一个人能各方面都很强,我们必须靠好的组织管理,把优秀的人聚合在一起,打造我们的六边形战士网络。
目前的曦望,团队规模已达400余人,研发人员占比超80%,核心技术骨干来自英伟达、AMD、华为海思、阿里、商汤等大厂,平均行业经验超过15年。
为了留住这些顶尖的六边形战士,曦望在组织机制上做出了中国创企中极为罕见的让步。王湛向量子位透露了一个极具魄力的细节:
我们在所有中国GPU公司里,给了团队和员工最大的ESOP(员工持股计划)池。
徐冰在拉我入伙时就说过,他要拿出最大的ESOP池来招募最优秀的人才。只要我们把这件事情做成,人才的价值就会巨大。
这种类似于早期华为、阿里的分享机制,爆发出极强的组织战斗力。
Agent是泡沫还是工业革命?
拿下百亿估值、超10亿融资,置身于这场AI资本热潮中,曾经亲历过2000年互联网泡沫破裂的王湛,显得既清醒又坚定。
现在的一二级市场对硬科技的估值确实非常乐观。不仅是芯片公司,你看那些大模型公司的估值和收入比,确实夸张。面对划时代的技术突破机会,资本愿意去赌、去搏,这是资本的特性。
但这一次,AI和当年的互联网泡沫有着本质的不同。
王湛回忆,2000年互联网叫得震天响时,全中国的网民才几百万。即使发展了十年,PC网民也不过一亿多。这需要一个漫长的时间去渗透。
但AI呢?ChatGPT出来后,迅速成为人类历史上最快破亿用户的应用。而且它不是大家尝个鲜就走的淄博烧烤,这几年来,用户量在急速增加,且越用越离不开。
王湛认为,AI底层的基础价值正在以远超人类过往任何一次产业革命的速度迅速上升。
如果工业革命花了百年,信息革命花了二三十年,那么AI智能革命可能把社会的巨变压缩到短短几年。在这个时代,它或许上个月还是很大的泡沫,下个月就变成小泡沫了,底层的价值正在飞速填补这些估值。
对于今年下半年甚至更长远的算力市场规模,王湛的判断只有四个字:供不应求。
限制算力规模增长的根本不是市场需求,而是生产工具。光模块造不过来,内存被抢光涨了十倍,服务器都在抢。Seedance 2.0生成视频如果能从排队4小时缩短到1分钟,使用量会增加多少倍?只要瓶颈被打开,体验变好,需求就会成十倍百倍地暴涨。
在商业化落地上,曦望将目光瞄准了要求最苛刻的互联网大厂。
大厂对产品的要求极其苛刻,但我要求我们的团队,必须去找最难服务、标准最高的客户。只有在最大压力下被打磨出来的产品,才能真正立住根基。
依托S3海量的交付能力和团队生态布局,这块最难啃的骨头,正是曦望接下来的主攻方向。
在访谈的最后,作为中国科技发展的见证者和亲历者,王湛表示:
在这个时代,AI本质上是在分发智能,它给了人类一个机会去抹平信息鸿沟。只要你想清楚了你要干嘛,AI就能给你前所未有的助力。而我们曦望要做的,就是把这个极其厉害的东西,成本彻底降下来。
先知己,再知AI,方能百战不殆。
这不仅是王湛给在这个狂飙突进的AI时代中感到迷茫的年轻人的建议,或许,这也是曦望这家年轻的独角兽企业,能够在算力红海中精准破局、一路狂奔的真实写照。
