国内首家百亿估值纯推理GPU独角兽诞生量子位

杭州速度，这个词组的含金量还在上升。

因为一家纯推理GPU公司，在分拆独立仅1年多时间里，竟已经完成了七轮融资，累计40亿元！

而随着前几天最新一轮融资的曝光，还以10亿元拿下今年这个赛道里最大单笔融资，一举成为国内首家估值超百亿的纯推理GPU独角兽。

它，就是曦望。

推理正在成为 AI 算力竞速的新风口。今年英伟达GTC，直接拿收购来的Groq推出LPU，而国内，国产版Groq也在狂飙突进。

加之在几乎所有国产GPU都在卷训推一体、拼峰值算力的大环境下，曦望凭什么靠All in推理的路线，受到资本市场如此的青睐？

带着这个问题，量子位与曦望联席CEO王湛进行了一场深度对话。

这位百度创始团队出身、亲历了中国互联网从泡沫到繁荣全过程的行业老兵，不仅一语道破了资本追捧背后的核心逻辑，更从行业趋势、技术路线、团队组织与未来判断四个维度，向我们勾勒出了一幅清晰的AI推理时代新蓝图。

算力需求的结构反转了

时间拨回一两年前，当百模大战打得火热时，市场最关心的指标是大模型的参数量、训练集群的规模。但在2026年的当下，风向已经彻底变了。

访谈伊始，王湛就抛出了这样的定调：

谁掌握最低的推理成本，谁就是赢家。

Agent的本质是让AI不再局限于一问一答的聊天机器人，是要它成为能够自主分析、学习并执行复杂任务的智能实体。

而驱动这一切运转的底层燃料，就是推理算力，或者更直白地说——Token。

这就带来了一个巨大的行业拐点：算力需求的结构性反转。

市场上最热的就是推理算力需求，呈现出了指数级的增长。训练算力的需求依然保持平稳，但在我们目前看到的数据中，整个2026年，AI推理计算的需求量将达到训练算力需求的4-5倍。

这是推理算力第一次全面超越训练算力，而且超越得如此迅猛。

为什么会产生这种反转？答案藏在Agent的运行机制里。

过去，人跟AI交互是单次对话；但在Agent时代，为了完成一个任务，智能体会进行高频的、多次的多轮调用和循环思考。

就像前几天国外一个小哥，只是跟龙虾说了一句“Hi”，就烧掉了80美元的Token。

△图片由AI生成

对此，王湛强调：

这种方式使得整个Token的消耗，达到了过去人机交互方式的几十倍甚至上百倍。在这个背景下，单位Token的成本就变得非常引人注目了。

换句话说，过去企业关心大模型“能不能用”，现在企业最关心的是“好不好用”以及“用不用得起”。

这也解释了为什么从英伟达在GTC上强调“每瓦Token吞吐量”，到国内云厂商接连因为成本压力调整算力价格，成本已经倒逼成为了技术演进的核心推手。

在王湛看来，降低成本不仅是商业诉求，更是技术普及的前提：

你只有将单位Token的成本出现大幅度降低，才能真正激活海量Agent的使用。不然这玩意儿再好用，用起来成本极高，大家也用不起。

而这，正是曦望在一开始就毅然决然选择All in 推理的根本原因——推理，才是真正的AI工业化。

百万Token一分钱，怎么做到？

如果说All in 推理是方向，那么如何在技术层面把成本真正打下来，就是对团队工程化能力和供应链洞察力的极致大考。

面对那些既要训练又要推理的客户疑问，曦望的态度非常明确：

通用GPU如果用来做大集群训练是很好的，但大规模推理场景其性价比往往不足。此外，智能体广泛普及的趋势下，推理算力还要能扛住高频调用的极低延迟、能支撑长上下文的极致稳定、能持续下降的单位Token成本。除了少数不计商业回报的特殊场景，从正常商业化角度来看，推理GPU是更有性价比优势的。

被市场发展印证了战略前瞻性后，曦望亮出了他们的底牌：新一代推理GPU芯片——启望S3。

这不仅仅是一次性能升级，更是一次对AI推理成本曲线的系统级重构：放弃训练能力，专为大模型推理做原生深度定制。通过裁剪训练态所需的模块，将节省出的晶体管与功耗预算集中投向推理，让单位面积有效算力效率提升5倍以上。曦望为S3定下的目标极具野心：要把百万Token的成本压至一分钱。

为了适应Agent时代KV Cache暴增、控制流复杂、多模型协同等痛点，S3在架构上进行了大刀阔斧的革新。

首先是计算层的深度定制。

通用GPU常常面临算力用不满的尴尬，而S3专为推理而生的AI Core架构，将GEMM和Flash Attention等核心算子的利用率硬生生拔高到了约99%与98%。同时，S3原生支持从FP16到FP4的全链路低精度运算，在模型效果接近无损的情况下，吞吐量翻了数倍。

其次是系统层的大胆创新，两个国内第一，也是专门为长上下文和智能体准备的：

S3是国内第一个用LPDDR6的推理GPU，也兼容LPDDR5X，显存最大可以做到接近600GB，是国内显存容量最大的GPU；而且也是目前已发布的国产GPU里，第一个用上PCIe Gen6的，系统通信带宽翻了一倍。

这两个技术加起来，解决了长上下文记忆的瓶颈：S3能同时存更多用户的对话记忆，处理更长的上下文，而且速度也快、成本大幅降低。

王湛对此解释道：我们的目标非常明确：把单位Token的成本降90%，做出普惠的推理算力。

当然，能把LPDDR6和PCIe Gen6 这两个业界最前沿的技术能顺利调通、用起来，用出极高的性能，绝非易事，这极度依赖全栈自研和超群的工程能力。

王湛自豪地表示，曦望的硬件AI Core和软件全栈都是100%自研。

GPU要真正发挥效能，必须是均衡的。你不能某一个地方极强，但中间卡着瓶颈。正是因为我们具备全栈自研能力，才能基于LPDDR6和PICe Gen6去做深度的调配与优化，把它的效能真正压榨出来。

但在坚持底层自主可控的同时，曦望并没有封闭自己，而是实现了对CUDA生态99%+的兼容。

在外界看来，自主可控与兼容CUDA似乎存在天然的矛盾。但在王湛眼中，这完全是路线选择的问题。

我们选择了通用计算架构（GPU），而不是专用架构（ASIC）。通用架构保证了对各种客户需求、不同Agent的极强适配性。在这个基础上，我们通过自己写底层代码来兼容CUDA生态。这既保证了客户零迁移成本的便利，又守住了我们底层的自主可控。这两者并不矛盾。

曦望目前保持了每一代芯片都实现一次性流片成功并点亮。

这背后，其实是一支极其庞大且低调的验证团队在默默支撑。据透露，曦望团队自主开发了全套的仿真验证工具，在芯片真正送去流片前，就已经在仿真平台上跑过了海量算子，哪里有瓶颈、怎么修，早已胸有成竹。

六边形战士和三位一体

任何一次现象级融资的背后，最核心的标的永远是人。

在与王湛的对话中，能强烈感受到他每天来上班时那种肾上腺素飙升的兴奋感。这种兴奋，源于他身处一个极度同频且强大的铁血战队之中。

曦望的顶层架构被业界戏称为“三位一体”：

董事长徐冰（商汤联合创始人）：负责把控战略方向与融资，有极强的AI发展趋势洞察力；

联席CEO王勇（前AMD、昆仑芯核心架构师）：专注芯片研发，拥有20多年硬核半导体经验，是实打实的技术灵魂；

联席CEO王湛（前百度资深副总裁）：操盘商业化、运营与市场，将互联网大厂的敏锐嗅觉与产品打法注入这块硬科技的土壤。

然而，做AI基础设施，光靠三个人是不够的。正如王湛所说：

AI芯片的竞争，是一个全能赛，就像体操里的全能项目，吊环、双杠什么都得行。没有任何一个人能各方面都很强，我们必须靠好的组织管理，把优秀的人聚合在一起，打造我们的六边形战士网络。

目前的曦望，团队规模已达400余人，研发人员占比超80%，核心技术骨干来自英伟达、AMD、华为海思、阿里、商汤等大厂，平均行业经验超过15年。

为了留住这些顶尖的六边形战士，曦望在组织机制上做出了中国创企中极为罕见的让步。王湛向量子位透露了一个极具魄力的细节：

我们在所有中国GPU公司里，给了团队和员工最大的ESOP（员工持股计划）池。

徐冰在拉我入伙时就说过，他要拿出最大的ESOP池来招募最优秀的人才。只要我们把这件事情做成，人才的价值就会巨大。

这种类似于早期华为、阿里的分享机制，爆发出极强的组织战斗力。

Agent是泡沫还是工业革命？

拿下百亿估值、超10亿融资，置身于这场AI资本热潮中，曾经亲历过2000年互联网泡沫破裂的王湛，显得既清醒又坚定。

现在的一二级市场对硬科技的估值确实非常乐观。不仅是芯片公司，你看那些大模型公司的估值和收入比，确实夸张。面对划时代的技术突破机会，资本愿意去赌、去搏，这是资本的特性。

但这一次，AI和当年的互联网泡沫有着本质的不同。