国内首家百亿估值纯推理GPU独角兽诞生量子位
杭州速度,这个词组的含金量还在上升。
因为一家纯推理GPU公司,在分拆独立仅1年多时间里,竟已经完成了七轮融资,累计40亿元!
而随着前几天最新一轮融资的曝光,还以10亿元拿下今年这个赛道里最大单笔融资,一举成为国内首家估值超百亿的纯推理GPU独角兽。
它,就是曦望。
推理正在成为 AI 算力竞速的新风口。今年英伟达GTC,直接拿收购来的Groq推出LPU,而国内,国产版Groq也在狂飙突进。
加之在几乎所有国产GPU都在卷训推一体、拼峰值算力的大环境下,曦望凭什么靠All in推理的路线,受到资本市场如此的青睐?
带着这个问题,量子位与曦望联席CEO王湛进行了一场深度对话。
这位百度创始团队出身、亲历了中国互联网从泡沫到繁荣全过程的行业老兵,不仅一语道破了资本追捧背后的核心逻辑,更从行业趋势、技术路线、团队组织与未来判断四个维度,向我们勾勒出了一幅清晰的AI推理时代新蓝图。
算力需求的结构反转了
时间拨回一两年前,当百模大战打得火热时,市场最关心的指标是大模型的参数量、训练集群的规模。但在2026年的当下,风向已经彻底变了。
访谈伊始,王湛就抛出了这样的定调:
谁掌握最低的推理成本,谁就是赢家。
Agent的本质是让AI不再局限于一问一答的聊天机器人,是要它成为能够自主分析、学习并执行复杂任务的智能实体。
而驱动这一切运转的底层燃料,就是推理算力,或者更直白地说——Token。
这就带来了一个巨大的行业拐点:算力需求的结构性反转。
市场上最热的就是推理算力需求,呈现出了指数级的增长。训练算力的需求依然保持平稳,但在我们目前看到的数据中,整个2026年,AI推理计算的需求量将达到训练算力需求的4-5倍。
这是推理算力第一次全面超越训练算力,而且超越得如此迅猛。
为什么会产生这种反转?答案藏在Agent的运行机制里。
过去,人跟AI交互是单次对话;但在Agent时代,为了完成一个任务,智能体会进行高频的、多次的多轮调用和循环思考。
就像前几天国外一个小哥,只是跟龙虾说了一句“Hi”,就烧掉了80美元的Token。
△图片由AI生成
对此,王湛强调:
这种方式使得整个Token的消耗,达到了过去人机交互方式的几十倍甚至上百倍。在这个背景下,单位Token的成本就变得非常引人注目了。
换句话说,过去企业关心大模型“能不能用”,现在企业最关心的是“好不好用”以及“用不用得起”。
这也解释了为什么从英伟达在GTC上强调“每瓦Token吞吐量”,到国内云厂商接连因为成本压力调整算力价格,成本已经倒逼成为了技术演进的核心推手。
在王湛看来,降低成本不仅是商业诉求,更是技术普及的前提:
你只有将单位Token的成本出现大幅度降低,才能真正激活海量Agent的使用。不然这玩意儿再好用,用起来成本极高,大家也用不起。
而这,正是曦望在一开始就毅然决然选择All in 推理的根本原因——推理,才是真正的AI工业化。
百万Token一分钱,怎么做到?
如果说All in 推理是方向,那么如何在技术层面把成本真正打下来,就是对团队工程化能力和供应链洞察力的极致大考。
面对那些既要训练又要推理的客户疑问,曦望的态度非常明确:
通用GPU如果用来做大集群训练是很好的,但大规模推理场景其性价比往往不足。此外,智能体广泛普及的趋势下,推理算力还要能扛住高频调用的极低延迟、能支撑长上下文的极致稳定、能持续下降的单位Token成本。除了少数不计商业回报的特殊场景,从正常商业化角度来看,推理GPU是更有性价比优势的。
被市场发展印证了战略前瞻性后,曦望亮出了他们的底牌:新一代推理GPU芯片——启望S3。
这不仅仅是一次性能升级,更是一次对AI推理成本曲线的系统级重构:放弃训练能力,专为大模型推理做原生深度定制。通过裁剪训练态所需的模块,将节省出的晶体管与功耗预算集中投向推理,让单位面积有效算力效率提升5倍以上。曦望为S3定下的目标极具野心:要把百万Token的成本压至一分钱。
为了适应Agent时代KV Cache暴增、控制流复杂、多模型协同等痛点,S3在架构上进行了大刀阔斧的革新。
首先是计算层的深度定制。
通用GPU常常面临算力用不满的尴尬,而S3专为推理而生的AI Core架构,将GEMM和Flash Attention等核心算子的利用率硬生生拔高到了约99%与98%。同时,S3原生支持从FP16到FP4的全链路低精度运算,在模型效果接近无损的情况下,吞吐量翻了数倍。
其次是系统层的大胆创新,两个国内第一,也是专门为长上下文和智能体准备的:
S3是国内第一个用LPDDR6的推理GPU,也兼容LPDDR5X,显存最大可以做到接近600GB,是国内显存容量最大的GPU;而且也是目前已发布的国产GPU里,第一个用上PCIe Gen6的,系统通信带宽翻了一倍。
这两个技术加起来,解决了长上下文记忆的瓶颈:S3能同时存更多用户的对话记忆,处理更长的上下文,而且速度也快、成本大幅降低。
王湛对此解释道:我们的目标非常明确:把单位Token的成本降90%,做出普惠的推理算力。
当然,能把LPDDR6和PCIe Gen6 这两个业界最前沿的技术能顺利调通、用起来,用出极高的性能,绝非易事,这极度依赖全栈自研和超群的工程能力。
王湛自豪地表示,曦望的硬件AI Core和软件全栈都是100%自研。
GPU要真正发挥效能,必须是均衡的。你不能某一个地方极强,但中间卡着瓶颈。正是因为我们具备全栈自研能力,才能基于LPDDR6和PICe Gen6去做深度的调配与优化,把它的效能真正压榨出来。
但在坚持底层自主可控的同时,曦望并没有封闭自己,而是实现了对CUDA生态99%+的兼容。
在外界看来,自主可控与兼容CUDA似乎存在天然的矛盾。但在王湛眼中,这完全是路线选择的问题。
我们选择了通用计算架构(GPU),而不是专用架构(ASIC)。通用架构保证了对各种客户需求、不同Agent的极强适配性。在这个基础上,我们通过自己写底层代码来兼容CUDA生态。这既保证了客户零迁移成本的便利,又守住了我们底层的自主可控。这两者并不矛盾。
曦望目前保持了每一代芯片都实现一次性流片成功并点亮。
这背后,其实是一支极其庞大且低调的验证团队在默默支撑。据透露,曦望团队自主开发了全套的仿真验证工具,在芯片真正送去流片前,就已经在仿真平台上跑过了海量算子,哪里有瓶颈、怎么修,早已胸有成竹。
六边形战士和三位一体
任何一次现象级融资的背后,最核心的标的永远是人。
在与王湛的对话中,能强烈感受到他每天来上班时那种肾上腺素飙升的兴奋感。这种兴奋,源于他身处一个极度同频且强大的铁血战队之中。
曦望的顶层架构被业界戏称为“三位一体”:
董事长徐冰(商汤联合创始人):负责把控战略方向与融资,有极强的AI发展趋势洞察力;
联席CEO王勇(前AMD、昆仑芯核心架构师):专注芯片研发,拥有20多年硬核半导体经验,是实打实的技术灵魂;
联席CEO王湛(前百度资深副总裁):操盘商业化、运营与市场,将互联网大厂的敏锐嗅觉与产品打法注入这块硬科技的土壤。
然而,做AI基础设施,光靠三个人是不够的。正如王湛所说:
AI芯片的竞争,是一个全能赛,就像体操里的全能项目,吊环、双杠什么都得行。没有任何一个人能各方面都很强,我们必须靠好的组织管理,把优秀的人聚合在一起,打造我们的六边形战士网络。
目前的曦望,团队规模已达400余人,研发人员占比超80%,核心技术骨干来自英伟达、AMD、华为海思、阿里、商汤等大厂,平均行业经验超过15年。
为了留住这些顶尖的六边形战士,曦望在组织机制上做出了中国创企中极为罕见的让步。王湛向量子位透露了一个极具魄力的细节:
我们在所有中国GPU公司里,给了团队和员工最大的ESOP(员工持股计划)池。
徐冰在拉我入伙时就说过,他要拿出最大的ESOP池来招募最优秀的人才。只要我们把这件事情做成,人才的价值就会巨大。
这种类似于早期华为、阿里的分享机制,爆发出极强的组织战斗力。
Agent是泡沫还是工业革命?
拿下百亿估值、超10亿融资,置身于这场AI资本热潮中,曾经亲历过2000年互联网泡沫破裂的王湛,显得既清醒又坚定。
现在的一二级市场对硬科技的估值确实非常乐观。不仅是芯片公司,你看那些大模型公司的估值和收入比,确实夸张。面对划时代的技术突破机会,资本愿意去赌、去搏,这是资本的特性。
但这一次,AI和当年的互联网泡沫有着本质的不同。


