中国AI模型低成本路径正在改写行业逻辑华尔街日报

瑞银研究显示，中国AI模型的API均价不到美国同类产品的20%，但毛利率却与Anthropic、OpenAI基本持平，约在20%-40%之间。这种“低价高利”背后是训练端的稀疏注意力、低精度计算、开源生态协同，以及推理端MoE、KV缓存压缩等系统性技术优势。同时，中国前沿模型综合智能已达美国顶尖水平的约90%。

价格打到美国的五分之一，利润率却不输对手——中国AI模型的成本优势，正在逼近一个让华尔街不得不重新定价的临界点。

当企业开始因为token账单失控而踩刹车，当微软据报正在评估用DeepSeek替换Copilot中更贵的OpenAI和Anthropic模型，一个过去被市场长期忽视的问题正在浮出水面：中国AI模型的低价，究竟是补贴撑出来的虚火，还是真实的结构性优势？

瑞银半导体团队近期发布了一份深度研究，分析师Sundeep Gantori对中国主要AI模型的训练与推理成本进行了系统性拆解。测算显示，以MiniMax和智谱为例，中国模型的训练成本不到OpenAI和Anthropic的10%；API均价低于美国同类产品的20%；但毛利率——这个最能说明"是否在亏本卖"的指标——却与美国同行基本持平，约在20%-40%之间。

这意味着中国模型的低价，不是靠烧钱换来的，而是结构性成本优势的体现。

价格差距从何而来：三层成本拆解

理解这个价格差距，需要从训练、推理、基础设施三个层面分别来看。

训练阶段，中国模型的参数规模普遍小于美国对手。DeepSeek V4的总参数量为1.6万亿，Kimi K2.6约为1万亿，而学术论文估算Claude Opus 4.6和GPT-5.5的参数规模分别约为10万亿和5万亿。参数少，训练计算量自然低。

但参数规模只是第一步。更关键的差异在于稀疏注意力机制的应用。传统Transformer模型中，每个token需要与序列中所有其他token交互，计算量随上下文长度呈平方级增长。稀疏注意力通过让每个token只与部分相关token交互，大幅压缩了长上下文训练和推理的计算消耗。DeepSeek V3.2采用了自研的稀疏注意力设计（DSA），V4进一步在此基础上加入上下文压缩。

在计算精度上，中国模型也走在了前面。以Nvidia B200为例，从BF16/FP16切换到FP8，理论吞吐量可以翻倍。DeepSeek-V3率先引入FP8混合精度训练框架，V4更进一步采用了FP4量化感知训练；百度ERNIE 4.5/5.0、阿里Qwen3.5均已跟进。

基础设施层面，中国的电力成本具有实质性优势。美国主要数据中心州（伊利诺伊、佐治亚）的平均电价约为7.9美分/度，而中国可比地区约为4.4美分/度，低约44%。反映到GPU租用价格上，美国市场Nvidia H100的租用成本约为1.99-3.99美元/GPU小时，中国约为1.3-2.1美元/GPU小时，低约40%。

这三层叠加下来，中国模型的成本结构系统性低于美国同行，价格优势因此具有可持续性。

推理端：更激进的技术路径

如果说训练端的成本优势主要来自资源约束下的"被迫创新"，推理端的优化则更像是主动为之。

中国模型在推理阶段普遍采用混合专家架构（MoE），并且比美国同行走得更远。MoE的核心逻辑是：模型不需要为每个token激活全部参数，而是只激活其中一个子集（"专家"）。早期美国MoE模型如GPT-4、Llama 4 Scout通常激活约15-30%的总参数，而中国领先MoE模型通常只激活约3-10%。DeepSeek从V3.2到V4 Pro，活跃参数比从约5%降至约3%，但模型智能指数（AA Intelligence Index）反而从42升至52。

KV缓存压缩是另一个关键杠杆。在多轮对话类的智能体任务中，缓存输入成本约占总推理成本的70%。DeepSeek V4引入了重度压缩注意力（HCA）和压缩稀疏注意力（CSA）技术，使V4在相同上下文长度（100万token）下只需要V3.2约10%的KV缓存——这直接使DeepSeek V4 Pro的综合成本比V3下降约10%，尽管性能有了显著提升。

在服务编排层面，P/D分离（预填充与解码分离）将推理过程中计算密集型和内存密集型两个阶段拆分到不同GPU池，避免相互干扰；持续批处理则让GPU在请求完成后立即接入新请求，而非等待最慢的那个，显著提升吞吐率。MiniMax通过其端到端基础设施团队，实现了超过75%的MFU（模型算力利用率），高于行业平均水平的40-50%。

这些技术的叠加，使得推理成本持续压缩，而毛利率仍能维持在合理水平。MiniMax M2.7的毛利率超过40%，与Anthropic 2025年约40%的API毛利率基本一致。

性能差距正在快速收窄

成本优势要真正形成市场威胁，需要配合足够的能力。这正是当前局面的关键变量。

根据Artificial Analysis的数据，2023年中国前沿模型的综合智能约为美国顶尖模型的60%；到2025年，这一比例已上升至约90%。

分领域来看，差距并不均匀：

文本模型综合智能：已接近90%水平

AI编程：中国领先模型（如Qwen3.7-Max、DeepSeek V4-Pro）已可比肩美国上一代模型（如Claude Opus 4.6），但仍落后于最新前沿模型Claude Fable 5和GPT-5.5

多模态与视频生成：全球前五名视频生成模型中，有四个来自中国

研发投入的对比同样鲜明。智谱和MiniMax 2025年的R&D支出分别约为5亿和3亿美元，合计约为Anthropic R&D支出的十分之一，相对OpenAI则更低。

这种以极低研发投入实现快速追赶的路径，有两个支撑。其一是蒸馏技术，让小模型通过模仿强模型的输出来提升能力，缩短训练周期。但行业调研认为，蒸馏效果主要局限于结果可验证、流程可重复的任务，对需要复杂多步推理或底层架构支撑的能力提升效果有限。智谱在长程推理上的进展、MiniMax在多模态上的能力，均超出了蒸馏所能解释的范围。

其二是开源生态的集体杠杆效应。当一家实验室验证了某种架构或训练方法，其他实验室可以直接在此基础上迭代，而无需重复相同的大规模实验。Kimi K2和GLM-5采用了类似DeepSeek验证过的MLA潜在注意力设计；DeepSeek V4引入了Moonshot AI/Kimi的Muon优化器；Qwen3和智谱GLM-4.5均采用了DeepSeek验证的GRPO强化学习方案。这种"集体实验、分散受益"的模式，使整个中国AI生态的R&D边际成本系统性低于各自为战的美国闭源模型。

企业正在踩刹车，这对谁有利

成本压力已经从宏观讨论落地为具体的企业行为。

Uber在2026年4月就用完了全年AI预算，随后对员工个人AI工具的月度token消耗设置了1500美元上限。Walmart限制了内部AI智能体的token使用量。Amazon警告员工不要"为了用AI而用AI"，并关闭了助长无效使用的内部AI-token排行榜。软件公司Workato在Anthropic从订阅制切换到按token计费的第一天，支出直接翻了7倍——首席信息官Carter Busse直言："我们创造了一个怪物。"

OpenAI CEO山姆·奥特曼今年也公开承认，成本已成为客户面临的"巨大问题"，而去年这个问题几乎不存在。

根据SiliconData的LLM Token支出指数（以支出/使用量加权的平均token价格），今年5月之前该指数持续攀升，近期已出现明显回落，可能反映企业正在从高端闭源模型转向更经济的替代品。咨询公司Entelligence对2444家企业的调查显示，企业AI编程支出中，只有18%最终转化为生产输出，其余82%被bug修复、代码重写和审查延误所消耗。