DeepSeek V4冲击波：百万上下文成标配华尔街日报

4月24日，备受关注的DeepSeek的V4模型预览版终于发布并同步开源了权重。

这次发布的两个版本，一个是总参数1.6万亿，激活49B的旗舰版V4 PRO，一个是经济型V4-Flash，总参数284B，激活13B，均支持100万token上下文，MIT协议完全开源。

就在前一天，OpenAI刚刚上线GPT-5.5，每百万输出token定价30美元。今天DeepSeek V4-Flash的输出定价是2元人民币/百万token，折合不到0.3美元。

前后两天，闭源与开源的两种定价逻辑，面对面呈现在了市场面前。

一、时点：三次跳票之后

DeepSeek这一天来得不算突然，但比所有人预期的都晚。

从去年底到今年2月、3月、4月初，DeepSeek V4的发布窗口推了三次，行业里各大模型的频繁更新几乎进入了最密集的时刻。

必须承认在2026年4月末，百万上下文已称不上是绝对领先，Gemini、Qwen等都到了这个量级。这次DeepSeek V4落地，要回答的不是"能不能做到"，而是"做到了之后，成本撑不撑得住"。

V4给出的回答是一套全新的混合注意力架构。它在token维度引入压缩机制，结合自研的DSA稀疏注意力，其让模型在处理超长文本时不再对所有token做全量计算，而是区分轻重：强关联的token精读，弱关联的压缩或跳过。

这套机制从预训练阶段就改变了模型处理长序列的方式。根据技术报告，V4还引入了流形约束超连接（mHC），替代传统残差连接来增强深层网络信号传播的稳定性，并使用Muon优化器提升训练收敛速度。整个模型在超过32万亿token上完成了预训练。

实际效果用两个数字就能概括：在百万token上下文设置下，V4-Pro每处理一个token的算力消耗只有V3.2的27%，KV缓存占用只有10%。

官方在公告里说得更清楚："从现在开始，1M上下文将是DeepSeek所有官方服务的标配。"这意味着长上下文正式从"加价功能"变成了"默认配置"，这对整个行业的成本预期是一次重新校准。

二、矩阵：两型号+三模式

在这次发布中，旗舰V4-Pro和经济型V4-Flash都支持三种推理模式：非思考模式（快速响应）、思考模式-高（显式推理链）、思考模式-极限（推到模型能力边界）。官方建议复杂Agent场景使用极限模式。

DeepSeek对V4-Pro的定位给了一个直白的对标：内部员工已经把它当作日常Agentic Coding工具使用，体验优于Claude Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但与Opus 4.6思考模式仍有差距。

推理性能方面，在数学、STEM和竞赛型代码评测中超越当前所有已公开评测的开源模型，比肩世界顶级闭源模型；世界知识大幅领先其他开源模型，稍逊于Gemini-Pro-3.1。

V4-Flash的推理能力接近Pro版，但世界知识储备稍逊；简单Agent任务旗鼓相当，高难度任务有差距。

这组自评有一处值得注意，DeepSeek主动划出了与Opus 4.6思考模式的差距，在国产大模型发布话术的传统里，这种克制本身就是一种技术自信的表达。

三、扳机：Token价格差

随着预览版的公开，V4的API定价已随发布同步上线。

每百万token，V4-Flash的输入价是1元（缓存命中0.2元），输出价2元；V4-Pro的输入价12元（缓存命中1元），输出价24元。官方注明这是预览版定价，Pro版下半年算力扩容后将大幅下调。

这组数字需要放在坐标系里看才有意义。

Flash版每百万token输入1元——这个价格让几乎所有开发者都能无负担地调用一个万亿参数级MoE架构的开源旗舰模型。

对比之下，GPT-5.5前一天刚刚上线的输出定价是30美元/百万token，折合人民币超过200元，与V4-Flash的2元输出价差距超过100倍。即便拿V4-Pro的24元输出价来比，差距仍在一个数量级以上。

Pro版当前价格较高，但官方已经给出了明确的降价预期。背后的约束并非定价策略，而是算力供给——Pro版的高性能推理对芯片资源要求更高，当前服务吞吐十分有限。这也从侧面印证了V4在自主算力适配上的深度投入。

缓存命中的折扣幅度同样值得关注。Flash的缓存命中价只有未命中价的五分之一，Pro是十二分之一。

这意味着DeepSeek在用定价杠杆鼓励一种使用方式：把系统提示词、工具定义、文档模板等固定内容放在请求头部，让缓存机制自动生效，对于Agent类应用，这恰好是最典型的调用模式。

用Flash的白菜价铺量，用Pro的高阶能力撑住顶端场景，用缓存机制降低Agent开发者的边际成本。每一刀都切在应用层最痛的地方。

四、方向：Agent底座

如果在V4的发布里只提炼一个关键标签，那么Agent比百万上下文或许更重要。

官方明确写道：V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品进行了专项适配和优化，在Agentic Coding评测中达到开源模型最佳水平。这份适配名单同时包含Anthropic的产品和国产开发者工具。

这个信号很明确，DeepSeek不打算自建应用生态，而是要成为Agent时代的底座供应商。

这个选择放在当前的行业格局里是一个有意识的取舍。Anthropic的年化收入过去四个月从90亿美元翻到300亿美元，增量几乎全部来自Claude Code；Cursor一个代码编辑器估值已到600亿美元。应用层的钱在那里，但DeepSeek选择不去碰。

这说明它的定位不是下一个Anthropic，更有可能是Agent时代的基础设施。

长上下文+低价API+Agent适配的组合，本质上是把自己做成一个供电站，让所有电器都能更便宜地跑起来。

对于那些整天跟Token消耗作斗争的Agent开发者来说，V4打开的是一个具体的场景：把整个代码仓库、完整的需求文档、几百轮历史对话一次性塞进调用，不再需要切分、检索、摘要这套工程绕路。过去做Agent最头疼的就是上下文管理——每多一轮对话，token就指数级堆叠，成本和稳定性同时恶化。

V4如果能在真实负载下兑现承诺，这个痛点的成本结构将被改写一次。

五、生态：模型、算力赛跑

V4延期的这段时间里，国产开源大模型的战场从未安静过。

今年农历年前后出现了一次密集爆发：阿里Qwen3.5总参数3970亿、激活仅170亿，百万token的API价低至0.8元，是Gemini-3-Pro的十八分之一；智谱GLM-5的代码生成的HumanEval96.2%打到开源最强。

4月继续加速：Kimi K2.6在SWE-Bench Verified上拿到80.2%，几乎追平Claude Opus 4.6；智谱GLM-5.1在SWE-Bench Pro上以58.4%超过了GPT-5.4和Claude Opus 4.6；Qwen 3.6 Plus也跨入百万token上下文行列。

Qwen、Kimi、GLM、MiniMax、MiMo，这些国产模型在国际开发者社区的出现频率正在肉眼可见地上升。

除了模型，算力侧的匹配也在同步落地。

华为在V4发布同日确认昇腾全系列产品——A2、A3及最新的昇腾950已全面适配V4-Flash和V4-Pro。

措辞是"双方芯模技术紧密协同"，意味着DeepSeek和昇腾的适配工作从模型研发阶段就在同步推进。

华为给出了一组具体的性能数据：基于昇腾950超节点，V4-Pro在8K输入场景下实现了约20ms的单token解码时延，单卡吞吐4700 TPS；V4-Flash可以做到约10ms时延，单卡吞吐1600 TPS。