DeepSeek V4冲击波:百万上下文成标配华尔街日报
4月24日,备受关注的DeepSeek的V4模型预览版终于发布并同步开源了权重。
这次发布的两个版本,一个是总参数1.6万亿,激活49B的旗舰版V4 PRO,一个是经济型V4-Flash,总参数284B,激活13B,均支持100万token上下文,MIT协议完全开源。
就在前一天,OpenAI刚刚上线GPT-5.5,每百万输出token定价30美元。今天DeepSeek V4-Flash的输出定价是2元人民币/百万token,折合不到0.3美元。
前后两天,闭源与开源的两种定价逻辑,面对面呈现在了市场面前。
一、时点:三次跳票之后
DeepSeek这一天来得不算突然,但比所有人预期的都晚。
从去年底到今年2月、3月、4月初,DeepSeek V4的发布窗口推了三次,行业里各大模型的频繁更新几乎进入了最密集的时刻。
必须承认在2026年4月末,百万上下文已称不上是绝对领先,Gemini、Qwen等都到了这个量级。这次DeepSeek V4落地,要回答的不是"能不能做到",而是"做到了之后,成本撑不撑得住"。
V4给出的回答是一套全新的混合注意力架构。它在token维度引入压缩机制,结合自研的DSA稀疏注意力,其让模型在处理超长文本时不再对所有token做全量计算,而是区分轻重:强关联的token精读,弱关联的压缩或跳过。
这套机制从预训练阶段就改变了模型处理长序列的方式。根据技术报告,V4还引入了流形约束超连接(mHC),替代传统残差连接来增强深层网络信号传播的稳定性,并使用Muon优化器提升训练收敛速度。整个模型在超过32万亿token上完成了预训练。
实际效果用两个数字就能概括:在百万token上下文设置下,V4-Pro每处理一个token的算力消耗只有V3.2的27%,KV缓存占用只有10%。
官方在公告里说得更清楚:"从现在开始,1M上下文将是DeepSeek所有官方服务的标配。"这意味着长上下文正式从"加价功能"变成了"默认配置",这对整个行业的成本预期是一次重新校准。
二、矩阵:两型号+三模式
在这次发布中,旗舰V4-Pro和经济型V4-Flash都支持三种推理模式:非思考模式(快速响应)、思考模式-高(显式推理链)、思考模式-极限(推到模型能力边界)。官方建议复杂Agent场景使用极限模式。
DeepSeek对V4-Pro的定位给了一个直白的对标:内部员工已经把它当作日常Agentic Coding工具使用,体验优于Claude Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但与Opus 4.6思考模式仍有差距。
推理性能方面,在数学、STEM和竞赛型代码评测中超越当前所有已公开评测的开源模型,比肩世界顶级闭源模型;世界知识大幅领先其他开源模型,稍逊于Gemini-Pro-3.1。
V4-Flash的推理能力接近Pro版,但世界知识储备稍逊;简单Agent任务旗鼓相当,高难度任务有差距。
这组自评有一处值得注意,DeepSeek主动划出了与Opus 4.6思考模式的差距,在国产大模型发布话术的传统里,这种克制本身就是一种技术自信的表达。
三、扳机:Token价格差
随着预览版的公开,V4的API定价已随发布同步上线。
每百万token,V4-Flash的输入价是1元(缓存命中0.2元),输出价2元;V4-Pro的输入价12元(缓存命中1元),输出价24元。官方注明这是预览版定价,Pro版下半年算力扩容后将大幅下调。
这组数字需要放在坐标系里看才有意义。
Flash版每百万token输入1元——这个价格让几乎所有开发者都能无负担地调用一个万亿参数级MoE架构的开源旗舰模型。
对比之下,GPT-5.5前一天刚刚上线的输出定价是30美元/百万token,折合人民币超过200元,与V4-Flash的2元输出价差距超过100倍。即便拿V4-Pro的24元输出价来比,差距仍在一个数量级以上。
Pro版当前价格较高,但官方已经给出了明确的降价预期。背后的约束并非定价策略,而是算力供给——Pro版的高性能推理对芯片资源要求更高,当前服务吞吐十分有限。这也从侧面印证了V4在自主算力适配上的深度投入。
缓存命中的折扣幅度同样值得关注。Flash的缓存命中价只有未命中价的五分之一,Pro是十二分之一。
这意味着DeepSeek在用定价杠杆鼓励一种使用方式:把系统提示词、工具定义、文档模板等固定内容放在请求头部,让缓存机制自动生效,对于Agent类应用,这恰好是最典型的调用模式。
用Flash的白菜价铺量,用Pro的高阶能力撑住顶端场景,用缓存机制降低Agent开发者的边际成本。每一刀都切在应用层最痛的地方。
四、方向:Agent底座
如果在V4的发布里只提炼一个关键标签,那么Agent比百万上下文或许更重要。
官方明确写道:V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品进行了专项适配和优化,在Agentic Coding评测中达到开源模型最佳水平。这份适配名单同时包含Anthropic的产品和国产开发者工具。
这个信号很明确,DeepSeek不打算自建应用生态,而是要成为Agent时代的底座供应商。
这个选择放在当前的行业格局里是一个有意识的取舍。Anthropic的年化收入过去四个月从90亿美元翻到300亿美元,增量几乎全部来自Claude Code;Cursor一个代码编辑器估值已到600亿美元。应用层的钱在那里,但DeepSeek选择不去碰。
这说明它的定位不是下一个Anthropic,更有可能是Agent时代的基础设施。
长上下文+低价API+Agent适配的组合,本质上是把自己做成一个供电站,让所有电器都能更便宜地跑起来。
对于那些整天跟Token消耗作斗争的Agent开发者来说,V4打开的是一个具体的场景:把整个代码仓库、完整的需求文档、几百轮历史对话一次性塞进调用,不再需要切分、检索、摘要这套工程绕路。过去做Agent最头疼的就是上下文管理——每多一轮对话,token就指数级堆叠,成本和稳定性同时恶化。
V4如果能在真实负载下兑现承诺,这个痛点的成本结构将被改写一次。
五、生态:模型、算力赛跑
V4延期的这段时间里,国产开源大模型的战场从未安静过。
今年农历年前后出现了一次密集爆发:阿里Qwen3.5总参数3970亿、激活仅170亿,百万token的API价低至0.8元,是Gemini-3-Pro的十八分之一;智谱GLM-5的代码生成的HumanEval96.2%打到开源最强。
4月继续加速:Kimi K2.6在SWE-Bench Verified上拿到80.2%,几乎追平Claude Opus 4.6;智谱GLM-5.1在SWE-Bench Pro上以58.4%超过了GPT-5.4和Claude Opus 4.6;Qwen 3.6 Plus也跨入百万token上下文行列。
Qwen、Kimi、GLM、MiniMax、MiMo,这些国产模型在国际开发者社区的出现频率正在肉眼可见地上升。
除了模型,算力侧的匹配也在同步落地。
华为在V4发布同日确认昇腾全系列产品——A2、A3及最新的昇腾950已全面适配V4-Flash和V4-Pro。
措辞是"双方芯模技术紧密协同",意味着DeepSeek和昇腾的适配工作从模型研发阶段就在同步推进。
华为给出了一组具体的性能数据:基于昇腾950超节点,V4-Pro在8K输入场景下实现了约20ms的单token解码时延,单卡吞吐4700 TPS;V4-Flash可以做到约10ms时延,单卡吞吐1600 TPS。


