刚刚，DeepSeek V4基准测试泄露新智元

DeepSeek V4，据说明天就要上线了？这是首个匹敌顶尖闭源模型的开源模型，被网友评为「一鲸落万物生」。泄露的基准测试显示，它在SWE-bench Verified上取得了83.7%，已经超越Opus 4.5和GPT-5.2！

就在刚刚，一张图在全网疯狂刷屏了！

据说，DeepSeek V4的基准测试已经泄露，整个AI圈都震了。

有大V总结道：AI编程大战，已经达到了新的高峰。

泄露信息显示，DeepSeek V4在SWE-bench Verified上取得了惊人的83.7%，超过了Claude Opus 4.5（80.9%）和GPT-5.2（80%）。

可以说，100万+上下文长度+Engram记忆机制=真正的全仓库级推理能力。

他惊呼：闭源模型占据主导的时代，是否正在走向终结？

同时泄露的，还有下面这一张图。

其中，它的SWE-Bench Verified得分，达到了83.7%。如果这个数字最终被确认，将直接改写当前「最强代码模型」排名！

相比之下，其他模型的得分都比较落后——

DeepSeek V3.2 Thinking：73.1%

GPT-5.2 High：80.0%

Kimi K2.5 Thinking：76.8%

Gemini 3.0 Pro：76.2%

这不是小幅领先，而是直接跃升到第一梯队顶端！

不仅如此，真正令人警惕的，并不只有编程能力，V4的其他分数也很惊人。

AIME 2026：99.4%

IMO Answer Bench：88.4%

FrontierMath Tier 4：23.5% （直接达到GPT-5.2的11倍）

这意味着什么？

如果这些数据属实，DeepSeek V4不是「又一个强模型」，而是一次能力曲线的陡峭抬升！

它可能会同时在代码、竞赛数学、前沿数学推理三个高难度维度上，刷新现有天花板。

还有网友综合了全网DeepSeek V4消息，不仅在HumanEval、SWE_bench、上下文和成本上刷新成绩，而且发布时间预计在春节，也就是明天！

HumanEval：约90%（来自Reddit社区泄露 + Skywork AI总结）

SWE-bench：进入「>80%」区间（在Wavespeed对比帖中引用，根据 Claude Opus 基准推测得出）

上下文长度：高达 100 万 token（在Reddit AI Insider和博客总结帖中反复出现的传闻）

成本：据称比OpenAI便宜20到40倍（根据DeepSeek V3/R1 API 定价与前沿模型层级的对比推算）

预计发布时间：2月17日（农历新年期间，泄露文章中广泛报道)

如果是真的，DeepSeek将又一次改变游戏规则。

总之，DeepSeek V4的发布时间，很可能是周一。据说，这是首个不落后于闭源顶尖模型，甚至能与之匹敌甚至超越的模型。

有人说，以DeeepSeek-V4为代表的开源模型需要跨越的差距越来越大了！

很期待，当V4等中国开源模型发布后，这一差距会如何随着时间演变。