一手实测V4:不愧是DeepSeek量子位

4/25/2026

炸了炸了真炸了,DeepSeek一出手,AI圈都得震得抖三抖。

全新来袭的两个版本——

V4 Pro和Flash,一个主打性能,另一个更轻更快,两个都「开源」。

按DeepSeek自己的说法,V4在agentic编程能力上是开源模型里最强的,推理和世界知识也全面升级,上下文窗口从128K直接拉到了1M。

对比V3,当然是一次幅度不小的跨越,发布的时间点,距离上一个推理模型R1也整整过去了一年多。

不过V4这次带来的变化,还是让我们想认真摸一摸它的底,于是乎,我们也第一时间上手狠狠实测了一番!!

最近这模型那模型扎堆上,我是真晕了,于是我让V4给我roll了个龙虾和爱马仕的话题热度对比图,be like:

编程游戏也高低得安排上,直接让V4搓出一个《未来启示录:AGI降临》的文字策略冒险小游戏(量子位定制版):

此外,面对网上大火的「对着镜子举手」的AI推理踩坑题,V4直接完胜ChatGPT-5.5:

当然了,新模型一出,网友们也坐不住,开始直接开始疯狂整活儿尝鲜:

博主David Ondrej搜集了网友们的测试案例,录了一段半个小时的测试视频,表示DeepSeek-V4能力比肩GPT和Opus,而且更便宜。

博主@Bijan Bowen更是直接用V4搭了一个飞机穿梭云层的3D交互世界,搓完直感叹: so cool~

热闹啊真热闹,会玩啊真会玩——

废话不多说,热乎乎的DeepSeek V4一手实测,来了!

DeepSeek V4一手实测

关于V4这一波的更新重点,官方原话是:在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。

按DeepSeek的说法,在Agentic能力Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。

在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越了当前所有已公开评测的开源模型。

所以呢,这次我们也就专门「照方抓药」,从这几个维度上来考量一下官方说法究竟有几分真~

Agentic coding能力实测

多说无益,我们先来实一下V4模型的Agentic coding能力,看看能不能接住招~

先小试牛刀一下,在「专家模式」下让DeepSeek V4帮忙搭建一个《怪奇物语》主题的剧集介绍网站。

搭建一个《怪奇物语》主题的剧集介绍网站,整体风格参考80年代复古科幻与悬疑惊悚氛围,网站需要包含首页、剧情简介、主要角色介绍等模块。

大概等了5分钟,真·功夫不负有心人。

当「霍金斯小镇编年册」出现在页面上时,第一反应就是:这时间真没白等,效果确实比预想中更好。

V4把整个网站拆成了剧集简介、主要角色、分季剧集、经典场景、海报展示、观众评价六大板块,结构完整,信息也比较清晰。

值得一提的是,V4还会根据不同主角的特征设计专属logo,比如小十一拥有超能力,页面里就用水晶球来做视觉符号代替,还是很匹配的。

唯一不足的地方是「交互」,有部分加入交互能力的板块(比如海报),emm…鼠标点击去是没有反应的…

接下来我们上点难度,再来考察一下模型的信息更新能力和热点捕捉能力:

搜索一下最近很火的「十二星座专属庇护所」短视频热度,并生成一份关于该选题的短视频爆火现象的研究报告。

先来夸夸,值得表扬的是V4确实get到了「十二星座专属庇护所」这个热点的内容的视频特点。

而且在视觉呈现上审美也在的,并且还自动把报告内容划分为传播规模、核心特征、顶层原因、商业变现几个方面。

但,是光网页搭建还远远不够——

试问哪个初来乍到的AI选手,不得和一道经典的「鹈鹕骑自行车」的svg题较量一番?(你说是吧,v4)

做一个鹈鹕骑自行车的动态svg。

这次我用了「专家」和「快速」两种模型进行了实测。

结果就是——快速模式《完胜》…(大家觉着呢?欢迎评论区唠唠。)

从呈现的效果来说来看,快速模式在画面颜色和运动轨迹呈现上更胜一筹,能感觉出鹈鹕有骑车子的前进动态感。

Scroll for more