开源追上闭源了,差距只剩3到6个月AI寒武纪

6/28/2026

开源AI正在以肉眼可见的速度逼近闭源天花板。OpenRouter梳理出2026年6月最值得押注的四个开源模型:DeepSeek V4 Flash以GPT-5.5百分之一的成本跑出同级智能体表现;GLM 5.2代码规划能力登顶开源榜首;MiniMax M3独揽多模态赛道;英伟达Nemotron则打出本土企业级王牌。开源与闭源之间,那层窗户纸已经薄如蝉翼。

OpenRouter梳理了截至2026年6月最值得关注的4个开源模型

在过去长达18个月的时间里,开源与闭源的差距稳定保持在3到6个月之间。至少就目前来看,闭源大厂完全没有甩开开源阵营的迹象。

随着企业AI用量激增,控制成本成了各大团队的核心诉求,这也让开源模型迎来了真正的高光时刻。

把业务从闭源模型迁移到开源模型,能省下一笔巨款。闭源模型的前沿能力当然会继续进化,但只要你对智力水平的需求是固定的,使用成本就会一直往下降。

新模型发得快,各项能力长短不一,新玩家又多,普通开发者很难搞清楚到底该用哪个模型。站在2026年6月的时间节点上,OpenRouter认为目前真正具有决定性意义的开源大模型,只有下面这四个。

DeepSeek V4 Flash 跨越智能体分水岭

DeepSeek V4 Flash是第一个被开发团队直接塞进智能体工作流的开源模型,大家完全把它当成了Anthropic或OpenAI同级别闭源模型的完美平替。

大杯版本的V4 Pro在SWE-bench Verified测试中拿下了80.6%的成绩,刷新了开源模型的最高分,直接看齐GPT-5.5级别的智能体表现。但真正引爆市场的是Flash版本,它保留了绝大部分核心能力,同时把性价比推向了极致。

Flash版本采用MIT协议,是一个拥有2840亿总参数和130亿激活参数的MoE模型,支持百万token上下文。它的SWE-bench Verified得分是79.0%,和Pro版以及那个1.6万亿参数的超大杯相比,差距都在1.6分左右。2026年4月发布。

大家疯狂用它,主要还是因为太便宜了。在DeepSeek官方API上,Flash版本的输入和输出价格分别是每百万token 0.14美元和0.28美元。如果算上缓存折扣,输入价格还能降到0.029美元。官方在五月份把这个号称打了骨折价固定成了永久价格。对比下来,它的输出成本大概只有GPT-5.5的150分之一。

也可以选择西方的第三方托管平台,价格大概是官方的两倍,但考虑到它的智力水平,这依然白菜价。DeepSeek官方带头打价格战,直接把这个智力级别的模型价格彻底打了下来。

避坑指南: 日常使用中,它干技术活很利索,但写文章和语气把控一般。提示词需要写得非常具体,它更吃指令,不能过度依赖它自己的发挥。

适用场景: 需要用极低成本跑出闭源头部级别智能体或写代码。首选Flash版本,如果真的需要那一点点极限性能提升,再上Pro版。

GLM 5.2 复杂规划与代码能力的顶级平替

GLM 5.2在6月中旬才刚刚发布,初期的口碑已经炸裂。DeepSeek靠价格杀出重围,GLM 5.2的核心杀手锏则是任务规划和超长上下文代码编写。

在Artificial Analysis最新的4.1版本智力指数榜单上,GLM 5.2拿下了51分,稳坐开源模型第一名,距离闭源的Claude Fable 5只差了5分。在真实的智能体基准测试中,它同样领跑开源阵营,基本和GPT-5.5 xhigh版本打平。

虽然刚发布不久,很多第三方平台已经火速上线。它的均价是每百万token输入0.447美元输出3.31美元。单看token价格比GPT-5.5或Opus便宜,但这个模型在输出时非常喜欢深入思考,消耗的token量大,跑起来还是会有点费钱。

这背后还有一个助推因素。美国刚出了出口管制新规,迫使Anthropic大规模禁用了Fable 5和Mythos 5的海外访问权限。作为一个采用MIT协议且代码能力极其接近闭源头部的模型,它成了很多追求业务稳定性的企业的香饽饽。

避坑指南: 同样是纯文本模型,不支持图像和视频。思考过程会消耗大量输出token,比较费钱。刚发布不久,各家托管平台的质量参差不齐。最高生成速度大约每秒78个token,比DeepSeek V4 Flash的84个略慢。

适用场景: 完美替代闭源模型做智能体规划和代码生成。非常适合处理架构设计、整个代码库级别的重构或是耗时很长的智能体任务。

MiniMax M3 把多模态和长文本做到极致

在这四个模型里,MiniMax M3是唯一一个原生理解文本图表和视频的模型。如果你的智能体需要看屏幕截图、分析UI界面、读懂架构图或者看视频,M3是首选。

在智力指数榜单上,它和DeepSeek V4 Pro并列拿了44分,落后于GLM和英伟达。但它的核心竞争力是多模态能力,单纯看分数意义不大。在真实的智能体测试中,它的表现基本和Claude Sonnet 4.6持平。

价格诱人,每百万token输入0.098美元输出1.21美元,当然如果上下文超过51万token价格会上浮。和GLM类似,单价便宜不代表总价低,M3也是个话痨,推理过程很长。

避坑指南: 没用MIT协议,用的是自家的社区协议。商业使用需要加署名,大型商业产品还要书面授权。文本代码能力不如GLM 5.2。各家服务商对全量上下文的支持程度不一样。

适用场景: 需要处理原生图片或视频的长文本智能体。适合UI自动化测试、看图写代码、图文文档解析、视频工作流或是混合了代码和文档的复杂任务。是谷歌Gemini Flash在多模态理解领域的强力竞争对手。

NVIDIA Nemotron 3 Ultra

英伟达的Nemotron 3 Ultra是美国本土最能打的开源模型。它是一个专为企业部署打造的严肃推理模型,背后有整个英伟达软硬件生态撑腰。

它的跑分很稳,智力指数排名第二,拿到48分,仅次于GLM 5.2。

它的核心差异化优势在于极高的部署效率。现在的加权平均价格是每百万token输入0.423美元输出2.61美元,它还有一条免费测试通道,目前极其火爆。

参数方面,它是一个5500亿总参数和550亿激活参数的Mamba-2与Transformer混合MoE模型。使用了NVFP4精度,支持百万上下文和多token预测技术,采用OpenMDW协议。英伟达这次连同模型一起把训练数据、配方、评估工具和强化学习基础设施全给开源了。

英伟达的算盘打得很响,开源模型用得越多,市场对他们家各种芯片计算卡以及软件生态的需求就越旺盛。Nemotron不仅仅是个模型,它更是用来给整个英伟达AI全家桶拉客的招牌。英伟达不差钱,他们有足够的财力持续投入研发,在这个赛道里卷下去。

避坑指南: 纯文本模型。基础智力比不上GLM 5.2,极限代码能力也略逊于中国开源头部。免费通道只能用来测试玩玩,不能支撑正式的商业产品。协议是OpenMDW,不如MIT开放。

适用场景: 当企业对运行速度、私有化部署、数据控制权和供应商背景的看重程度超过了对极限跑分的追求时,选它最合适。

总而言之,DeepSeek证明了开源大模型完全能胜任前沿智能体工作,而且只收个零头。GLM拿下了质量榜单的铁王座。MiniMax成了平价多模态领域的扛把子。英伟达则带着深厚的家底,给出了一个完全开源的美国本土企业级方案。开源和闭源的差距确实存在,但这层窗户纸已经非常薄了。弄清楚自己的业务到底需要极限低价、顶级质量、多模态能力还是企业级部署,对号入座去挑选测试,这才是最靠谱的做法。

Scroll for more