如果DeepSeek和Kimi们合并会怎样?锦缎
1854年,伦敦。迈克尔·法拉第在皇家研究所的地下室中撒下铁屑,轻敲纸板。铁屑在看不见的磁场里排列成优美的弧线,他将这些弧线称为“力线”,一种全新的物理学语言就此诞生。
同年秋,威廉·汤姆逊在格拉斯哥大学写下一组偏微分方程,用严密的数学语言重写法拉第的直觉,把“场”纳入牛顿力学的分析框架。汤姆逊相信,唯有方程,才能让自然规律被真正理解。
这两种理解世界的方式,在整个维多利亚时代既竞争又互哺,让电磁学在半个世纪内完成了三级跳——从实验室猜想,到数学精确描述,再到工程化——最终催生麦克斯韦方程组,成为第二次工业革命的基石。
一个半世纪后,相似的剧本在中国AI领域悄然重演。
2026年4月20日,月之暗面发布Kimi K2.6。四天后的4月24日,DeepSeek开源V4。两个万亿参数级开源模型在同一周落地,包揽全球权威开源模型榜单前两名。这是两家公司在过去16个月里又一次技术路线迎头相撞。
技术撞车撞到第N次,单纯的比较已然疲乏。就在日前,X上出现了一则好玩的提问,配着一张梗图:如果DeepSeek和Kimi等中国开源公司合并,OpenAI和Anthropic CEO会是什么反应?
仔细想想,在中国互联网史上,其实这一追问并不突兀。从2012年优酷与土豆的世纪联姻起,每隔几年,同一赛道的前两名便会在资本与巨头的意志推动下,从相杀走向相爱,把内耗转为合力,去应对外部更大的战场。
DeepSeek与Kimi们会走进这条河流吗?我们今天就开个脑洞:假如它们真的合并,会发生什么?
技术互嵌:一个平视硅谷的全栈底座
DeepSeek与Kimi们技术路线的高度互嵌,是探讨合并假设的基本前提。假设合并,第一个产物就是一个覆盖“训练—推理—部署—应用”全链条的模型平台。
首先,DeepSeek与Kimi们在架构层面的互嵌已深入骨髓。
DeepSeek在V3中首创的MLA注意力机制,通过低秩压缩大幅削减KV缓存占用,解决的是长文本推理中“内存即成本”的根本困境。2025年7月,Kimi发布万亿参数开源模型K2,直接采用MLA并将其扩展至万亿参数规模,证明这条技术路线规模化可行。
到2026年4月,剧本反转。DeepSeek发布V4,一项关键升级是用二阶优化器Muon替换沿用十年的Adam优化器。Muon的有效性,正是Kimi在K2训练中首次在万亿参数规模上验证,并由Kimi团队系统性地公开了技术经验。
其次,在能力层面,它们分工清晰、价值有很多互补的地方。
DeepSeek V4把单token推理算力压至V3.2的27%,KV缓存压缩至十分之一,百万token上下文从技术演示变为普惠基础设施。Kimi K2.6则聚焦长程任务执行与Agent集群,支持300个子Agent并行协作、4000次工具调用、13小时不间断编码。OpenRouter数据显示,K2.6发布后跃居调用榜首,DeepSeek紧随其后,两家同时进入全球前五。
多模态方面,Kimi K2.6是全球开源前五中唯一支持图片与视频理解的模型;DeepSeek在高阶推理、数学与代码评测中持续领先。二者在这一领域存在高度互补性。
最后,再硬件生态上,这两家的选择高度一致。
DeepSeek V4明确下半年将支持华为昇腾950,技术栈不再只依赖英伟达CUDA,而是开始同步支持华为。Kimi模型采用对国产芯片更友好的INT4量化技术,新发布的Prefill-as-a-Service技术更是支持国产芯片和已有英伟达芯片,降低对CUDA生态的依赖。如果是一家公司的话,在国产模型和国产算力的对接上会更有效率。
以上三个层面合在一起看,DeepSeek在过去一个时期侧重解决“模型够不够便宜”,Kimi则侧重解决“模型能不能干重要的事”。合并后的平台将因此同时具备极致推理效率与深度生产力嵌入能力,可以直接对标OpenAI与Anthropic的闭源模型加产品矩阵。
技术互补是现象。更根本的原因在于人。DeepSeek与Kimi的两位创始人都信奉第一性原理,底层思维如出一辙。
梁文锋的底色,是一位量化工程师。他浙大毕业,没有留学背景,扎进量化投资靠算法交易完成资本积累,再投入AGI研究。这条路教会他一件事:把问题拆解到底层,重新计算每个环节是否冗余,用最少资源达成同样结果。他选择开源的理由也源于同一逻辑——“在颠覆性的技术面前,闭源形成的护城河是短暂的。”语气平淡,逻辑锋利。
杨植麟的底色,是一位可计算学派的笃信者。清华本科,CMU博士,求学期间以Transformer-XL等工作建立学术声望。他用六个字定义大模型的本质:“压缩产生智能。”在他看来,只要找到更优的压缩方式,用更少的token表达同等信息密度,就能在算力受限下持续逼近更高智能。他以等差数列作比:一万个数字,最理想的压缩只存储规律和首尾两项,其余皆可还原。他要找的,就是大模型里的那条“等差规律”。
一个用工程逼近极限,一个用逻辑逼近本质,殊途同归。这正是DeepSeek与Kimi技术互嵌所以发生的根由。
一项产业事实正在浮现:它们正在共同构建一套标准开源技术栈——MoE架构、MLA注意力、Muon优化器、多模态能力、Agent框架、国产芯片适配。开源模型在实际调用量快速提升,说明这套技术栈正在成为中国大模型的事实标准。
也就是说,假如DeepSeek与Kimi们合并,诞生一个平视OpenAI与Anthropic的全栈技术底座只是下限。两种计算精神的深度碰撞,将大幅推升大模型开源世界的进化速率。
商业合流:算力、收入与出海的叙事主权
技术互嵌已然够深。但如果只停在技术层,合并的价值只兑现一半。两家公司面临的商业瓶颈高度一致:算力不足,收入体量偏小,全球化叙事分散。
先看算力。DeepSeek在V4定价说明中写了一句:“受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后价格会大幅下调。”Kimi内部则流传一个说法:“制约业务发展的只有算力,现在至少还有10倍的需求没有被满足。”
合并之后,芯片采购、机房建设、国产适配的投入不再重复,对英伟达、华为等供应商的议价能力随之提升。更重要的是,统一技术栈意味着国产芯片只需适配一套标准,生态碎片化成本大幅压缩。
再看收入。Kimi K2.5发布后20天内收入超过2025年全年,海外收入已超越国内,付费用户月环比增速超过170%。K2.6发布时,API输入价格从每百万token 4元提至6.5元,涨幅58%,这是K2系列上线以来的首次涨价。DeepSeek则以“价格屠夫”著称,V4 Pro输入每百万token 12元人民币,到5月结束之前还限时打2.5折,仅3元。极致低价快速俘获了开发者,也压缩了盈利空间。
如果采用统一价格体系、持续且合理的成本下沉,有助于中国开源模型从互相压价转向协同定价,在国际市场建立更稳固的价值锚点。
出海方面,Cursor套壳Kimi K2.5,Cloudflare引入Kimi作为主力模型,Perplexity将Kimi列为唯一引入的中国模型,日本乐天基于DeepSeek开发Rakuten AI 3.0。两家在海外已各自建立了初步的用户心智据点。
合并后,统一品牌和开发者关系将降低海外认知成本,避免两个中国开源模型在同一生态位上彼此消耗。一个更强的统一品牌,在海外市场与云服务商、芯片厂商和顶级企业客户谈判时,议价空间和合作条款的主动权将完全不同。
人才棋局:以长期技术愿景凝聚顶尖研究者
DeepSeek与Kimi是中国AI创业赛道中人数最精简、人才密度最高的两家公司,也都承受着大厂精准的挖角压力。
过去一年,DeepSeek被系统性挖走了至少五位核心成员,覆盖了基座模型、推理、OCR、多模态四条核心技术线。Kimi在2025年年中经历长达半年的技术静默期,同样遇到员工流失。
两家团队的技术气质也很相似。双方都重视底层关键技术的研究:DeepSeek脱胎于幻方量化,工程优化与成本控制文化浓厚;Kimi由清华与CMU学术背景的研究者主导,学术探索与前沿创新氛围浓厚。
假设得以合并,将形成覆盖量化工程、学术研究、产品落地的复合型团队,在优化器、注意力机制、残差连接等底层领域的研究深度,可以更好的与OpenAI和Anthropic的研究部门正面抗衡。
一个更大的合并平台,能为顶尖研究者提供更具吸引力的股权空间与长期技术愿景。当公司体量接近或超过OpenAI与Anthropic的估值水平时,被字节、腾讯、阿里以高薪逐个击破的风险将显著降低。


