300个分身狂敲代码,开源第一易主了新智元

4/23/2026

开源AI王座一夜易主!Kimi K2.6出道即巅峰,展示了恐怖的「全栈交付」能力。它不仅能复刻高盛研报、手搓奢华官网,甚至能和人类在群组里并肩打工。

开源模型追平甚至反超闭源三巨头,这件事真的发生了。

4月20日深夜,Kimi K2.6出道即开源。

HLE「人类最后的考试」54.0分,碾压GPT-5.4和Claude Opus 4.6SWE-Bench Pro软件工程实战58.6分,超过GPT-5.4的57.7Terminal-Bench终端编码66.5分,而GPT-5.4只有60.4Artificial Analysis评测中,更是直接坐上了世界开源第一王座

但我们今天抛开跑分,只聊一件事:K2.6到底能干出什么活。

代码写完了,设计也交了

首先,让K2.6 Agent制作一个近地轨道旅行公司ORBITAL的官网,要求植入太空舱座位选择和航班预订功能。

打开的瞬间,商业航天的高级感直接拉满。

全屏视频背景是太空舱窗口视角,地球弧面缓缓转过,大气层边缘泛着蓝光。

右下的飞行数据面板用等宽字体列出关键参数,左上的荧光青小圆点在缓慢呼吸闪烁,模拟系统在线状态。

往下滑动,是一条垂直时间线驱动的飞行叙事。

从T-60:00在樟宜航天港换上定制加压服,到T+03:00推进阶段承受过载,到T+08:00零重力开始,一直到T+92:00 Touchdown,太空舱溅落海面,回收潜水员围上来。每个阶段带一个橙色关键数据和AI生成的场景配图。

一段prompt,一次生成,从品牌视觉系统到可交互的舱位SVG图,全部到位。

K2.6 Agent做出来的不只是好看的前端,它能做全栈交付。

后台的航班预订系统是真的能跑的。选日期、挑座位、填乘客信息,预约数据做了持久化存储,每航班6座上限,满了自动锁定。

这个网站不是一个「看样子」的空壳,它带着完整的后端逻辑。

同样的prompt结构,K2.6 Agent产出了深海探索研究机构「THALASSA」的官网。

首屏运镜从北大西洋海面垂直下沉入水,穿过水线的瞬间画面一分为二,蓝色从浅到深渐变,远处墨蓝中亮着两点暖黄色潜水器灯光。

三台潜水器参数卡片精确到推进方式和观察窗尺寸,6种深海生物各占一屏。田野笔记区三篇文章分别署名首席科学家、海洋生物学家和纪录片导演。

奢侈香水品牌ÆTHER的官网,K2.6 Agent在「极致美学」上的统治力展现得最充分。

只见一支琥珀色香水瓶在大理石台面上,瓶内液体缓慢旋转,光线穿透玻璃投射出焦散纹。

「ÆTHER」五个字母用Cormorant Garamond衬线体叠在瓶身上。La Collection区展示5款香水,可拖拽切换。

5款香水、5套完整香调金字塔、5句手写文案、5张各不相同的瓶身图。

这些网站能做到这个水准,背后是K2.6模型加上Kimi Agent 模式 harness 的实力。超过了 Google AI Studio中的Gemini 3.1 Pro。

产出的是可以直接丢进项目的React组件和HTML/CSS代码,带动画关键帧、hover状态、滚动触发动效,甚至拖拽界面和多步表单,跟静态Mockup完全两码事。

前端编码的审美是 Kimi 从 K2.5 就开始卷的能力,到 K2.6 又券出了新境界。没猜错的话,这应该是杨植麟在2025年底内部信中提到的agent产品taste之一?

300个Agent,4000步,一次交付

1T巨量参数,每个token只激活32B的开源MoE,384个专家选8个激活。

连续编码13小时不断线,单次修改超过4000行代码。

内部实测中自主重构了一个8年历史的金融撮合引擎,峰值吞吐量涨了133%。

有了这个底子,Agent集群才真正有了用武之地。

长程编码解决「一个人能干多久」,Agent集群解决「一支团队能做多大的事」。

K2.5时代是100个子Agent、1500步。K2.6直接拉到300个子Agent、4000步。

不同技能特长的Agent互补协作,一次运行就能交付从文档到网页、从PPT到表格的全套产物。

过去丢给Kimi一个复杂任务,它一个人从头干到尾,遇到不擅长的环节就可能卡住。现在它会自己拆活、组队、分头干,每个子Agent专攻自己擅长的那块,最后汇总交付。

Claw Bench的内部测试结果显示,K2.6在无需人工干预的长时间自主运行场景中提升尤为明显。

在自主Agent场景中,K2.6与OpenClaw、Hermes Agent配合可长达5天持续自主运行。

这个「集群」到底能干什么?我们做了三轮测试。

30个Agent写30座城市的凌晨四点

首先,让Agent们化身为30座城市在凌晨四点仍然醒着的一个人。

拉各斯的发电机维修工、孟买的送报员、里约的沙滩清洁工、新加坡的港口调度员、旧金山的程序员、马尼拉呼叫中心的夜班接线员……

每人写一段200字以内的第一人称片段,只写动作和感官,禁止出现「孤独」「寂寞」等直白情感词。

这类任务的难点不在单篇文字,而是30篇之间不能撞。

Scroll for more