这半年AI发生的事沃垠AI
昨天晚上做饭的时候,我用手机命令电脑里的 AI 干了三件事:打开一堆 PDF 发票整理成 Excel报销单、一句话给电影《火遮眼》做一个带宣传视频+海报的网站,以及按我的风格给这篇稿子写个开头。
饭做完,活儿干完了。
这种事,一年前是科幻,今年是日常。
我说这个不是要煽情。我是想说,2026 上半年的 AI,已经不是“哪个模型分高”那回事了。模型这一头的卷,到GPT-5.5、Claude 4.8、M3 这一档,边际收益肉眼可见地在递减。真正发生变化的地方,悄悄挪到了别处——挪到了你怎么把AI 装进自己生活、装进自己工作流以及装进自己的电脑里。
这半年我一线测过的产品多到说不清,发布会看到一半就关掉的也多到数不清。这篇文章不是流水账,是我从一堆事里挑了 10件,自己亲手用过、踩过坑、形成判断的,串成一条线。
10 个话题的顺序是:AgentSkills、OpenClaw、Harness、Multi-Agent(包括AgentOS、Sub-agent)、Coding Plan、CLI回归、Desktop Agent、PhysicalAI、语音交互、Seedance 2.0。
一万字,慢慢看。
一、Agent Skills:2026 年最值得学的技能
整个上半年,最被低估、又最影响一线工作流的事,是 Agent Skills。
它在半年里完成了从一家厂的功能,到行业标准的跨越。Anthropic 去年 10 月推出,12月做成开放标准,到现在OpenAI、谷歌以及国内 AI 厂商全跟上。
那它到底是什么。一句话理解,Skills 是一个文件夹,里面必须有一份 SKILL.md,开头是 YAML 元数据 name 和description,下面是 Markdown 写的执行说明,再带上可选的 scripts 子目录、references 子目录和assets 资源文件。
Agent Skills 最有意思的是progressive disclosure这个渐进式披露机制。三层结构。第一层是元数据,每个 Skill 大约 50 到 100 个token,会话启动时全部 Skills 的 name 和 description 都进系统提示词,模型只是“知道有这些 Skill存在”。第二层是指令,整份 SKILL.md 的正文,官方建议控制在 5000 token 以内、500行以内,只在模型判断当前任务匹配某个 Skill 时才加载进上下文。第三层是资源,scripts 和 references这些更深的文件,只在 SKILL.md 主动 reference 到它们时才进上下文。
这套架构在解决一个非常实在的问题,上下文的稀缺性。早期 Agent 的痛点是塞东西,谁都想往 System Prompt里塞更多专业知识,但塞越多模型越糊。Skills 把“有哪些能力”和“具体怎么干”在物理上拆开了,让模型只为正在做的事付token。
Skills 解决的真正问题,不是 Prompt 长短,是个人知识的资产化。一个公司里最值钱的从来不是 SOP文档,而是只有几个老员工才知道的“这个表必须按这个口径填”。过去这种东西要么靠人传人,要么写成员工手册然后没人看。Skills第一次让“个人或团队的方法论”具备了被分发、被复用、被版本化管理的形态。
我自己用下来,最大的感受是效率神器。我给沃垠AI写了一堆 Skill,从选题收集、写作风格到标题生成,每加一个新Skill,模型在没触发它的时候完全感受不到,触发后又能精准照做。这种“加它不亏,用它管用”的体验,是 Prompt工程时代不可能有的。
时间走到 2026 年 6 月,再说“学会怎么问 AI”已经过时了。该学的是怎么教 AI,而 Skills是这件事最干净的载体。
二、OpenClaw:全民 Agent 的第一次破圈
2026 年春节后,国内 AI 圈最热的一个名字是龙虾,学名 OpenClaw,开源协议,TypeScript 写的,作者是Peter Steinberger。这名字怎么来的,故事很简单。作者 Peter 想做一个叫 Molty 的“太空龙虾”AI助理,做着做着把底层那一块抽出来开源,名字就成了 OpenClaw,“Open + 螯”。其GitHubStar数已达到37万,成为开源Top 1。
它解决了一个被忽视很久的问题。
过去做 Agent,主流路径就两条。比如 ChatGPT 的 Operator、Manus、Genspark这些,你点开网页用,体验好但你的对话、文件、Memory 全在别人家服务器上跑。另一类是 Claude Code、Codex 这种CLI,本地是本地,但本质上是一个写代码的终端工具,多通道、跨设备、永远在线这件事它不管。
OpenClaw 把这两条路接起来了。它本身不是模型,是一个本地起的Gateway,给你接全套通讯渠道,然后挂任何你想用的LLM。微信、Telegram、WhatsApp、Slack、Discord,连macOS / iOS 的语音唤醒和 Android 的连续语音都做了,背后都是同一个跑在你自己机器上的 Agent,同一份Memory,同一份 Skill 库。
它真正引爆是春节那阵,几乎全民都在养龙虾。Kimi、GLM 和 MiniMax 相继推出了 Coding Plan,能在OpenClaw 里直接挂国产模型。99元一个月你能跑一个永远在线的私人 Agent,搁一年前是不敢想的事。
但说实话它有它的“贵”。OpenClaw是个心思特别细腻的管家,每一轮对话都拖家带口地把系统提示、长期记忆、技能元数据全塞进去。我刚装上那会儿,充了 50块到云厂商,问到第三个问题余额就负了。OpenClaw 的 token 消耗大概是 Claude Code 的 3 到 5 倍。这不是bug,是它的形态决定的。一个永远在线、跨多通道的 Agent,必须随时拎着完整上下文,否则人格、记忆、技能就接不上。
这玩意来得快,去得也快。现在,龙虾热潮已经大大降低,还留下来在玩的人绝对是龙虾的超级发烧友。它当然还有很多问题,比如新手门槛较高,安全性一直是个大问题,以及很烧token。但它把“自动化Agent”从极客玩具拽到了大众能用的水平,这一步意义已经够大。
我个人的判断是,2026 下半年的核心战场不在通用 ChatBot,而在每个人都可以有自己的专属 Agent。OpenClaw是第一个真正能跑通的开源样本。
三、Harness:给 LLM 牵一条缰绳
Harness Engineering,在 2026 年上半年讨论还挺火热的。当然这个火热主要集中在 AI 公司里,非 AI从业者可能关注比较少。
中文翻译挺别扭,挽具、马具、缰绳,怎么翻都不传神。它指的是包在 LLM 外面一整层的工程化基础设施,包括指令(Instructions)、约束 (Constraints)、反馈 (Feedback)、记忆 (Memory)、编排(Orchestration)等。它的核心作用,是把一个原本不可预测的模型,变成一个稳定、可控、可用的“数字员工”。
为什么 Harness 突然在 2026年变成共识。一个原因是大家发现,模型再强也撑不住上下文爆炸,真正决定成败的是它外面那层“缰绳”。同样一个模型,在 Cursor里跑和在 Claude Code 里跑,体感差好几个段位,差就差在 Harness 的工程质量。
这个语境里跑出来的代表产品叫HermesAgent。开源,可自由接Claude、GPT、Kimi、GLM、MiniMax、Qwen和DeepSeek,3月开始成为AI 极客的新宠儿,超过 OpenClaw。
它解决的问题,跟 OpenClaw 表面像,但骨子里不一样。OpenClaw 的核心叙事是“自动化Agent”,跨通讯通道、本地永远在线。Hermes Agent的核心叙事是“自我进化的Agent”。你今天教它一件事,下周它会自己评分、决定保留还是淘汰,质量不行的 Skill它会自己合并或者删掉。
6月3日,HermesAgent推出了桌面版,macOS、Windows、Linux都能用,前后端共享同一份配置、技能和记忆。你在CLI起的会话,能直接接到桌面端。
我自己的判断是,Harness 在 2026 下半年会越来越重要。模型层的卷已经开始边际递减,Harness这一层才刚开始。
四、Multi-Agent:Agent 开始组队干活
2026 年上半年,Agent 圈最显著的变化是单 Agent 开始过时了。
不是 AI 不够强,是任务变复杂了。一个企业级代码迁移、一份跨多平台的市场调研、一次大型 bug跨服务排查,单一上下文窗口塞不下,单一思路也跑不完。多 Agent协作在这半年里从论文走到了产品,名词也跟着分裂出来一堆,Sub-agent、AgentTeam、Multi-Agent、Agent OS,听起来近,差别大。
先把这几个词分清楚。
Sub-agent。一次性、隔离、向上汇报。主 Agent 派一个或一组子 Agent出去干活,子 Agent 有自己的上下文窗口,干完只把结果汇总回来,期间互不通讯。这是最轻量的多智能体形态,本质是上下文隔离 +并行加速。Claude Code 文档里把这一类描述得很直白,fire-and-forget worker。VS Code 1.109在 2026 年 2 月把 Sub-agent 做成了 IDE 一等公民,直接支持多个子 Agent 并发跑、可视化看进度。


