OpenAI硬核实验:人类软件工程被「倒过来」了新智元

2/15/2026

在OpenAI一项内部实验中,一个最初仅3人的团队、5个月、从零到一造出「百万行代码产品」,没有一行代码是人类程序员完成的,而不手工写代码,也是该项目的一条铁律。

这一次,人类软件工程被「倒过来」做了!

刚刚,OpenAI官博曝光了他们的一次内部实验:

一支最初3人的工程师团队,利用Codex智能体在5个月内从零造出了一个「百万行代码产品」。

在整个过程中,人类不写手工代码,而是把精力集中在「想清楚要什么、把规则立起来」,其余的一切交给AI。

每人每天平均能推进3.5个PR(Pull Request,代码合并请求),而PR的执行环节(实现、测试、文档、CI配置)全程由智能体代劳。

OpenAI为这套工作流赋予了一个十分形象的名字:「驾驭工程(Harness Engineering)」。

来源:https://openai.com/index/harness-engineering/

在实验里,程序员不再是那个熬夜写Bug,再熬夜修Bug的「码农」,而是原来的「执行者」变为「驾驭者」。

这不止是10倍效率提升的「生产力革命」,而是一次对「软件工程」定义的颠覆,直接宣告了人类「手工代码时代」的终结。

从一个空的git仓库开始

这次实验从AI的第一次提交开始。

2025年8月下旬,当空仓库里落下第一个commit(提交)时,它就已经不是人类写的——当时没有任何既有人类代码可以充当「锚点」。

更魔幻的:连那个用来指导AI怎么干活的说明书AGENTS.md,第一版也是AI自己写的。

从第一天起,这个仓库就是由智能体塑造的。人类不许写代码,成了这个项目的一条不可逾越的铁律。

这不是为了偷懒,而是一种近乎自虐的「刻意练习」,只有切断了人类「亲自上手」的退路,才能倒逼团队去破解那个在完全无人情况下构建代码的终极问题。

于是,这个3人小团队(后扩展到7人),一下子好像成了拿着鞭子的牧羊人,驱赶着一群不知疲倦的Codex智能体在代码草原上狂奔。

结果令人震撼:5个月,一百万行代码。

重新定义工程师的角色

这项实验的早期进展,比OpenAI的研究人员预想得要慢。

不是因为Codex不行,而是因为环境定义得不够清晰:智能体缺少实现高层目标所需的工具、抽象和内部结构。

于是,OpenAI工程团队的主要工作变成了一件事:让智能体有能力完成有价值的工作。

他们把大目标拆成更小的构建块(设计、编码、评审、测试等),提示智能体把这些块搭起来,再用它们去解锁更复杂的任务。

当事情失败时,答案几乎从来不是「再试一次」,这里唯一的推进方式就是让Codex去完成工作,人类工程师通常会退一步问自己:

到底缺了什么能力?怎样把它变得对智能体既清晰可见,又可以被强制执行?

整个过程中,人类几乎完全通过提示词与系统交互:工程师描述任务,运行智能体,让它发起一个PR。

为了推进PR完成,研究人员会让Codex在本地自审改动,请求额外的本地和云端智能体评审,回应人类或智能体的反馈,然后在一个循环里不断迭代,直到所有智能体评审者都满意。

随着时间推移,几乎所有评审工作都移交给了「智能体对智能体」。

提升应用程序的可读性

随着代码吞吐量的增加,OpenAI发现:AI编码的瓶颈变成了人工质量检查(QA)的能力。

于是,人类的时间和注意力成了真正的约束。

为了突破这一瓶颈,OpenAI的办法是让Codex能够直接读取应用程序的用户界面、日志以及应用指标等内容。

他们将Chrome DevTools协议接入了智能体运行时,并开发了处理DOM快照、截图和导航的技能。

于是,Codex可以自己复现bug、验证修复、推理UI行为。

OpenAI对可观测性工具也采取了同样的做法。

日志、指标、追踪通过本地可观测性栈暴露给Codex,并且对每个worktree(工作区)都是隔离、临时的环境。

任务完成后,这套环境就会被销毁。

智能体可以用LogQ查日志,用PromQL查指标。

于是,「确保服务启动在800ms内完成」或者「这四条关键用户路径里没有任何一个span超过两秒」这样的提示,就变得真正可执行。

做了这些之后,OpenAI研究人员经常看到Codex一次运行连续工作六个小时以上,通常还是在人类睡觉的时候。

给Codex一张地图

而不是一本1000页的说明书

让智能体处理大型复杂任务时,上下文管理是最大的挑战之一。

OpenAI研究人员早期学到的一个简单经验就是:

给Codex一张地图,而不是一本1000页的说明书。

一开始,团队试图写一个超大的AGENTS.md文件,把所有规则、逻辑、注意事项都塞进去。结果,这成了一场灾难。

因为AI的注意力也是稀缺资源。

给它一本1000页的说明书,它会迷失在细节里,漏掉关键约束,或者把目标搞错。

而且,这种单体大文档维护起来简直是噩梦,很快就会变成「陈旧规则的坟场」。

于是,团队迅速调整策略,他们把AGENTS.md变成了一张「寻宝地图」。

这个文件只有大约100行,它不包含具体知识,只是一个目录,就像一个导航地图,指向仓库深处更深层的真实来源。

设计文档被编目并索引,包括验证状态以及一套定义「以智能体为先」操作原则的核心信念。

真正的知识库在结构化的docs/目录里,是系统的唯一事实来源。

这就是「渐进式披露」:智能体从一个小而稳定的入口开始,被教会下一步去哪找,而不是一开始就被信息淹没。

Scroll for more