OpenAI总裁深度访谈:为什么关闭Sora?星云创联AI智库
4月2日,OpenAI联合创始人兼总裁Greg Brockman在海外播客《Big Technology》中进行了一场信息密度极高的深度对话。在AI竞争进入白热化、公众对技术走向充满猜测的当下,他首次正面回应了OpenAI在视频生成风头正劲时选择收缩Sora投入的真实意图。
这并非一次简单的业务调整,而是一场关乎AGI(通用人工智能)冲刺路线的战略抉择。在这场对话中,Brockman不仅勾勒了未来“超级应用”的终端形态,揭秘了代号为“Spud”的新一代预训练模型,更详细探讨了算力经济学与普通人面对技术浪潮的自处之道。
以下为基于访谈原文的深度解析。
一、为什么必须暂时“冷落”Sora?
外界对OpenAI近期在消费级市场的动作充满好奇:为何在Sora展现出惊人潜力时,公司却选择收缩其商业化投入,转而全速推进结合商业和编程场景的“超级应用”?
Brockman给出的答案是,整个AI行业正处于一个关键的转折点——从“验证技术可行性”的实验室阶段,全面迈向“获取现实效能深度反馈”的部署阶段。
过去,OpenAI的目标是证明深度学习能产生正向影响;而现在,他们需要将技术投入到真实的知识工作中,去检验它究竟能多大程度地提升人类效率。
在面对众多应用可能性时,OpenAI必须做出残酷的优先级排序。排在首位的是两件事:一是打造能与用户目标完全对齐的私人助手,二是构建能解决极度复杂难题的AI。
即便以OpenAI目前拥有的全球顶尖算力储备,也根本无法同时支撑这两大核心任务与其他所有极具潜力的应用场景。
更底层的技术逻辑在于,Sora与核心推理模型(GPT系列)属于完全不同的技术树分支。
虽然Sora在理解物理世界规律方面表现出色,但同时追求两个底层构建方式迥异的分支,对当前的资源而言过于沉重。因此,尽管Sora相关的机器人研究仍在继续,但在当前节点,OpenAI选择将主要精力绝对对齐到GPT系列的开发上。
这并不意味着OpenAI放弃了多模态。恰恰相反,ChatGPT中的图像生成功能依然是优先投资的对象。背后的逻辑是,OpenAI的图像生成并非基于扩散模型分支,而是基于GPT架构。
虽然数据分布不同,但底层核心技术是统一的。这种技术底层的统一性,正是AGI的奇妙之处——语音、图像、文本、科研与编程,最终都可以在同一个框架内实现。
放弃全面开花,是为了在核心路径上实现突破。正如Brockman所言,随机向量的总和为零,只有将所有力量对齐到一个方向,才能成功突围。一个极具说服力的案例是,最近一位物理学家将困扰他许久的未解难题交给了OpenAI的模型,仅仅12小时后就得到了解决方案。
这位科学家感叹,这是他第一次感觉到模型在“思考”。面对这种能为全人类释放巨大潜能的突破,OpenAI必须倾注所有资源加倍投入。
二、超级应用与“顺应人类”的计算机
在明确了推理模型的绝对核心地位后,OpenAI正在构筑一个整合了所有核心能力的“超级应用”。
在Brockman的构想中,未来的超级应用将是编程、浏览器与对话的完全合体。
目前的Codex或许还被视为软件工程师的专属工具,但它正在迅速进化为一个面向所有人的通用接口。未来的AI不应让人类去适应电脑的操作逻辑,而是由AI直接操控网页并处理复杂的背景信息。
想象一下,当你需要设置笔记本的复杂选项时,只需直接告诉AI,它就会自动完成。这个终端应用将内置浏览器功能,AI能够实际操作网页,而人类只需负责监督。无论是聊天、编写代码还是处理知识工作,所有的对话都将统一,AI将拥有连贯的记忆并深刻地了解你。
这既是生产力工具,也是生活工具,它是人类进入数字世界的专属门户。
然而,在通往超级应用的道路上,OpenAI也曾面临挑战。面对竞争对手(如Anthropic通过Claude抢占先机),Brockman坦言,OpenAI此前在应用落地的“最后一公里”上确实投入不足。虽然他们的模型在各类高难度编程竞赛中始终拔得头筹,但真实的软件工程环境远不如竞赛环境纯净,充满了杂乱的代码库和异常干扰。
不过,从去年年中开始,OpenAI已经深度整合了研究与部署团队,专门攻克现实世界的复杂性。目前,他们已经在这一领域追赶上来,并在用户对比中重新占据上风。Brockman强调,拥有优秀模型的同时,不能只盯着竞争对手的位置,因为当你到达时,对方早已移动。
三、代号“Spud”与自动化研究员的诞生
面对白热化的竞争,OpenAI内部始终保持着强烈的危机感。Brockman回忆起ChatGPT发布后的节日派对,当全公司弥漫着胜利气息时,他却感到警惕,始终将公司定位为挑战者。
在过去18个月里,Brockman个人的大部分精力都投入到了GPU基础设施的建设上,全力支持团队在大规模训练任务中扩展架构。这一切,都是为了支撑下一代模型的诞生。
关于传闻中代号为“Spud”的全新预训练基础模型,Brockman并未直接确认名称,但他详细阐述了其背后的开发逻辑。
这不仅仅是一个单一的模型,而是一个凝聚了过去两年研究成果的全新预训练基础。
预训练的提升具有巨大的乘数效应,基础能力的跨越能显著降低后续强化学习与推理的成本。
新模型将带来定性的能力跃升。它不仅能解决更难的问题,对指令和上下文的理解也会深刻得多,从而极大地顺应用户的意图。这种提升将拉高AI能力的上限(如物理学等开放性长周期问题),同时提高底线,让任何日常任务都变得更加高效。虽然在某些不以智能为瓶颈的场景中,这种提升可能不会立刻显现,但随着时间推移,它将从根本上改变用户对系统的依赖程度。例如在医疗领域,已经有用户通过AI研究出了癌症的治疗思路,并在医生无能为力的情况下获得了治疗方案。
与此同时,OpenAI预计在今年秋天推出“自动化研究员”。这标志着技术“腾飞”的早期阶段——
利用AI来反哺AI研发,让AI变得更强。
这个系统能够接管研究科学家完整的端到端工作流程,并在计算机模拟环境(in silico)中自主运行。当然,人类依然会深度参与管理和审查,以确保AI不会误入歧途。在追求技术红利的同时,OpenAI在防御提示注入等安全保障上投入了巨大精力,确保AI始终与人类对齐。
四、AGI进度条已达80%的现实意味
关于AGI的进度,业界众说纷纭。Brockman给出了明确的判断:
AGI已经完成了70%到80%,并将在未来几年内成为现实。
他指出,AGI的判断标准不应是陈旧的图灵测试,也不应仅仅是感官上的智力构想,而应是“经济模式全面转型的时刻”。当AI能够直接引入系统,并自主胜任几乎所有在电脑端进行的人类智力任务时,AGI的实现就将成为无可争议的事实。
回顾技术发展的轨迹,AI已经从锦上添花的边缘工具,跃升为重构工作流的核心引擎。以Codex为例,新模型的发布让AI能处理的任务占比从20%直接跳升至80%。Brockman提到,当年他学编程时花了好几个月才建好的网站,AI在2020年需要四小时反复提示才能完成,而到了2022年12月,它已经能一次性高质量地搞定。
更有趣的是,一位非技术人员利用Codex辅助视频编辑,自动为Adobe Premiere构建了插件、划分章节并开始剪辑。这个案例彻底改变了Brockman认为Codex仅限程序员使用的看法。
底层技术的本质并非关于代码,而是关于解决问题和管理上下文。
只要AI掌握了背景信息,无论是Excel表格处理还是幻灯片制作,它都能高水平完成。只要消除准入门槛,AI就将属于每一个人。
五、当人类成为成千上万Agent的CEO
随着AI能力的下放,硅谷出现了人们授权AI访问桌面、邮件并代劳日常事务的趋势。当人类像首席执行官一样指挥成千上万个Agent舰队时,我们是否会失去对生活的掌控?
Brockman认为,这需要极高的管理智慧。AI赋予了人类杠杆和能动性,让你有愿景就能指挥Agent去实现。
但归根结底,必须有一个负责方。
如果Agent建网站时出了错,责任不在Agent,而在作为管理者的人类。
因此,人类不能当甩手掌柜。作为CEO,如果脱离了细节,对实际情况失去敏锐的触觉,系统必然会崩溃。我们不需要事必躬亲,但必须为了真正理解系统的优势和弱点而保持敏锐,承担最终的问责制。
在未来,当AI真正具备了电脑操控能力,并配备了企业级的审计追踪和凭证管理后,我们将迎来跨领域的创造力大爆发。Brockman最期待的是,就像当年AlphaGo下出人类棋手无法构想的第37手一样,这种充满创造力的现象将发生在科学、数学、医疗甚至文学等每一个领域。
面对“数学型人才将被AI冲击”的担忧,Brockman给出了一种充满人文关怀的视角:人们总是更容易看到失去了什么,而忽略了得到了什么。躲在屏幕后敲击键盘并非人类存在的真谛。
AI将释放出大量的时间,让我们去增强人际连接,建立更深的情感纽带。
六、为何千亿美元的基建豪赌是一场必胜局?
在算力布局上,OpenAI展现出了极具侵略性的前瞻视野。面对外界关于“基础设施豪赌可能导致破产”的警告,Brockman予以了坚决的反驳。
他提出了一套全新的算力经济学逻辑:
算力不是“成本中心”,而是像雇佣销售人员一样的“收入中心”。
只要产品卖得出去,算力的建设规模就直接决定了企业收入的边界。现实情况是,算力的建设速度永远赶不上需求,而购买算力需要提前18到24个月锁定订单。OpenAI之所以筹集巨额资金,正是因为他们最早预见到了全行业的算力短缺,并提前完成了布局。
在这套逻辑中,英伟达的GPU依然是不可或缺的绝对核心。虽然推理和训练的比例在变化,但投入到预训练模型中的算力量只会持续上升。
基础模型必须在智能与推理成本之间找到最佳平衡点,因为后续的强化学习和全球化服务需要极高的推理效率。
企业端市场的爆发也印证了这一判断。各大企业已经意识到,为了保持竞争力,必须全面采用AI进行知识型工作。整个经济的增长核心都将围绕AI展开,而这一切的底层支撑,正是庞大的算力储备。
七、破解能源焦虑,重塑个体坐标
在宏大的技术叙事之外,Brockman也分享了自己作为普通用户的日常。他会用AI为团队开发内部工具,甚至用它分析YouTube缩略图数据来预测视频表现。AI让软件真正实现了个性化,理解了人类的意图。
然而,公众对AI的态度依然充满了由流行文化带来的恐惧与偏见。人们担忧失业、环境污染和电费上涨。对此,Brockman用详实的数据进行了祛魅。
以能源担忧为例,OpenAI在Abilene的超级计算机,其耗水量仅相当于一个普通家庭一年的用量,几乎可以忽略不计。
在电力方面,目前的电网中存在大量无法利用的搁置电力,传输系统急需升级。OpenAI承诺承担用电成本和电网升级费用,绝不让纳税人买单。事实上,在北达科他州,正是因为数据中心的入驻和对公用事业的投资,当地居民的电费反而下降了。
更重要的是,AI正在真实地拯救生命。Brockman分享了一个感人的案例:一个孩子生病需要做核磁共振却被保险公司拒绝,他的家人利用ChatGPT研究症状,找到了完美的申诉理由,成功拿到了检查机会,最终发现了脑肿瘤并挽救了孩子的生命。
面对势不可挡的技术浪潮,Brockman给普通人的最终建议是:
克服面对空白输入框的迷茫,去试用这些工具。
培养自己的主体性,把自己定位为管理者,去设定方向、委派任务并进行监督。看清自己真正想要什么,并利用AI去实现它,这将是未来时代最重要的生存技能。


