谁来啃下全球汽车制造业“最后15%难题”?苗正卿
在上海或深圳的任何一家现代化新能源汽车超级工厂里,都能看到这样一种充满讽刺意味的“技术断层”景象。
在冲压、焊接和涂装车间,成百上千台巨大的工业机械臂,以微米级的精度在火花飞溅中翩翩起舞,将自动化率推向了近乎完美的99%。然而,当你进入总装车间,画风突变——这里依然是人类的主战场。数以百计的工人像工蜂一样围着流水线,在狭窄的车厢内弯腰、下蹲,进行着插接线束、拧紧螺丝、安装内饰等繁琐操作。
这就是困扰全球汽车制造业的“最后15%难题”。 在这里,自动化率断崖式下跌,从99%骤降至不足15%。对于传统的工业机器人来说,一根柔软线束的随机晃动、一个螺丝孔位的微小偏差,都是无法逾越的认知天堑。
这是一个被视为“灯下黑”的工业痛点,如今成为了光象科技战略推演的起点,这正是光象科技要解决的问题。
2024年夏天,中国风投界正沉浸在人形机器人的巨大泡沫中,许多创业者都在向投资人兜售“通用大脑”的故事。
创始人兼CEO张涛和他的联合创始人李升波坐在投资人的对面,在叙述和推演中,他们亲手推翻了那套通用具身大脑或平台的叙事初稿。“我们判断,人形机器人的真正落地,可能还要十年。”
这种推演,是张涛从自动驾驶行业十年沉浮中提炼出的血泪教训。过去十年自动驾驶的发展道路,不乏先驱折戟沉沙的故事,也诞生了特斯拉这样的破局者。
当年,自动驾驶概念方兴未艾,Waymo等公司一上来就瞄准了L4、L5级别的完全无人驾驶(Robotaxi),试图一步到位地解决所有长尾问题。然而,为了追求极致的安全与泛化,这些公司陷入了无休止的模块化堆叠与安全冗余设计的泥潭,导致成本高企、落地遥遥无期。
后来者的特斯拉,选择了一条看似升维的路径:从L2级别的辅助驾驶(NOA)切入。NOA距离无人驾驶更远,但它是一个在当时技术能力与用户体验之间找到最佳平衡点的产品。正是通过在L2层面的大规模落地,特斯拉积累了宝贵的数据,反过来推动了技术向L4的演进。
张涛认为,当下的具身智能行业正处于自动驾驶十年前的那个十字路口,试图一步到位,极有可能重蹈Robotaxi的覆辙。光象科技选择了一条“特斯拉式”的渐进路线:避开双足人形机器人的机械复杂性,避开家庭场景的非标混乱,转而切入一个既有足够复杂度、又能实现商业闭环的垂直场景——汽车制造。
张涛有一张具身场景落地的四象限分析框架。
张涛的四象限图
传统的工业机器人停留在“标准环境+简单任务”的左下角,而光象科技的目标是从这里出发,向“标准环境+复杂操作”的右上角进军。
张涛认为,在工厂场景中,真正的痛点在于那些需要手眼配合的柔性作业,比如在狭窄空间内精准地将异形接插件推入接口,这才是“智能化”区别于“自动化”的根本所在。
而承载这一智能化的核心,是一个叫做GOPS的平台,是一个针对具身机器人的模型构建系统,也可以理解为一套机器人的“养成系统”,有了GOPS平台之后,机器人可以快速学会一个新技能,也可以高效的把一个技能直接复制到下一家车厂。
1场景选择的方法论:一张四象限“战略图”
虎嗅:2024年你们开始筹备的时候中国的具身智能特别火,但那个时候你们选择落地工业场景,尤其是先从汽车制造入手,有没有经过一些讨论?为什么没有选择一些更热门的人形机器人赛道?
张涛:我们判断,完全通用的人形具身智能机器人,其真正落地的周期并非市场预期的三五年,而至少需要十年以上。
这一判断源于我们在自动驾驶领域的过往经历。回顾自动驾驶的发展历程,从概念兴起、资本涌入到创业潮爆发,初期焦点都集中在L4、L5级的Robotaxi上。但经过约十年的发展,行业对技术路径产生了分歧:是渐进式地从L1、L2过渡,还是一步到位做L4?市场检验表明,直接从L4切入并非最优解。
那些一上来就主攻L4的公司,为满足安全要求,在模块化策略和兜底方案上投入了巨大资源,这反而阻碍了他们探索真正可泛化的技术路径。而这条路径,恰恰是被特斯拉探索出来的。特斯拉并未直接做L4,而是先推出了NOA(导航辅助驾驶)。
在我们看来,NOA是自动驾驶发展史上极具里程碑意义的产物。因为它在当时的技术能力与用户体验之间,找到了最佳的产品匹配点。自动驾驶所追求的全场景通用与泛化,其技术难度绝非两三年能攻克,确实需要十年甚至十五年的长周期积累。
虎嗅:工厂场景中,上一波非大模型的人工智能已经落地了很多工业机器人,加入大模型之后,会有什么不同?有带来什么根本性的变化吗?
张涛:首先需要厘清一个概念:传统工业机器人属于“自动化”范畴,而我们现在做的具身智能属于“智能化”,两者存在本质区别。
自动化的核心在于“预编程”。 它要求将工艺流程拆解并预设动作,机器人仅需机械地重复指令。因此,其核心指标是“重复定位精度”。但这一模式存在两大瓶颈:一是难以执行复杂的动作组合;二是缺乏抗干扰能力,一旦环境或操作对象发生细微变化,预设程序便无法应对。
智能化的核心在于“实时感知与反馈”。 它能基于实时观测到的环境与对象状态,动态调整操作。从技术原理上讲,自动化属于“开环控制”,而智能化则是“闭环控制”,这是两者的根本差异。
未来的工厂形态不会是智能化完全取代自动化,而是自动化、智能化与人工长期并存。目前的工厂中,自动化与人工占据主导,智能化占比极低;未来的趋势是自动化比例将维持稳定,智能化将大规模替代目前的人工岗位,仅保留少量必要的人工环节。
虎嗅:团队的大部分成员都有自动驾驶经验,但反而我们没有选择自动驾驶这个场景。
张涛:这个问题很简单,核心在于时机。如果在2024年或2025年再成立一家新的自动驾驶公司,从现实角度看,几乎无法生存。
这主要基于两点原因:第一,自动驾驶的资源与人才聚集期早在十年前。那时入局,才能获取足够的资源支撑至今;而今天,无论是资本市场还是客户,都不会再给新公司这样的机会窗口。
第二,自动驾驶与具身智能存在本质差异。自动驾驶的目标场景非常集中(如道路交通),这种高度集中的属性必然导致市场向头部少数几家公司集中。
相比之下,具身智能则是另一套逻辑:首先,处于早期阶段,机会更多。当前具身智能在技术路线和商业模式上均未收敛,大家都在探索通向未来的通用方案,这意味着市场充满了挖掘空间。
其次,场景多样,难以垄断。我们判断,具身智能未来不会像自动驾驶那样高度集中。因为其应用场景极其多样,且单一场景的成功不只依赖某项单一技术。
具身智能的落地形态不局限于人形机器人,很多场景并不需要人形。更重要的是,要在垂直场景中通过具身智能产品创造价值,竞争要素是多维度的:不仅要有模型智能和本体硬件能力,还需要对场景特性的深度认知、软硬件的精准匹配,乃至商务渠道等非技术能力。
这些综合因素决定了,在众多的垂直场景中,每个领域都有可能诞生一两家站稳脚跟的公司,未来不可能有一家公司能够垄断所有的具身智能场景。
虎嗅:决定做具身之后,又是如何推演,决定从汽车制造的场景切入?
张涛:我当时自己画了一张四象限图,这个图的核心是回归具身智能的本质。具身智能本质上就是“智能体在某种环境下完成某项任务”,基于这个核心,我们把具身智能按两个维度拆分。
我将分析维度拆解为“环境”与“任务”两轴。
第一个维度是环境,我们把环境分为标准环境和非标环境。标准环境就像结构化道路、工厂这类场景;而形态各异的家庭、野外则属于非标环境;第二个维度是任务,分为移动和操作两类不同任务。
画完之后能看到,四象限左下角对应的是当前已经相对成熟的机器人应用,比如工业机器人、扫地机、AGV这些。这类应用的特点是,通常在简单、标准化的环境下,完成移动类任务或非常简单的操作类任务。而我们做具身智能,核心是希望从四象限的左下角往右上角推进,也就是逐步过渡到非标环境,同时攻克复杂的操作类任务,这是我们未来的核心方向。
但具体怎么选场景,我们主要从技术维度判断,核心是两个层面:一方面要寻求技术突破,比如过去做移动类任务,现在要向操作类任务突破;另一方面要考虑短期内落地的可能性,不能让技术面临的挑战过于复杂。
举个例子,环境是非标的,任务又非常复杂,最典型就是家务场景,家务场景的落地必然需要较长周期。
我们认为更好的选择是一个维度是——要么在标准化场景下做复杂操作,要么在非标环境下做简单移动。
前者最典型的就是在工厂里做柔性作业,比如装配、上料这些;后者比如野外无人机救援、扫图、搜索等。这两个方向既能保证较好的落地可能性,又能推动技术进步,是比较务实的选择。
当然,如果资金和信心足够,一上来挑战最难的也可以,但我们觉得这更适合大厂,对一家创业公司而言不够务实。
选择汽车场景首先是因为我们确实有深厚的汽车行业背景,但这只是其中一个方面。在深入布局汽车场景之前,我不仅调研了汽车制造,还花了大量精力考察了3C制造、芯片制造、零部件制造这些工业场景,最后判断汽车制造是更好的选择。
虎嗅:芯片制造和零部件制造的场景为什么不适合具身智能切入?
张涛:芯片与零部件制造的特点是对象复杂度相对较低,因此行业已大量采用专用自动化设备,覆盖了80%甚至90%的制造流程。既然绝大部分工序已通过自动化解决,具身智能若重复介入则毫无意义;而剩余10%-20%的“边角任务”虽然有价值,但技术实现难度极高。
以芯片厂为例,通常是一人看管多台设备,工人的职责包括辅助上下料、质量抽检及设备故障处理等。若此时投入机器人,或许能分担一半以上的简单工作,但对于设备故障排查这类需要灵活决策与精细操作的核心任务,机器人暂时无法胜任。


