谁来啃下全球汽车制造业“最后15%难题”？苗正卿

在上海或深圳的任何一家现代化新能源汽车超级工厂里，都能看到这样一种充满讽刺意味的“技术断层”景象。

在冲压、焊接和涂装车间，成百上千台巨大的工业机械臂，以微米级的精度在火花飞溅中翩翩起舞，将自动化率推向了近乎完美的99%。然而，当你进入总装车间，画风突变——这里依然是人类的主战场。数以百计的工人像工蜂一样围着流水线，在狭窄的车厢内弯腰、下蹲，进行着插接线束、拧紧螺丝、安装内饰等繁琐操作。

这就是困扰全球汽车制造业的“最后15%难题”。在这里，自动化率断崖式下跌，从99%骤降至不足15%。对于传统的工业机器人来说，一根柔软线束的随机晃动、一个螺丝孔位的微小偏差，都是无法逾越的认知天堑。

这是一个被视为“灯下黑”的工业痛点，如今成为了光象科技战略推演的起点，这正是光象科技要解决的问题。

2024年夏天，中国风投界正沉浸在人形机器人的巨大泡沫中，许多创业者都在向投资人兜售“通用大脑”的故事。

创始人兼CEO张涛和他的联合创始人李升波坐在投资人的对面，在叙述和推演中，他们亲手推翻了那套通用具身大脑或平台的叙事初稿。“我们判断，人形机器人的真正落地，可能还要十年。”

这种推演，是张涛从自动驾驶行业十年沉浮中提炼出的血泪教训。过去十年自动驾驶的发展道路，不乏先驱折戟沉沙的故事，也诞生了特斯拉这样的破局者。

当年，自动驾驶概念方兴未艾，Waymo等公司一上来就瞄准了L4、L5级别的完全无人驾驶（Robotaxi），试图一步到位地解决所有长尾问题。然而，为了追求极致的安全与泛化，这些公司陷入了无休止的模块化堆叠与安全冗余设计的泥潭，导致成本高企、落地遥遥无期。

后来者的特斯拉，选择了一条看似升维的路径：从L2级别的辅助驾驶（NOA）切入。NOA距离无人驾驶更远，但它是一个在当时技术能力与用户体验之间找到最佳平衡点的产品。正是通过在L2层面的大规模落地，特斯拉积累了宝贵的数据，反过来推动了技术向L4的演进。

张涛认为，当下的具身智能行业正处于自动驾驶十年前的那个十字路口，试图一步到位，极有可能重蹈Robotaxi的覆辙。光象科技选择了一条“特斯拉式”的渐进路线：避开双足人形机器人的机械复杂性，避开家庭场景的非标混乱，转而切入一个既有足够复杂度、又能实现商业闭环的垂直场景——汽车制造。

张涛有一张具身场景落地的四象限分析框架。

张涛的四象限图

传统的工业机器人停留在“标准环境+简单任务”的左下角，而光象科技的目标是从这里出发，向“标准环境+复杂操作”的右上角进军。

张涛认为，在工厂场景中，真正的痛点在于那些需要手眼配合的柔性作业，比如在狭窄空间内精准地将异形接插件推入接口，这才是“智能化”区别于“自动化”的根本所在。

而承载这一智能化的核心，是一个叫做GOPS的平台，是一个针对具身机器人的模型构建系统，也可以理解为一套机器人的“养成系统”，有了GOPS平台之后，机器人可以快速学会一个新技能，也可以高效的把一个技能直接复制到下一家车厂。

1场景选择的方法论：一张四象限“战略图”

虎嗅：2024年你们开始筹备的时候中国的具身智能特别火，但那个时候你们选择落地工业场景，尤其是先从汽车制造入手，有没有经过一些讨论？为什么没有选择一些更热门的人形机器人赛道？

张涛：我们判断，完全通用的人形具身智能机器人，其真正落地的周期并非市场预期的三五年，而至少需要十年以上。

这一判断源于我们在自动驾驶领域的过往经历。回顾自动驾驶的发展历程，从概念兴起、资本涌入到创业潮爆发，初期焦点都集中在L4、L5级的Robotaxi上。但经过约十年的发展，行业对技术路径产生了分歧：是渐进式地从L1、L2过渡，还是一步到位做L4？市场检验表明，直接从L4切入并非最优解。

那些一上来就主攻L4的公司，为满足安全要求，在模块化策略和兜底方案上投入了巨大资源，这反而阻碍了他们探索真正可泛化的技术路径。而这条路径，恰恰是被特斯拉探索出来的。特斯拉并未直接做L4，而是先推出了NOA（导航辅助驾驶）。

在我们看来，NOA是自动驾驶发展史上极具里程碑意义的产物。因为它在当时的技术能力与用户体验之间，找到了最佳的产品匹配点。自动驾驶所追求的全场景通用与泛化，其技术难度绝非两三年能攻克，确实需要十年甚至十五年的长周期积累。

虎嗅：工厂场景中，上一波非大模型的人工智能已经落地了很多工业机器人，加入大模型之后，会有什么不同？有带来什么根本性的变化吗？

张涛：首先需要厘清一个概念：传统工业机器人属于“自动化”范畴，而我们现在做的具身智能属于“智能化”，两者存在本质区别。

自动化的核心在于“预编程”。它要求将工艺流程拆解并预设动作，机器人仅需机械地重复指令。因此，其核心指标是“重复定位精度”。但这一模式存在两大瓶颈：一是难以执行复杂的动作组合；二是缺乏抗干扰能力，一旦环境或操作对象发生细微变化，预设程序便无法应对。

智能化的核心在于“实时感知与反馈”。它能基于实时观测到的环境与对象状态，动态调整操作。从技术原理上讲，自动化属于“开环控制”，而智能化则是“闭环控制”，这是两者的根本差异。

未来的工厂形态不会是智能化完全取代自动化，而是自动化、智能化与人工长期并存。目前的工厂中，自动化与人工占据主导，智能化占比极低；未来的趋势是自动化比例将维持稳定，智能化将大规模替代目前的人工岗位，仅保留少量必要的人工环节。

虎嗅：团队的大部分成员都有自动驾驶经验，但反而我们没有选择自动驾驶这个场景。

张涛：这个问题很简单，核心在于时机。如果在2024年或2025年再成立一家新的自动驾驶公司，从现实角度看，几乎无法生存。

这主要基于两点原因：第一，自动驾驶的资源与人才聚集期早在十年前。那时入局，才能获取足够的资源支撑至今；而今天，无论是资本市场还是客户，都不会再给新公司这样的机会窗口。

第二，自动驾驶与具身智能存在本质差异。自动驾驶的目标场景非常集中（如道路交通），这种高度集中的属性必然导致市场向头部少数几家公司集中。

相比之下，具身智能则是另一套逻辑：首先，处于早期阶段，机会更多。当前具身智能在技术路线和商业模式上均未收敛，大家都在探索通向未来的通用方案，这意味着市场充满了挖掘空间。

其次，场景多样，难以垄断。我们判断，具身智能未来不会像自动驾驶那样高度集中。因为其应用场景极其多样，且单一场景的成功不只依赖某项单一技术。

具身智能的落地形态不局限于人形机器人，很多场景并不需要人形。更重要的是，要在垂直场景中通过具身智能产品创造价值，竞争要素是多维度的：不仅要有模型智能和本体硬件能力，还需要对场景特性的深度认知、软硬件的精准匹配，乃至商务渠道等非技术能力。

这些综合因素决定了，在众多的垂直场景中，每个领域都有可能诞生一两家站稳脚跟的公司，未来不可能有一家公司能够垄断所有的具身智能场景。

虎嗅：决定做具身之后，又是如何推演，决定从汽车制造的场景切入？

张涛：我当时自己画了一张四象限图，这个图的核心是回归具身智能的本质。具身智能本质上就是“智能体在某种环境下完成某项任务”，基于这个核心，我们把具身智能按两个维度拆分。

我将分析维度拆解为“环境”与“任务”两轴。

第一个维度是环境，我们把环境分为标准环境和非标环境。标准环境就像结构化道路、工厂这类场景；而形态各异的家庭、野外则属于非标环境；第二个维度是任务，分为移动和操作两类不同任务。

画完之后能看到，四象限左下角对应的是当前已经相对成熟的机器人应用，比如工业机器人、扫地机、AGV这些。这类应用的特点是，通常在简单、标准化的环境下，完成移动类任务或非常简单的操作类任务。而我们做具身智能，核心是希望从四象限的左下角往右上角推进，也就是逐步过渡到非标环境，同时攻克复杂的操作类任务，这是我们未来的核心方向。

但具体怎么选场景，我们主要从技术维度判断，核心是两个层面：一方面要寻求技术突破，比如过去做移动类任务，现在要向操作类任务突破；另一方面要考虑短期内落地的可能性，不能让技术面临的挑战过于复杂。

举个例子，环境是非标的，任务又非常复杂，最典型就是家务场景，家务场景的落地必然需要较长周期。

我们认为更好的选择是一个维度是——要么在标准化场景下做复杂操作，要么在非标环境下做简单移动。

前者最典型的就是在工厂里做柔性作业，比如装配、上料这些；后者比如野外无人机救援、扫图、搜索等。这两个方向既能保证较好的落地可能性，又能推动技术进步，是比较务实的选择。

当然，如果资金和信心足够，一上来挑战最难的也可以，但我们觉得这更适合大厂，对一家创业公司而言不够务实。

选择汽车场景首先是因为我们确实有深厚的汽车行业背景，但这只是其中一个方面。在深入布局汽车场景之前，我不仅调研了汽车制造，还花了大量精力考察了3C制造、芯片制造、零部件制造这些工业场景，最后判断汽车制造是更好的选择。

虎嗅：芯片制造和零部件制造的场景为什么不适合具身智能切入？

张涛：芯片与零部件制造的特点是对象复杂度相对较低，因此行业已大量采用专用自动化设备，覆盖了80%甚至90%的制造流程。既然绝大部分工序已通过自动化解决，具身智能若重复介入则毫无意义；而剩余10%-20%的“边角任务”虽然有价值，但技术实现难度极高。

以芯片厂为例，通常是一人看管多台设备，工人的职责包括辅助上下料、质量抽检及设备故障处理等。若此时投入机器人，或许能分担一半以上的简单工作，但对于设备故障排查这类需要灵活决策与精细操作的核心任务，机器人暂时无法胜任。