印度工人“边打工边教机器人”抢自己饭碗酷玩实验室

最近，一段来自印度南部服装厂的视频在国内外社交平台上疯传。

画面里，流水线上的工人正在低头缝纫，和普通的工厂场景没什么两样，除了一件事——每个人头上都戴着一个摄像头环。

评论区吵成了两派。一派说这是老板在监视员工，抓人摸鱼的新花样；另一派说不对，这是在给机器人喂数据。

两派说法都很地狱，但后者，才是整件事真正让人坐立不安的地方。

01.打工人正在被录像存档

那个戴着摄像头环的工人，正在做的事情有个技术名词，叫采集"Ego 数据"，全称是“第一人称视角数据”。

逻辑很简单：把摄像头架在头顶，记录下工人干活时的第一视角，手怎么抬、怎么落、怎么捏住一根线穿过针眼。每一帧画面，都会变成喂给 AI 模型的训练素材。

工人的双手，成了机器人的老师。

亲手教会机器人取代自己。普通人听到这种事会感受到一种生理性的冒犯，但业内对此很兴奋，因为这种方式，实在太！便！宜！了！

过去，机器人行业训练模型的主流方式叫"真机遥操"，听上去很科幻，操作起来其实很笨重：一个工程师戴上 VR 头显，眼前的画面同步到机器人的摄像头视角，然后他要像遥控玩具一样，手把手地控制机器人的每一个动作——拿起这个杯子，放到那个托盘上，再拿起那块布，折叠，放好。整个过程一帧一帧地被录下来，这就是训练数据。

这套方案最大的问题是贵，而且慢。

一台用于数采的机器人本体，动辄几十万。还得配专职的数采员，培训上岗，全程盯着。采集一条高质量的操作数据，可能要耗掉工程师大半天时间，工程师的工资又很高。

Ego 数据方案把这套流程从根上改了：工人戴上头顶的摄像头，绑上腕部的追踪器（有些方案还会配一副特制手套）。换装完毕，正常上工就行。

这三层设备各有分工。头戴摄像头负责记录第一视角的完整画面——操作台的布局、物体的位置、手和目标物之间的空间关系；腕部摄像头对准手部，专门捕捉手在近距离操作时的细节；穿戴手套则完全不依赖视觉，直接用传感器测量每根手指的关节角度。

三层叠加，就还原了一个完整的操作动作——人的眼睛看到了什么、手在哪里、手指该怎么动。通过这些样本，机器人可以学习从视觉到动作的映射关系，即看到某个画面时，应该做些什么。

这里面有一个小 bug，机器人学谁，就像谁。

如果被采集的工人是个熟练工，动作干脆、力道精准，那机器人学出来的就是一套行云流水的操作。可万一这位工人习惯摸鱼，比如拧螺丝前先挠挠头，放零件时要抖两下手腕，甚至一边干活一边东张西望……那机器人也会把这些多余的动作当成标准流程学进去。

所以视频里，整个车间只有一排工人头上戴了摄像头，或许，他们是整个车间选出来的最好的工人。

还有更简单粗暴的方式，是只筛选数据，不筛选人。美国有一家叫做 Generalist AI 的公司，他们用众包的方式，把低成本穿戴设备分发给世界各地的普通人。不管是你在家折衣服、在厨房洗碗，还是在修车铺拧螺丝，只要戴上设备，人人皆可边干活边采数据。

业内对此充满了怀疑，普通人在家里采出来的数据，质量根本没法和专业数采中心比，怎么能训练出高成功率的模型？

答案是大力出奇迹。海量的原始数据进来，系统自动筛选，低质量的直接丢掉，只留下那些三层数据对得上的高置信度样本。数据量足够大，过滤完还剩得够多，就能用。

所以越来越多的数采方案开始强调"轻量化"，设备越做越小，目标就是让采集完全融入日常工作，对工人的动作干扰降到零。业内已经有团队在研究把摄像头集成进普通眼镜，手套也在往更轻薄的方向迭代，最终形态可能是一副眼镜加一块手表，穿上就采，看不出来和普通上班有什么区别。

这张采集数据网正在全球快速铺开。硅谷的实验室、东南亚的代工厂、北美的物流分拣中心、欧洲的家庭厨房里，成千上万个传感器正如同毛细血管般伸向人类的日常。这种生意已经催生出了专门的“数据供应商”。比如许多公司正在推广的通用移动接口（UMI）方案，它彻底切断了数据与特定机器人硬件的绑定。有测算显示，这种脱离了昂贵真机、只靠穿戴设备的采集方式，单条数据的生产成本仅为传统方案的五分之一，效率却翻了五倍。

印度工厂那个画面，只是这张大网上，一个最先被普通人看见的节点。

而这种近乎掠夺式的大规模采集，背后折射出的是一个令 AI 巨头们焦虑的真相：机器人没“米”下锅了！

02.机器人也有数据荒

在数字世界里，AI 是衔着金汤勺出生的。

大语言模型的训练素材来自整个互联网。几十年来人类随手丢在网上的文字、代码、新闻、甚至论坛里的废话帖子，对 GPT 们来说都是取之不尽的养分。只要算力足够，AI 能在几天内读完人类几千年的文明。