AI进化的“燃料”从哪来？中国科学报

当人工智能以惊人的速度重塑世界，你是否想过，支撑它不断进化的“燃料”从何而来？这个答案就藏在“数据工厂”的新兴业态里。它不像传统工厂那样生产钢铁或汽车，而是专门“生产”高质量的数据集，为AI大模型提供源源不断的“粮食”。

国内部分企业率先试水“数据工厂”

在天津，有一座工厂格外特别。这里没有轰鸣的机器，取而代之的是一排排整齐的小格子间。每天，大约有50万条高质量数据从这里“下线”，这里是一家具身智能超级数据工厂。

这家工厂创始人许晋诚介绍，他们在整个手上搭载了接近4000个触觉传感器，也创造出了世界最小的角度编码器，手指弯曲的时候，对它的角度幅度去实时检测。

借助能实时记录触觉、力觉的特质手套和数十组摄像头，这里生产的每一条数据都包含了视觉、触觉、音频、轨迹等多维信息。许晋诚说，这样的数据能让机器人在训练中不仅“看见”动作，还能“感受”细节。

“数据工厂”是什么？

然而，这仅仅是数据价值释放的冰山一角。当前，整个AI行业正面临一个巨大的瓶颈——高质量数据严重短缺。一个名为“数据工厂”的新兴事物，正试图成为这个瓶颈的破局者。它不像传统工厂那样生产汽车或手机，而是专门“生产”和“加工”数据，就是将散乱、原始的庞大数据资源，转化为人工智能可以直接吸收、高效利用的“高质量数据集”。

北京交通大学信息管理理论与技术国际研究中心教授张向宏介绍，我们在农业社会效率很低，是因为没有基础设施。工业社会效率提高的一个很重要的突破点就是有了基础设施，我们有自来水、燃气的供应。

如今进入数智社会，数据成为核心生产要素，同样需要类似“水厂”“电厂”这样的基础设施来规模化供给，这就是“数据工厂”。

张向宏表示，现在这些大模型，其实他们现在都遇到了这个问题了，原因就是数据就是那些公域数据，私域数据确实开发不出来，数据瓶颈非常的突出。

这个瓶颈导致了一个怪圈：一边是手握海量数据的企业“有数不采、采而不存、存而不加工”；另一边是渴求数据的大模型公司，不得不重复“自己打井自己喝”，从采集、清洗到标注全部自己来，成本高昂且效率低下。数据工厂，正是破局的关键。

“数据工厂”建设路径如何走？

我国的数据工厂建设之路该如何走？张向宏指出，数据工厂本身就有不同的形态，主要分为集中式、半集中式和分布式三种：

集中式是统一采集、统一汇聚、统一加工。目前来看做数据工厂的，90%以上采取都是集中式的。

半集中式是通用的技术根据不同的应用它搭建不同的平台。