当数据见顶,AI的下一次跃迁靠什么?智源社区

12/19/2025

从早期提出影响广泛的CelebA、DeepFashion等数据集,到在长尾学习、提示学习、三维视觉等领域确立起新的技术范式,再到如今致力于推动动态世界模型与多模态深度融合——刘子纬的研究始终贯穿着一条清晰的脉络:以问题本质为起点,以范式创新为驱动,在学术与工业的交汇处拓展人工智能的边界。

作为PAMI Mark Everingham奖得主、MIT TR 亚洲区35岁以下创新者以及新加坡总统青年科学家奖获得者,刘子纬不仅以一系列奠基性的研究在学术界留下深刻印记,同时也通过Google Clips、Microsoft Pix等产品将前沿技术带入真实世界。

在本次专访中,他将系统阐述对世界模型三条技术路径的判断、对多模态融合“频谱空间”的假说,以及团队在Neo架构中探寻“第二条增长曲线”的探索。在他看来,真正的智能不仅要理解世界的静态结构,更要捕捉其内在的动态性、交互性与物理一致性。这也是下一代AI系统必须跨越的根本挑战。

关于世界模型的三大技术路径:当前世界模型主要有三条路线:基于2D视频的路线,效果快,但缺乏物理一致性;基于3D/4D重建的路线,物理真实,但数据稀缺;以及隐空间心智模型路线,潜力大,但处于早期。前两条路径相对领先,但分别面临架构突破与数据扩展的核心瓶颈。

关于Neo与“第二条增长曲线”:其团队的最新工作“Neo”初步验证表明该架构具有极高的数据效率——仅用十分之一的数据量,就能达到当前许多桥接式多模态模型或世界模型的效果。他认为,当第一条依赖数据规模的增长曲线接近饱和时,第二条增长曲线将来自更丰富的模态、更早期的融合以及更深层的交互设计。

关于AI生成电影的艺术核心:要实现具有艺术感的AI生成,关键在于多奖励函数融合。捕捉电影中运镜、情绪等“长尾”细节是第一步,而生成与编排则需要融合代表不同审美品味与民族情感的多种奖励函数,这是下一代AI艺术生成的前沿方向。

关于多模态融合的未来突破:语言(低频语义)、视觉细节(高频纹理)、动作姿态(中频)等不同性质的信息,不应被强行压缩到同一语义空间,而应在一个共享的频谱空间中共存与协调。其团队的最新工作“The Prism Hypothesis”为多模态融合提供了全新的理论视角和可能路径。

Scroll for more