字节Lance开源即冲上抱抱脸第一量子位

多模态模型，终于不只是“会看”或者“会画”了。

字节跳动Intelligent Creation Lab这次开源的Lance，直接把图像和视频的理解、生成、编辑塞进了同一个原生统一模型里。

它能看图、看视频，能文生图、文生视频，还能按自然语言指令改图、改视频。

更反差的是，Lance不是动辄几十B、上百B参数的大块头，而是一个激活参数只有3B的原生统一多模态模型；

在最大128-GPU训练预算下，就把视频生成、视频理解、图像生成、图像编辑四类任务一起跑通了。

成绩也已经摆上桌：

VBench 85.11，MVBench 62.0，GenEval 0.90，GEdit-Bench 7.30。

换句话说，它不是只在某一个单项上“刷存在感”，而是把图像和视频的“看、画、改”放到同一张考卷上一起考。

统一多模态这条路，开始往“小而全”卷了。

统一多模态，卡在哪？

统一多模态这件事，听起来很自然：

人可以一边看图、一边看视频、一边描述、一边修改，模型为什么不行？

但真做起来，问题就来了。

只做理解，生成能力缺位；只做生成，问答和推理又不够；把多个模块拼起来，系统复杂、训练成本高，还很难形成真正的跨任务迁移。

所以说，现在的模型做起来，要么模型太大，训练和部署成本高；要么能力覆盖不全，尤其视频这块，经常只做生成或只做理解。

Lance要解决的，正是这个长期痛点。

它把X2T、X2I、X2V三类任务统一起来：图像/视频到文本理解，文本到图像/视频生成，以及图像/视频到图像/视频编辑。

这样一来，模型不是只会“看”或者只会“画”，而是能在同一套上下文里处理不同模态和不同任务。

更有意思的是，团队观察到：任务覆盖越完整的统一模型，越容易出现emergent generalization，也就是跨任务的涌现泛化。

也就是说，多任务不是简单拼盘。任务之间可能真的会互相“喂经验”。

开源之后，Lance也很快冲上Hugging Face Trending第一。

这类榜单本身不是论文指标，但能说明一件事：社区对轻量级原生统一多模态模型的需求很直接。

毕竟，3B激活参数、同时覆盖图像/视频理解生成编辑，还开放模型权重和代码，这几个关键词放在一起，对研究者和开发者都相当有吸引力。

△Lance位列Hugging Face Trending第一

Lance覆盖的不是单点能力，而是一整组图像/视频任务：能看图、能看视频，能文生图、文生视频，也能按自然语言直接改图、改视频。

先上视频生成。

给它复杂文本指令，Lance 能生成具备自然运动、稳定时序一致性和清晰视觉细节的视频内容。

更有看头的是视频编辑。

它不是改一张关键帧糊弄过去，而是连续三轮改视频：

先把短直发改成法式卷发，再加红白花朵发箍，最后把背景换成湖边童话城堡。

难点在于，人物还得是同一个人，动作不能乱，前后帧也不能闪成PPT。

△source video