张杰背后的马是Seedance做的量子位

昨天春晚张杰献唱的《驭风歌》大家都听了吧？气势是相当磅礴了。

但你知道吗？其实这首歌的表演，背后还有一个AI彩蛋：

没错，就是背景视频里那幅流动的巨型水墨画卷中，那一群气势磅礴、奔腾而来的骏马——

完全是用豆包Seedance 2.0生成的！

要知道，让水墨风格的马在舞台背景的画中灵动起来，这对模型的国风美学理解和泛化能力是巨大的挑战，很多国外模型在处理“中国水墨风”时集体翻车……

唯独Seedance 2.0，不仅读懂了国风，还抗住了春晚舞台超级严格的审核考验。

之所以如此，是因为Seedance 2.0着实是能打：

物理特性遵循：马匹奔跑遵循生物力学与物理逻辑，关节运动流畅自然，兼具力量韵律与水墨神韵。

超强指令遵循：语义理解增强，可精准执行动作、表情、运镜及动态副词指令，显著提升视频续写的可控性。

多模态素材参考：支持图、文、视频等多素材参考，融入传统文化语料，深度理解并还原水墨艺术逻辑。

除此之外，豆包还联动了Seedream模型，先由它生成神韵十足的静态底图，再由Seedance 2.0让它动起来。

但如果细细观察各个节目，你会发现：

今年的春晚，豆包含量巨高。

Seedance 2.0不仅用在了张杰的节目

在歌舞创意秀《贺花神》中，舞台设计玩了一个大胆的创意：

特邀了来自舞蹈、戏曲、影视等不同领域的十几位明星同台。导演组希望为每一位“花神”代表的景别，定制一人一景的中式视觉奇观。

这就要求AI具备细节的微观控制能力，比如植物缓慢绽放，纹理、层次、光影的细微变化，而Seedance 2.0，再次做到了。

这也再次展现了Seedance 2.0精细控制能力，能够精准遵循指令，把控复杂的视觉变化，在高审美要求下保持一致性。

是从“能生成”到“能控制”的一次进化了。

除此之外，在王安宇、黄子弘凡、范丞丞和胡先煦表演的《快乐小马》中，几个卡通吉祥物小马在台上跳着可爱的舞蹈，那动作丝滑得就像真人捕捉的一样。

它背后用到的则是Seedance 2.0的视频动作迁移能力。

这个技术的难点在于拓扑结构的不同，毕竟真人的身体结构和卡通小马的结构不一，传统的做法，是动画师要给卡通模型绑骨骼、K帧，工作量相当的巨大。

但在Seedance 2.0加持下，实现了一键直出。你给它一段真人跳舞视频，再给一张卡通小马的图，模型就能智能理解动作背后的运动逻辑，把它完美适配到卡通形象上。

最关键的是原图保持能力，卡通小马在剧烈跳舞时，毛发、颜色、五官比例竟然纹丝不动，没有出现AI视频常见的闪烁或崩坏。

不仅如此，为了满足央视春晚8K高清、50FPS高帧的要求，豆包还搬来了火山引擎视频云团队。

火山引擎拿出了一套MIPP多维度智能画质增强框架，上演了一场智能精修：

规格上：利用超分算法，把720P硬生生拔高到8K；利用插帧技术，把24帧补到50帧，丝滑度瞬间翻倍。

画质上：利用视频理解技术，模型知道哪里是人脸、哪里是背景，针对性地进行画质指标决策。配合去噪、锐化等增强原子算法，把AIGC内容常见的微小瑕疵抹平。

简单说，大模型负责造梦，火山引擎负责把梦变得高清。

多个刘浩存，也是火山引擎做的

如果说视频生成是二维层面的魔法，那么在创意节目《梦底》中，火山引擎带来的则是空间维度的震撼。

在这个节目里，刘浩存在舞台上翩翩起舞，而她的身后竟然出现了多个和她一模一样的分身，而且每个分身都在不同的位置做着不同的舞蹈动作，构成了如梦似幻的群舞画面。

注意，这可不是大屏幕上放个录像那么简单。

当现场的摄像机推拉摇移时，你会发现那似乎6个分身的透视关系是完全正确的，就像6个真人在那里一样。甚至当舞台的一束追光打过去，虚拟人的身上竟然有了真实的光影变化，连地上的影子都和现场灯光实时互动！

这背后是火山引擎的空间视频技术——4D高斯泼溅（4DGS）。

首先是采集与重建。在节目筹备期，70台工业级相机阵列对着演员一顿狂拍，通过4DGS算法，把演员重建成了4D数字资产。

这里引入豆包大模型解决了两个核心瓶颈：

渲染性能：6个高精度数字人同台，显卡要爆炸怎么办？技术团队利用字节Seed 3D模型预制了“影子几何”，简化了计算量，让渲染效率大幅提升。

近景细节：为了防止近景穿帮，引入了字节Seed的DA3（Depth Anything v3）模型。这个模型能从单图中推断出极高精度的深度信息，为光影计算提供了完美的“法线先验”，皮肤质感逼真得吓人。

其次，火山引擎打通了舞台灯光的DMX控制协议。现场灯光师推了一个推杆，真实的灯亮了，这个信号同时也毫秒级地传给了渲染引擎，虚拟灯光也跟着亮。

所以，你在电视上看到的，是虚拟的刘浩存“活”在真实的舞台光场里。这种虚实难辨的沉浸感，才是元宇宙该有的样子。

春晚的机器人身上，处处是豆包

昨天春晚舞台上，宇树机器人表演的《武BOT》也是备受关注，打起拳来虎虎生风，动作整齐划一，甚至还能和演员进行复杂的互动。

以前的机器人表演，更多是写好的程序控制。但今年《武BOT》里的机器人，是真的“长脑子”了。它们能看懂舞台障碍，能听懂人话，还能带有感情地说话。

不仅如此，昨天春晚还有像蔡明节目用到的松延动力机器人，还包括魔法原子机器人等亮相春晚的机器人，都不同程度的用上了豆包大模型

这背后，是豆包大模型全家桶在给机器人赋能：

眼（VLM）：靠豆包视觉理解模型，机器人能通过摄像头实时识别舞台环境，哪里有人、哪里有道具，避障决策那是相当丝滑。

脑（LLM）：豆包大语言模型为机器人提供了核心的语义理解能力。它不再是执行死板的代码，而是理解了“请走到舞台中央”、“开始起势”这种自然语言指令。

嘴（TTS 2.0）：这是最绝的。豆包语音合成模型 2.0，彻底告别了“AI棒读”。

这个TTS 2.0具备深度语义理解和上下文理解能力。也就是说，它知道这句话是在春晚上说的，要喜庆、要激动。它能根据多轮对话的语境，精准控制语速、停顿和情感。

春晚首次实现AI互动

说完台上，再看台下。

今年春晚，大家拿起手机打开豆包APP，生成的那些新春头像、定制祝福语，其实是春晚历史上首次由大模型驱动的AI互动。

这和以前的“摇一摇”抢红包有本质区别。

以前的互动，是事务型（I/O密集型），就像自动售货机，你点一下，系统给你发个红包，逻辑是预设好的。

现在的互动，是计算密集型，是一个“感知-规划-行动”的Agent过程。你发一张照片，豆包要理解意图、规划画图路径、调用生成模型、进行安全审核……

算力消耗的差距，也是巨大的。

对于单个请求来说，生成一张图的算力消耗（Tops）是发一个红包的无数倍。当春晚口播响起，亿万流量瞬间涌入，这对后台的挑战简直是毁灭级的。

火山引擎方舟平台在这里立了大功。

为了顶住这波洪峰，方舟平台拿出了一套教科书级的解决方案：

调度层：把机房连成“联邦”。通过跨机房、跨区域的弹性伸缩，方舟把物理隔离的数十个机房组成集群联邦。哪里有空闲算力，流量就往哪里去。

推理层：压榨硬件极限。从算子层面的手写优化（Attention、GEMM等），到系统层面的Prefill/Decode分离，方舟把每一张显卡的性能都榨干了。