张杰背后的马是Seedance做的量子位

2/17/2026

昨天春晚张杰献唱的《驭风歌》大家都听了吧?气势是相当磅礴了。

但你知道吗?其实这首歌的表演,背后还有一个AI彩蛋:

没错,就是背景视频里那幅流动的巨型水墨画卷中,那一群气势磅礴、奔腾而来的骏马——

完全是用豆包Seedance 2.0生成的!

要知道,让水墨风格的马在舞台背景的画中灵动起来,这对模型的国风美学理解和泛化能力是巨大的挑战,很多国外模型在处理“中国水墨风”时集体翻车……

唯独Seedance 2.0,不仅读懂了国风,还抗住了春晚舞台超级严格的审核考验。

之所以如此,是因为Seedance 2.0着实是能打:

物理特性遵循:马匹奔跑遵循生物力学与物理逻辑,关节运动流畅自然,兼具力量韵律与水墨神韵。

超强指令遵循:语义理解增强,可精准执行动作、表情、运镜及动态副词指令,显著提升视频续写的可控性。

多模态素材参考:支持图、文、视频等多素材参考,融入传统文化语料,深度理解并还原水墨艺术逻辑。

除此之外,豆包还联动了Seedream模型,先由它生成神韵十足的静态底图,再由Seedance 2.0让它动起来。

但如果细细观察各个节目,你会发现:

今年的春晚,豆包含量巨高。

Seedance 2.0不仅用在了张杰的节目

在歌舞创意秀《贺花神》中,舞台设计玩了一个大胆的创意:

特邀了来自舞蹈、戏曲、影视等不同领域的十几位明星同台。导演组希望为每一位“花神”代表的景别,定制一人一景的中式视觉奇观。

这就要求AI具备细节的微观控制能力,比如植物缓慢绽放,纹理、层次、光影的细微变化,而Seedance 2.0,再次做到了。

这也再次展现了Seedance 2.0精细控制能力,能够精准遵循指令,把控复杂的视觉变化,在高审美要求下保持一致性。

是从“能生成”到“能控制”的一次进化了。

除此之外,在王安宇、黄子弘凡、范丞丞和胡先煦表演的《快乐小马》中,几个卡通吉祥物小马在台上跳着可爱的舞蹈,那动作丝滑得就像真人捕捉的一样。

它背后用到的则是Seedance 2.0的视频动作迁移能力。

这个技术的难点在于拓扑结构的不同,毕竟真人的身体结构和卡通小马的结构不一,传统的做法,是动画师要给卡通模型绑骨骼、K帧,工作量相当的巨大。

但在Seedance 2.0加持下,实现了一键直出。你给它一段真人跳舞视频,再给一张卡通小马的图,模型就能智能理解动作背后的运动逻辑,把它完美适配到卡通形象上。

最关键的是原图保持能力,卡通小马在剧烈跳舞时,毛发、颜色、五官比例竟然纹丝不动,没有出现AI视频常见的闪烁或崩坏。

不仅如此,为了满足央视春晚8K高清、50FPS高帧的要求,豆包还搬来了火山引擎视频云团队。

火山引擎拿出了一套MIPP多维度智能画质增强框架,上演了一场智能精修:

规格上:利用超分算法,把720P硬生生拔高到8K;利用插帧技术,把24帧补到50帧,丝滑度瞬间翻倍。

画质上:利用视频理解技术,模型知道哪里是人脸、哪里是背景,针对性地进行画质指标决策。配合去噪、锐化等增强原子算法,把AIGC内容常见的微小瑕疵抹平。

简单说,大模型负责造梦,火山引擎负责把梦变得高清。

多个刘浩存,也是火山引擎做的

如果说视频生成是二维层面的魔法,那么在创意节目《梦底》中,火山引擎带来的则是空间维度的震撼。

在这个节目里,刘浩存在舞台上翩翩起舞,而她的身后竟然出现了多个和她一模一样的分身,而且每个分身都在不同的位置做着不同的舞蹈动作,构成了如梦似幻的群舞画面。

注意,这可不是大屏幕上放个录像那么简单。

当现场的摄像机推拉摇移时,你会发现那似乎6个分身的透视关系是完全正确的,就像6个真人在那里一样。甚至当舞台的一束追光打过去,虚拟人的身上竟然有了真实的光影变化,连地上的影子都和现场灯光实时互动!

这背后是火山引擎的空间视频技术——4D高斯泼溅(4DGS)。

首先是采集与重建。在节目筹备期,70台工业级相机阵列对着演员一顿狂拍,通过4DGS算法,把演员重建成了4D数字资产。

这里引入豆包大模型解决了两个核心瓶颈:

渲染性能:6个高精度数字人同台,显卡要爆炸怎么办?技术团队利用字节Seed 3D模型预制了“影子几何”,简化了计算量,让渲染效率大幅提升。

近景细节:为了防止近景穿帮,引入了字节Seed的DA3(Depth Anything v3)模型。这个模型能从单图中推断出极高精度的深度信息,为光影计算提供了完美的“法线先验”,皮肤质感逼真得吓人。

其次,火山引擎打通了舞台灯光的DMX控制协议。现场灯光师推了一个推杆,真实的灯亮了,这个信号同时也毫秒级地传给了渲染引擎,虚拟灯光也跟着亮。

所以,你在电视上看到的,是虚拟的刘浩存“活”在真实的舞台光场里。这种虚实难辨的沉浸感,才是元宇宙该有的样子。

春晚的机器人身上,处处是豆包

昨天春晚舞台上,宇树机器人表演的《武BOT》也是备受关注,打起拳来虎虎生风,动作整齐划一,甚至还能和演员进行复杂的互动。

以前的机器人表演,更多是写好的程序控制。但今年《武BOT》里的机器人,是真的“长脑子”了。它们能看懂舞台障碍,能听懂人话,还能带有感情地说话。

不仅如此,昨天春晚还有像蔡明节目用到的松延动力机器人,还包括魔法原子机器人等亮相春晚的机器人,都不同程度的用上了豆包大模型

这背后,是豆包大模型全家桶在给机器人赋能:

眼(VLM):靠豆包视觉理解模型,机器人能通过摄像头实时识别舞台环境,哪里有人、哪里有道具,避障决策那是相当丝滑。

脑(LLM):豆包大语言模型为机器人提供了核心的语义理解能力。它不再是执行死板的代码,而是理解了“请走到舞台中央”、“开始起势”这种自然语言指令。

嘴(TTS 2.0):这是最绝的。豆包语音合成模型 2.0,彻底告别了“AI棒读”。

这个TTS 2.0具备深度语义理解和上下文理解能力。也就是说,它知道这句话是在春晚上说的,要喜庆、要激动。它能根据多轮对话的语境,精准控制语速、停顿和情感。

春晚首次实现AI互动

说完台上,再看台下。

今年春晚,大家拿起手机打开豆包APP,生成的那些新春头像、定制祝福语,其实是春晚历史上首次由大模型驱动的AI互动。

这和以前的“摇一摇”抢红包有本质区别。

以前的互动,是事务型(I/O密集型),就像自动售货机,你点一下,系统给你发个红包,逻辑是预设好的。

现在的互动,是计算密集型,是一个“感知-规划-行动”的Agent过程。你发一张照片,豆包要理解意图、规划画图路径、调用生成模型、进行安全审核……

算力消耗的差距,也是巨大的。

对于单个请求来说,生成一张图的算力消耗(Tops)是发一个红包的无数倍。当春晚口播响起,亿万流量瞬间涌入,这对后台的挑战简直是毁灭级的。

火山引擎方舟平台在这里立了大功。

为了顶住这波洪峰,方舟平台拿出了一套教科书级的解决方案:

调度层:把机房连成“联邦”。通过跨机房、跨区域的弹性伸缩,方舟把物理隔离的数十个机房组成集群联邦。哪里有空闲算力,流量就往哪里去。

推理层:压榨硬件极限。从算子层面的手写优化(Attention、GEMM等),到系统层面的Prefill/Decode分离,方舟把每一张显卡的性能都榨干了。

Scroll for more