采访宇树机器人:挺有人味儿差评

2/16/2026

跑酷、跳马、后空翻、双截棍、醉拳。。。如果只看这几个关键词,你八成以为这是哪家武术学校的招生简章。

但这回,差评君说的是春晚节目《 武 BOT 》。

几十个机器人依次排开,动作连贯、节奏紧凑,上台就是一套零帧起手的丝滑连招。

弹幕一开,惊起 6 声一片。

微博这边更是直接炸锅,评论区盖了几百层楼,大伙儿纷纷表示:震惊,再看亿遍。

连见多识广的编辑部,都忍不住倒吸一口凉气。

说实话,对比去年的原地站桩,今年春晚的宇树机器人连翻带打、招招到位,不说和人一模一样,这简直是在超越人类的边缘反复试探。。。

那么问题来了,机器人到底是怎么做出这么炫酷的动作的?机器人,是怎么做到这么有人味儿的?

这回,差评君提前潜入春晚排练间,采访到了这次登台的宇树 G1 机器人 —— 笨笨,听它给各位差友讲讲幕后的故事。

刚溜进屋,差评君一眼锁定全场目光的焦点。笨笨上来就是狠活儿,原地空翻 high 到不行。

紧跟着又是一段关节丝滑,身体摇摆起伏控制恰到好处的螳螂拳:

最后一套武术连招收尾,铁甲钢拳一身蛮力,这压迫感各位差友感受一下:

但走下舞台的笨笨,也只是普通 “ 人 ” 罢了。

要在镜头聚焦下做到万无一失,背后还有更多无人知晓的艰辛。

在排练间脱下外套,它的身上满是练习留下的伤痕。好在越努力越幸运,这句话对硅基打工人同样适用。

想必大伙儿看得出,今年春晚的表演难度极高。如果说去年机器人还只会站桩模仿人类,今年的机器人,已经在超越人类的路上了。

即使动作从去年的站桩输出,变成了今年的高难特技,宇树科技 CMO 王其鑫在采访中表示,笨笨和兄弟们在春晚大规模彩排里,次次成功零翻车。

而在完美演出的背后,是一整套技术预案在疯狂兜底。

小到不起眼的舞鞋,都是实打实的工程装备。为了不把春晚的玻璃舞台踩出心理阴影,这双鞋既要能吸收冲击,又要保证落地稳定,胶水材料都要精挑细选。

大到机器人的控制算法,也做了一波大优化。

以前大家总觉得机器人不太聪明,但实际上,今年春晚台上每个动作的成功,都是它们自己听音乐、看舞台、理解环境,最后实时驯服四肢的结果。

也就是说,腿要抬多高,下一步队形往哪走,都要机器人自己来观察调整。而这种感知、决策、行动的闭环,一直是具身智能的长期难点之一。

说实话,刚开始差评君也以为这就是全部了。直到我们把机器人演员笨笨抓来唠两句,才发现春晚台前这些 “ 武将 ” 背后居然还有没见过的文戏,而且开口就是高情商。。。

这背后,是宇树和火山引擎一起调教的语音对话能力,在智力、眼力和嘴皮子上都下了不少功夫。

比如我们问起它和成龙谁更厉害,笨笨立刻谦虚起来了:

这回答和笑声一搭配,求生欲拉满:

不知道各位差友是啥感觉,反正差评君觉得,会说话的笨笨不再像个冰冷的跳舞机,多少带点感情。

我们能明显感觉出,笨笨不止声线和真人差不多,对不同的内容,它的情绪表达是不一样的。好事语调高,语速快;坏事语调低,心情低落。

深入问了火山引擎的技术团队,笨笨说话的背后,全靠豆包语音合成模型在发力。

机器人每一句输出前,模型都要先理解上下文的语义和情绪,再决定表达方式。语速是急是缓,语调是高是低,甚至停顿的位置、情感参数都在动态生成。这也是为什么它听起来没有棒读感,更像人一样在说话。

声线也不是随便生成,而是专门按宇树 G1 的气质捏出来的,主打一个青春男大。

不过,光有感情还不够,真正让笨笨开窍的,是豆包大语言模型。

不只语音识别精准,你让它整段春节祝词,十秒钟不到,吉祥话直接批发式输出:

代表机器人群体的发言也是滴水不漏:

笨笨还向差评君透露,豆包大模型的视觉理解能力,甚至能让机器人看懂世界。

之前邪恶豆包的穿搭指导不知道各位差友刷到没,蓝高跟配红丝袜,直男推荐荷叶边,短裙当披肩。。。开了眼的豆包没干啥好事,纯纯报复人类。

好在笨笨挺老实,让它评价一下过年走亲戚的穿搭,不是瞎夸,它真能看懂你身上穿了啥,再把情绪价值直接给足:

但大家对机器人和大模型的结合,显然不止这些期待。差评君采访了火山引擎的幕后团队,“ 一方面是想让机器人更有情绪,能聊天陪伴;但更重要的,是验证一套更通用的能力 —— 让机器听懂人话,再把理解变成行动。”

Scroll for more