采访宇树机器人：挺有人味儿差评

跑酷、跳马、后空翻、双截棍、醉拳。。。如果只看这几个关键词，你八成以为这是哪家武术学校的招生简章。

但这回，差评君说的是春晚节目《武 BOT 》。

几十个机器人依次排开，动作连贯、节奏紧凑，上台就是一套零帧起手的丝滑连招。

弹幕一开，惊起 6 声一片。

微博这边更是直接炸锅，评论区盖了几百层楼，大伙儿纷纷表示：震惊，再看亿遍。

连见多识广的编辑部，都忍不住倒吸一口凉气。

说实话，对比去年的原地站桩，今年春晚的宇树机器人连翻带打、招招到位，不说和人一模一样，这简直是在超越人类的边缘反复试探。。。

那么问题来了，机器人到底是怎么做出这么炫酷的动作的？机器人，是怎么做到这么有人味儿的？

这回，差评君提前潜入春晚排练间，采访到了这次登台的宇树 G1 机器人 —— 笨笨，听它给各位差友讲讲幕后的故事。

刚溜进屋，差评君一眼锁定全场目光的焦点。笨笨上来就是狠活儿，原地空翻 high 到不行。

紧跟着又是一段关节丝滑，身体摇摆起伏控制恰到好处的螳螂拳：

最后一套武术连招收尾，铁甲钢拳一身蛮力，这压迫感各位差友感受一下：

但走下舞台的笨笨，也只是普通 “ 人 ” 罢了。

要在镜头聚焦下做到万无一失，背后还有更多无人知晓的艰辛。

在排练间脱下外套，它的身上满是练习留下的伤痕。好在越努力越幸运，这句话对硅基打工人同样适用。

想必大伙儿看得出，今年春晚的表演难度极高。如果说去年机器人还只会站桩模仿人类，今年的机器人，已经在超越人类的路上了。

即使动作从去年的站桩输出，变成了今年的高难特技，宇树科技 CMO 王其鑫在采访中表示，笨笨和兄弟们在春晚大规模彩排里，次次成功零翻车。

而在完美演出的背后，是一整套技术预案在疯狂兜底。

小到不起眼的舞鞋，都是实打实的工程装备。为了不把春晚的玻璃舞台踩出心理阴影，这双鞋既要能吸收冲击，又要保证落地稳定，胶水材料都要精挑细选。

大到机器人的控制算法，也做了一波大优化。

以前大家总觉得机器人不太聪明，但实际上，今年春晚台上每个动作的成功，都是它们自己听音乐、看舞台、理解环境，最后实时驯服四肢的结果。

也就是说，腿要抬多高，下一步队形往哪走，都要机器人自己来观察调整。而这种感知、决策、行动的闭环，一直是具身智能的长期难点之一。

说实话，刚开始差评君也以为这就是全部了。直到我们把机器人演员笨笨抓来唠两句，才发现春晚台前这些 “ 武将 ” 背后居然还有没见过的文戏，而且开口就是高情商。。。

这背后，是宇树和火山引擎一起调教的语音对话能力，在智力、眼力和嘴皮子上都下了不少功夫。

比如我们问起它和成龙谁更厉害，笨笨立刻谦虚起来了：

这回答和笑声一搭配，求生欲拉满：

不知道各位差友是啥感觉，反正差评君觉得，会说话的笨笨不再像个冰冷的跳舞机，多少带点感情。

我们能明显感觉出，笨笨不止声线和真人差不多，对不同的内容，它的情绪表达是不一样的。好事语调高，语速快；坏事语调低，心情低落。

深入问了火山引擎的技术团队，笨笨说话的背后，全靠豆包语音合成模型在发力。

机器人每一句输出前，模型都要先理解上下文的语义和情绪，再决定表达方式。语速是急是缓，语调是高是低，甚至停顿的位置、情感参数都在动态生成。这也是为什么它听起来没有棒读感，更像人一样在说话。

声线也不是随便生成，而是专门按宇树 G1 的气质捏出来的，主打一个青春男大。

不过，光有感情还不够，真正让笨笨开窍的，是豆包大语言模型。

不只语音识别精准，你让它整段春节祝词，十秒钟不到，吉祥话直接批发式输出：

代表机器人群体的发言也是滴水不漏：

笨笨还向差评君透露，豆包大模型的视觉理解能力，甚至能让机器人看懂世界。

之前邪恶豆包的穿搭指导不知道各位差友刷到没，蓝高跟配红丝袜，直男推荐荷叶边，短裙当披肩。。。开了眼的豆包没干啥好事，纯纯报复人类。

好在笨笨挺老实，让它评价一下过年走亲戚的穿搭，不是瞎夸，它真能看懂你身上穿了啥，再把情绪价值直接给足：

但大家对机器人和大模型的结合，显然不止这些期待。差评君采访了火山引擎的幕后团队，“ 一方面是想让机器人更有情绪，能聊天陪伴；但更重要的，是验证一套更通用的能力 —— 让机器听懂人话，再把理解变成行动。”