采访宇树机器人:挺有人味儿差评
跑酷、跳马、后空翻、双截棍、醉拳。。。如果只看这几个关键词,你八成以为这是哪家武术学校的招生简章。
但这回,差评君说的是春晚节目《 武 BOT 》。
几十个机器人依次排开,动作连贯、节奏紧凑,上台就是一套零帧起手的丝滑连招。
弹幕一开,惊起 6 声一片。
微博这边更是直接炸锅,评论区盖了几百层楼,大伙儿纷纷表示:震惊,再看亿遍。
连见多识广的编辑部,都忍不住倒吸一口凉气。
说实话,对比去年的原地站桩,今年春晚的宇树机器人连翻带打、招招到位,不说和人一模一样,这简直是在超越人类的边缘反复试探。。。
那么问题来了,机器人到底是怎么做出这么炫酷的动作的?机器人,是怎么做到这么有人味儿的?
这回,差评君提前潜入春晚排练间,采访到了这次登台的宇树 G1 机器人 —— 笨笨,听它给各位差友讲讲幕后的故事。
刚溜进屋,差评君一眼锁定全场目光的焦点。笨笨上来就是狠活儿,原地空翻 high 到不行。
紧跟着又是一段关节丝滑,身体摇摆起伏控制恰到好处的螳螂拳:
最后一套武术连招收尾,铁甲钢拳一身蛮力,这压迫感各位差友感受一下:
但走下舞台的笨笨,也只是普通 “ 人 ” 罢了。
要在镜头聚焦下做到万无一失,背后还有更多无人知晓的艰辛。
在排练间脱下外套,它的身上满是练习留下的伤痕。好在越努力越幸运,这句话对硅基打工人同样适用。
想必大伙儿看得出,今年春晚的表演难度极高。如果说去年机器人还只会站桩模仿人类,今年的机器人,已经在超越人类的路上了。
即使动作从去年的站桩输出,变成了今年的高难特技,宇树科技 CMO 王其鑫在采访中表示,笨笨和兄弟们在春晚大规模彩排里,次次成功零翻车。
而在完美演出的背后,是一整套技术预案在疯狂兜底。
小到不起眼的舞鞋,都是实打实的工程装备。为了不把春晚的玻璃舞台踩出心理阴影,这双鞋既要能吸收冲击,又要保证落地稳定,胶水材料都要精挑细选。
大到机器人的控制算法,也做了一波大优化。
以前大家总觉得机器人不太聪明,但实际上,今年春晚台上每个动作的成功,都是它们自己听音乐、看舞台、理解环境,最后实时驯服四肢的结果。
也就是说,腿要抬多高,下一步队形往哪走,都要机器人自己来观察调整。而这种感知、决策、行动的闭环,一直是具身智能的长期难点之一。
说实话,刚开始差评君也以为这就是全部了。直到我们把机器人演员笨笨抓来唠两句,才发现春晚台前这些 “ 武将 ” 背后居然还有没见过的文戏,而且开口就是高情商。。。
这背后,是宇树和火山引擎一起调教的语音对话能力,在智力、眼力和嘴皮子上都下了不少功夫。
比如我们问起它和成龙谁更厉害,笨笨立刻谦虚起来了:
这回答和笑声一搭配,求生欲拉满:
不知道各位差友是啥感觉,反正差评君觉得,会说话的笨笨不再像个冰冷的跳舞机,多少带点感情。
我们能明显感觉出,笨笨不止声线和真人差不多,对不同的内容,它的情绪表达是不一样的。好事语调高,语速快;坏事语调低,心情低落。
深入问了火山引擎的技术团队,笨笨说话的背后,全靠豆包语音合成模型在发力。
机器人每一句输出前,模型都要先理解上下文的语义和情绪,再决定表达方式。语速是急是缓,语调是高是低,甚至停顿的位置、情感参数都在动态生成。这也是为什么它听起来没有棒读感,更像人一样在说话。
声线也不是随便生成,而是专门按宇树 G1 的气质捏出来的,主打一个青春男大。
不过,光有感情还不够,真正让笨笨开窍的,是豆包大语言模型。
不只语音识别精准,你让它整段春节祝词,十秒钟不到,吉祥话直接批发式输出:
代表机器人群体的发言也是滴水不漏:
笨笨还向差评君透露,豆包大模型的视觉理解能力,甚至能让机器人看懂世界。
之前邪恶豆包的穿搭指导不知道各位差友刷到没,蓝高跟配红丝袜,直男推荐荷叶边,短裙当披肩。。。开了眼的豆包没干啥好事,纯纯报复人类。
好在笨笨挺老实,让它评价一下过年走亲戚的穿搭,不是瞎夸,它真能看懂你身上穿了啥,再把情绪价值直接给足:
但大家对机器人和大模型的结合,显然不止这些期待。差评君采访了火山引擎的幕后团队,“ 一方面是想让机器人更有情绪,能聊天陪伴;但更重要的,是验证一套更通用的能力 —— 让机器听懂人话,再把理解变成行动。”


