149元叫了个保洁,三个人伺候一台机器人爱范儿

5/16/2026

花 149 块钱,能买到什么级别的保洁服务?

答:一个阿姨 + 一个工程师 + 一台重逾百公斤的盘式机器人,上门服务三小时。这个配置放在 58 到家的订单页上,一度让人怀疑是不是系统 Bug,少打了一个零?

托马斯白就是带着“这不可能不是坑”的心态下的单。5 月 10 日上午十点,门铃响了。门外站着三个人和一个机器人,货拉拉司机推着机器人,工程师背着工具包,阿姨系着围裙。

阵仗不小,然后呢?

工程师的主要工作是盯着急停按钮

机器人背后挂着一台 4K 无线投屏设备,经 5G 路由把画面同步到几公里外的远程操作员屏幕上,大部分动作都是远程遥操完成的。

机器人卡机了两次,工程师上前调试重启;剩下的时间他的主要工作是站在机器人后面,盯着那颗红色急停按钮。

机器人过不了门槛,所以只负责客厅。

三个小时里,它拎起倒地的书包、拉上拉链(夹了 3 次才成功)、把三个书包摞成一摞。叠了五六件衣服,每件耗时 5 到 10 分钟,叠完像揉过的报纸。茶几杂物归类丢进垃圾桶,餐桌杂物码成半桌,临走把门口的鞋摆齐。

阿姨则收拾厨房、厕所、卧室。托马斯白说,那位“附赠”的阿姨兢兢业业,这次体验的下限被她拉得很高。

总结来说,机器人负责表演,阿姨负责兜底,工程师负责盯着别出事。

这 149 元的服务,来自自变量机器人与 58 到家今年 3 月在深圳上线的合作项目。

但你可能低估了这台“叠不好衣服的机器人”背后的资本阵容。

这家成立两年多的公司,在过去半年里把阿里、美团、字节跳动、小米四家互联网大厂罕见地拉到了同一张投资名单上,是国内唯一同时拿到这四家投资的具身智能公司。仅 2026 开年的 A++ 轮,就融了 10 亿元。

四家大厂在这个赛道罕见地没有互相等着,而是一起向同一家公司砸钱。

前段时间,自变量发布了全球首个基于“世界统一模型”(World Unified Model,WUM)架构的具身基础模型 WALL-B。35 天后,搭载 WALL-B 的新一代机器人将首批进入真实家庭。

自变量 CEO 王潜判断:“今天在全世界范围内,没有任何一台机器人可以在没有遥控操作的情况下,独立完成大部分日常家务。”

宇树科技创始人王兴兴也持类似看法:机器人在预设场景中成功率趋近 100%,一旦场景变化或出现从未见过的事件,成功率断崖式下跌。他认为机器人做家务还需要 3 到 5 年。

也就是说,全行业的共识是----现在还不行。但所有人还在拼命往前冲。这中间的逻辑,我们从技术架构说起。

自变量 CTO 王昊在发布会上做了一个类比。

M1 之前,CPU、GPU、内存各自独立,数据搬运产生延迟和损耗;苹果用统一内存架构让所有处理单元共享同一块内存,性能因此跃迁。

VLA(视觉-语言-动作)架构就像 M1 之前的电脑:视觉模块、语言模块、动作模块各自为政,数据在模块之间搬来搬去,每搬一次就丢一次信息。视觉学到的丰富信息,传到动作模块时只剩一个模糊的摘要。这是自变量过去一年在家庭部署中实地摸到的天花板。

WUM 则把视觉、语言、动作、触觉、物理预测全部放进同一个网络,从零开始联合训练。这样,机器人看到杯子的同时就在计算怎么抓;感受到重量的瞬间同步调整力度。

与此同时,模型内置了对重力、惯性、摩擦力的“世界观”----桌边有一个半悬空的盘子,即便从未见过,它也能推断会掉,主动推回桌面。

这是零样本泛化的基础,意味着机器人不必为每一个家庭重新训练。

而王昊在发布会上反复强调的另一件事是数据。“实验室里的数据是能用但低价值的『糖水数据』,真实家庭的数据则是难采集但高价值的『牛奶数据』。”

这句话解释了一切:为什么自变量执意在保洁阿姨身边部署一台动作迟缓、远程遥操、还会卡机的机器人。

不是为了让你家变干净。是为了让机器人变聪明。

Scroll for more