「龙虾」从屏幕里爬出来了新智元

4/16/2026

40克AI眼镜变身Agent之眼,数字分身定制分身。当Agent爬出屏幕走进物理世界,这场关于生产力的降维打击,真的不只是说说而已。

这几个月,硅谷和中文AI圈都在流传一个心照不宣的暗号,「养龙虾」。

一个Agent,7x24小时不睡觉,自主开浏览器、写代码、抓数据、交付成果……

这些「龙虾」一度被视为未来的生产力神话,然而,它们所有的演进路径,都指向同一个终点:

怎么在一块屏幕里,把活干得更猛一点。

所谓的「AI员工」,本质上是一个被钉死在屏幕背后的同事。下一代Agent,究竟该如何突破玻璃的束缚?

4月15日,广交会开幕当天,有人试着把这道坎跨过去。

一副40克的眼镜;一颗装进机器人脑袋里的「超脑」;一个能跨设备接力干活的桌面搭子;再加上底层重新升级的AstronClaw平台,整套「Claw全家桶」一次性砸了下来。

佩戴讯飞AI眼镜的多模交互场景

干这件事的是讯飞。

所有这些硬件、软件、模型、平台的更新,都指向了同一件事——

把Agent从屏幕里拽出来,让AI真正触手可及!

这一次,「龙虾」冲出了屏幕

要做到这一点,第一步,是先给「龙虾」一副能够看见世界的身体。

硬件,才是Agent走出屏幕的第一道门。

讯飞AI眼镜:Agent有了眼睛

讯飞翻译硬件家族里最轻的那一块,是一副眼镜。

讯飞AI眼镜整机,仅40克。

作为全球最轻的双目单色显示多模态眼镜,它比市面主流产品(50克以上)减重约20%。

重量只是入场券。讯飞AI眼镜搭载的GlassClaw,才真正改变了Agent的输入方式。

你看到什么,它就能识别和理解;你听到什么语言,它就实时翻译。

跨语言方面,中英首响快至2秒,AR翻译目光锁定2秒就能自动出译,加上18个离线语种,基本覆盖了广交会这种跨国采购场景的刚需。

更硬的技术活,藏在降噪方案里。讯飞AI眼镜首创了「唇动识别」多模态降噪方案,靠5+1麦克风阵列加骨传导,最远拾音距离8米。把声源定位从「听哪个方向」变成「看谁的嘴在动」。

发布会现场,新华社记者徐弘毅戴上讯飞AI眼镜,在科大讯飞展台跑了一段相当能打的实操。

展台老师在讲解讯飞AI翻译耳机时,讯飞AI眼镜同时捕获语音和图像。多模态数据传到AstronClaw,然后给徐弘毅补上了一段背景——

这款耳机是全球首款骨导加气导的开放式专业翻译耳机。

去年在上海和迪拜两地同步发布,当时还做了一场跨国翻译电话演示。

最关键的环节在最后。徐弘毅扶了一下眼镜,说了一句话——

「根据我刚刚逛展的过程,生成相关素材发送到微信」。

GlassClaw把展区一路看到、听到的内容整理成图文素材,发到了展台工作人员的微信里。从看到、认知、理解、思考到输出,一口气搞定全流程。

当Agent的输入从屏幕里的文字,变成眼前的真实世界,人机交互的范式就被重写了。

Agent不再需要你一字一句地把世界描述给它听,它自己就能看。

Claw直控机器人,送咖啡热舞震撼

如果GlassClaw是Agent的眼睛,Claw就是Agent的神经中枢。

主持人直接在AstronClaw下达一句指令:Guide 01,给我送杯咖啡。

然后,AstronClaw操控讯飞Guide 01机器人,提着咖啡慢慢走向台前,递给了主持人。

更惊艳的还在后头。Guide 01把舞台交给了它的「WallEX」和「小弟Nova」。

其中,WallEX是升级了Claw能力的智慧家居中控屏。Nova是配套氛围灯,会根据场景自动调色,主打家居里的浪漫氛围。

现场,机器人用一支舞,把这一组合的感染力瞬间拉满。

这次Claw接入Guide 01,瞄准的是机器人行业一个老大难:语音交互和动作执行严重割裂。

Scroll for more