「龙虾」从屏幕里爬出来了新智元

40克AI眼镜变身Agent之眼，数字分身定制分身。当Agent爬出屏幕走进物理世界，这场关于生产力的降维打击，真的不只是说说而已。

这几个月，硅谷和中文AI圈都在流传一个心照不宣的暗号，「养龙虾」。

一个Agent，7x24小时不睡觉，自主开浏览器、写代码、抓数据、交付成果……

这些「龙虾」一度被视为未来的生产力神话，然而，它们所有的演进路径，都指向同一个终点：

怎么在一块屏幕里，把活干得更猛一点。

所谓的「AI员工」，本质上是一个被钉死在屏幕背后的同事。下一代Agent，究竟该如何突破玻璃的束缚？

4月15日，广交会开幕当天，有人试着把这道坎跨过去。

一副40克的眼镜；一颗装进机器人脑袋里的「超脑」；一个能跨设备接力干活的桌面搭子；再加上底层重新升级的AstronClaw平台，整套「Claw全家桶」一次性砸了下来。

佩戴讯飞AI眼镜的多模交互场景

干这件事的是讯飞。

所有这些硬件、软件、模型、平台的更新，都指向了同一件事——

把Agent从屏幕里拽出来，让AI真正触手可及！

这一次，「龙虾」冲出了屏幕

要做到这一点，第一步，是先给「龙虾」一副能够看见世界的身体。

硬件，才是Agent走出屏幕的第一道门。

讯飞AI眼镜：Agent有了眼睛

讯飞翻译硬件家族里最轻的那一块，是一副眼镜。

讯飞AI眼镜整机，仅40克。

作为全球最轻的双目单色显示多模态眼镜，它比市面主流产品（50克以上）减重约20%。

重量只是入场券。讯飞AI眼镜搭载的GlassClaw，才真正改变了Agent的输入方式。

你看到什么，它就能识别和理解；你听到什么语言，它就实时翻译。

跨语言方面，中英首响快至2秒，AR翻译目光锁定2秒就能自动出译，加上18个离线语种，基本覆盖了广交会这种跨国采购场景的刚需。

更硬的技术活，藏在降噪方案里。讯飞AI眼镜首创了「唇动识别」多模态降噪方案，靠5+1麦克风阵列加骨传导，最远拾音距离8米。把声源定位从「听哪个方向」变成「看谁的嘴在动」。

发布会现场，新华社记者徐弘毅戴上讯飞AI眼镜，在科大讯飞展台跑了一段相当能打的实操。

展台老师在讲解讯飞AI翻译耳机时，讯飞AI眼镜同时捕获语音和图像。多模态数据传到AstronClaw，然后给徐弘毅补上了一段背景——

这款耳机是全球首款骨导加气导的开放式专业翻译耳机。

去年在上海和迪拜两地同步发布，当时还做了一场跨国翻译电话演示。

最关键的环节在最后。徐弘毅扶了一下眼镜，说了一句话——

「根据我刚刚逛展的过程，生成相关素材发送到微信」。

GlassClaw把展区一路看到、听到的内容整理成图文素材，发到了展台工作人员的微信里。从看到、认知、理解、思考到输出，一口气搞定全流程。

当Agent的输入从屏幕里的文字，变成眼前的真实世界，人机交互的范式就被重写了。

Agent不再需要你一字一句地把世界描述给它听，它自己就能看。

Claw直控机器人，送咖啡热舞震撼

如果GlassClaw是Agent的眼睛，Claw就是Agent的神经中枢。

主持人直接在AstronClaw下达一句指令：Guide 01，给我送杯咖啡。

然后，AstronClaw操控讯飞Guide 01机器人，提着咖啡慢慢走向台前，递给了主持人。

更惊艳的还在后头。Guide 01把舞台交给了它的「WallEX」和「小弟Nova」。

其中，WallEX是升级了Claw能力的智慧家居中控屏。Nova是配套氛围灯，会根据场景自动调色，主打家居里的浪漫氛围。

现场，机器人用一支舞，把这一组合的感染力瞬间拉满。

这次Claw接入Guide 01，瞄准的是机器人行业一个老大难：语音交互和动作执行严重割裂。