和vivo总裁聊了聊,我对影像的理解太浅了差评
这两天差评君受 vivo 邀请来到了位于海南的博鳌亚洲论坛年会。
说起来我们还是第一次来参加这种大型的国际对话活动,差友们把排面打在公屏上。
关于博鳌亚洲论坛,给没听过的差友介绍一下,这其实是一个国际组织来的,他们每年都会在博鳌这个小镇举办一次年会——亚洲各国的政商大佬们和专家们聚在这里,坐着一起聊经济、谈合作,商量怎么把亚洲发展得更好。
所以每年面对不同的全球性挑战,以及科技发展趋势,博鳌亚洲论坛都会有一些新的议题。
那对于我们科技媒体来说,当然还是更加关心年会上的科技议题了。
在这方面,vivo 每年都会在博鳌论坛上给大家带来创新产品,分享科技战略,比如去年他们就展示了 MR 头显、6G 等领域的新技术,并宣布进军机器人赛道。
而今年 vivo 又展示了新的战略规划,其中让我印象最深刻的还是 vivo 总裁胡柏山在会上的讲话:
AI 想要真正从虚拟世界走进现实,就必须要能够做到主动感知和理解我们所在的这个世界,而想要建立起这种能看懂物理世界的感知能力,影像是一切的基石。
差评君翻译下来,就是别管是能打醉拳、翻跟斗的机器人,还是 OpenClaw 引发的养虾热潮,AI 跟世界交互才刚刚开始。
“不儿,这真的是因为蓝厂在影像上已经建立起优势,才这么说的吗?”
带着这个疑问,差评君在会后的媒体群访环节跟胡柏山聊了聊,总算是把这话题给聊透了,那咱们今天就顺着他的话,唠唠 vivo 的“影像 + AI ”大棋。
现场大家问了胡柏山很多问题,但总结下来,最核心的就两点:
第一,在咱们消费者这里,率先实现 AI 落地的肯定是手机,而手机的未来,是从现在的 Smart Phone(智能手机)变成 Agent Phone(智能体手机)。
虽然现在各种 AI 硬件层出不穷,什么AI眼镜、AI录音笔等等,但没有哪个设备能比手机更加普及,并且离人更近——你想想,手机 24 小时不离身,还能联动周边的一系列生态,天生就是做 AI 落地的载体。
当然,目前手机的处理器算力和内存带宽来说,想要跑大参数的模型还是有瓶颈的,所以 vivo 选择聚焦端侧 AI,先让 AI 在手机上流畅地跑起来,用端侧 Agent 解决用户的场景痛点,把体验值拉升起来。
说到这点,差评君也在现场问了胡柏山对于之前 AI 手机的隐私权限风险怎么看,他的回答也蛮直接了当的,就是用户的隐私权限和数据应该归用户自己来管理,所以手机必须得做好端侧 AI,关键数据都跑在本地,大程度降低在云端泄露的风险。
还有对于手机 AI 如何调用第三方应用能力的问题,他表示还是需要通过像 MCP 这种统一的协议来做,在标准的接口范围内,把事情做的有边界。
第二,即便现在 Al 是行业的“流量密码”,但是对于 vivo 来说,影像依旧是不变主角。Al 和影像不是谁替代谁,而是要融合起来,一起驱动智能生态的。
有点迷?那先来听听胡柏山透出的猛料,比如:
MR 头显的下一代要开始商业化;他们要把感知这条赛道做起来,把视觉和听觉这些感知能力整合到一起;以及 vivo 已经明确做聚焦室内场景的家用机器人了……等等等等,每一句话都透露了 vivo 接下来的大动作是围绕“影像 + AI ”的布局来的。
不管是演讲还是群访,蓝厂都在反复强调一个逻辑就是:没有影像,AI 在物理世界里就是“睁眼瞎”。
怎么理解这句话呢?我给大家拆解一下。
首先,大家应该都知道,AI 其实是没有感知能力的,它懂语言,但它看不懂我们的世界。
对于大多数 AI 来说,你扔给它的照片本质上只是符号和统计规律,而告诉它这些信息都代表了什么的,在过去是成千上万的人工标注员,他们通过手工框选贴标签,告诉 AI 图片中的水杯、桌子、车辆、宠物猫狗长什么样。
不过这两年不一样了,AI 自动化标注起来了,那些低端、机械化的标注活儿,AI 自己就能搞定,只剩一些复杂的高端标注还需要人来做。行业趋势也从“靠人力堆数据”变成了“ AI + 精细化人工”。
于是,现在你扔给 AI 一张图片,它基本可以给你描述清楚当中都有哪些东西,但是这并不代表它看见的东西,就是你所看见的。
因为它看到的其实是一张贴满了标签的二维平面,而不是你所认知的物理空间。
打个比方,你看到一瓶放在桌面上的水,你脑子里会知道它有重量,它要放在桌子上,它是否会滚动,它掉下来会是什么个运动状态——你之所以会这么想,并不是因为你识别出了这瓶水和桌子,而是因为你是知道这个物理世界是怎么运行的。
但是 AI 不会这样,它只会知道水瓶和桌子,以及水瓶应该是在桌子的上面而不是下面。
因为如此,去年“ AI 教母”李飞飞提出了空间智能这个概念,用“世界模型”让 AI 看懂物理世界,理解物体之间的空间关系、物理约束以及运动规律等等。
从目标来说,vivo 跟李飞飞所追求的是一样的,都是最终实现 AI 对于物理世界的感知——只不过 vivo 打算走一条更符合自身情况的路子,用影像来当 AI 在物理世界的感知器官。
为啥是影像呢?
咱们从数据采集方式来看,录音只有声音;传感器只有距离、亮度等信息,没有语义。只有影像能够把前面这两项给囊括进来,把三维的现实世界,给你变成 AI 能读懂的结构化信息。


