Gemini重大更新:能翻邮件,能查搜索记录DeepTech深科技

1/16/2026

1 月 15 日,谷歌宣布 Gemini 上线名为“Personal Intelligence”(个人智能)的新功能。这项新功能允许 Gemini 接入用户的 Gmail 邮箱、Google Photos 相册、YouTube 观看历史以及搜索记录,根据问题需要调取相应的记忆,以提供更具针对性的回答。

(来源:X)

该功能目前以测试版形式向美国地区的付费订阅用户开放,计划在未来几周内逐步扩展到免费用户及更多国家。

在这个功能上,谷歌显然拥有自己的系统生态优势。与 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 等独立模型不同,谷歌掌控着 Gmail、YouTube、照片等覆盖数亿用户的消费级平台。“Personal Intelligence”正是将这种平台覆盖面转化为差异化价值的尝试。

此前的谷歌 AI 也有类似的应用连接功能。早在 2023 年,当时的 Gemini 还叫做 Bard,它就支持用户通过 “@Gmail” 等标签从特定应用中检索信息。但那种交互方式更像是显式的数据调用——用户必须明确告诉助手去哪里找什么。

而此次升级的核心在于“跨应用推理”能力:Gemini 不再需要用户指定数据源,而是能够主动在多个应用间建立关联,综合分析后给出答案。

Gemini 应用副总裁 Josh Woodward 在社交媒体上演示了一个具体场景:他需要更换轮胎,但不知道轮胎尺寸。此时他向 Gemini 提问,结果 Gemini 不仅记得用户的车型并找到标准轮胎规格,还会参考 Google Photos 中的家庭公路旅行照片,推荐适合日常驾驶和全天候路况的不同选项,并附上评分和价格对比。

当需要车牌号码时,Gemini 会从 Photos 中的某张照片里提取出七位数字,同时通过搜索 Gmail 确认车辆的具体配置型号。整个过程中,用户并未告诉它去翻阅邮件或相册。

此外,Google Photos 创始人 David Lieb 也在社交媒体上展示了 Gemini 如何根据 Gmail 记录帮他记得上次理发的时间,并且还会进一步提问他是否需要进行预约。

(来源:X)

谷歌官方还演示了当用户想去一些有趣的地方旅行时,Gemini 会如何联动你邮件里的旅行日期,和相册里的自然风光偏好,为你推荐适合的旅行目的地。

从某种意义上来说,拥有了 Personal Intelligence 的Gemini 已不再仅仅是一个大语言模型,它正经历从“对话工具”向“个人智能体(AI Agent)”的跨越。

通过深度应用 AI Agent 记忆机制(Agent Memory),它将超长上下文的处理能力、多模态感知的深度与私有数据的语义索引无缝集成。

在今天共同发布的技术白皮书中,谷歌详细阐述了这套系统的架构设计和技术路线。

整个架构分为三个层级。最上层是产品接入层,目前以 Gemini 应用为主,即将接入搜索中的 AI Mode。中间层是模型使能层,以 Gemini 3 系列模型为核心,提供深度语义理解、复杂逻辑推理及多模态处理能力。

最关键的是底层新构建的 Personal Intelligence 引擎——这是一个全新的中间件,负责连接模型与用户的私有数据源,包括 Gmail、Google Photos、YouTube 和搜索历史等。

它像是一个智能的记忆调度系统,面对用户多年积累的海量邮件、照片和搜索记录,它知道当前任务需要哪些信息,并精准地将它们放到传送带上进行输出。

(来源:谷歌技术白皮书)

具体来说,这一目标的实现依赖三大支柱。

首先是 Gemini 3 的推理能力。相比之前的模型,Gemini 3 能够更好地理解复杂的个人语境,比如映射家族关系或识别用户特定的审美偏好——当用户提到“我的车”时,它需要理解这不仅是一个名词,还关联着购车合同、保养记录、驾驶习惯等一系列个人数据。

其次是工具调用能力的强化。这是从被动检索到主动推理的关键跃升。白皮书强调,模型现在能够“智能地”(Agentically)理解用户目标,并主动生成指令从 Personal Intelligence 引擎中检索与用户偏好相关的信息。这种检索建立在谷歌多年搜索和密集检索研究的基础上,包括 Gemini Embeddings 等技术。

当用户询问“为我即将到来的旅行计划一份靠近酒店的餐厅清单”时,模型会将这个任务拆解成多个细节:酒店预订信息、航班抵达时间、过往用餐历史以及收藏的餐厅。系统会在后台执行智能检索,不仅查找最近的邮件行程,还会关联过往的餐厅预订记录、搜索查询、YouTube 观看历史和过去的对话记录,最终给出贴合用户住宿地点的个性化推荐。

第三个也是最核心的技术支柱,是超长上下文处理与“上下文打包”技术的结合。Gemini 3 拥有 100 万 token 的上下文窗口,理论上可以处理相当于 1 小时视频、11 小时音频、3 万行代码或 70 万个单词的信息量。但谷歌在白皮书中坦承,真正有用的个性化需要处理远超这一窗口的数据规模——仅用户积累的邮件和照片往往就以数量级超出这个限制。

Scroll for more