Gemini重大更新：能翻邮件，能查搜索记录DeepTech深科技

1 月 15 日，谷歌宣布 Gemini 上线名为“Personal Intelligence”（个人智能）的新功能。这项新功能允许 Gemini 接入用户的 Gmail 邮箱、Google Photos 相册、YouTube 观看历史以及搜索记录，根据问题需要调取相应的记忆，以提供更具针对性的回答。

（来源：X）

该功能目前以测试版形式向美国地区的付费订阅用户开放，计划在未来几周内逐步扩展到免费用户及更多国家。

在这个功能上，谷歌显然拥有自己的系统生态优势。与 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 等独立模型不同，谷歌掌控着 Gmail、YouTube、照片等覆盖数亿用户的消费级平台。“Personal Intelligence”正是将这种平台覆盖面转化为差异化价值的尝试。

此前的谷歌 AI 也有类似的应用连接功能。早在 2023 年，当时的 Gemini 还叫做 Bard，它就支持用户通过 “＠Gmail” 等标签从特定应用中检索信息。但那种交互方式更像是显式的数据调用——用户必须明确告诉助手去哪里找什么。

而此次升级的核心在于“跨应用推理”能力：Gemini 不再需要用户指定数据源，而是能够主动在多个应用间建立关联，综合分析后给出答案。

Gemini 应用副总裁 Josh Woodward 在社交媒体上演示了一个具体场景：他需要更换轮胎，但不知道轮胎尺寸。此时他向 Gemini 提问，结果 Gemini 不仅记得用户的车型并找到标准轮胎规格，还会参考 Google Photos 中的家庭公路旅行照片，推荐适合日常驾驶和全天候路况的不同选项，并附上评分和价格对比。

当需要车牌号码时，Gemini 会从 Photos 中的某张照片里提取出七位数字，同时通过搜索 Gmail 确认车辆的具体配置型号。整个过程中，用户并未告诉它去翻阅邮件或相册。

此外，Google Photos 创始人 David Lieb 也在社交媒体上展示了 Gemini 如何根据 Gmail 记录帮他记得上次理发的时间，并且还会进一步提问他是否需要进行预约。

（来源：X）

谷歌官方还演示了当用户想去一些有趣的地方旅行时，Gemini 会如何联动你邮件里的旅行日期，和相册里的自然风光偏好，为你推荐适合的旅行目的地。

从某种意义上来说，拥有了 Personal Intelligence 的Gemini 已不再仅仅是一个大语言模型，它正经历从“对话工具”向“个人智能体（AI Agent）”的跨越。

通过深度应用 AI Agent 记忆机制（Agent Memory），它将超长上下文的处理能力、多模态感知的深度与私有数据的语义索引无缝集成。

在今天共同发布的技术白皮书中，谷歌详细阐述了这套系统的架构设计和技术路线。

整个架构分为三个层级。最上层是产品接入层，目前以 Gemini 应用为主，即将接入搜索中的 AI Mode。中间层是模型使能层，以 Gemini 3 系列模型为核心，提供深度语义理解、复杂逻辑推理及多模态处理能力。

最关键的是底层新构建的 Personal Intelligence 引擎——这是一个全新的中间件，负责连接模型与用户的私有数据源，包括 Gmail、Google Photos、YouTube 和搜索历史等。

它像是一个智能的记忆调度系统，面对用户多年积累的海量邮件、照片和搜索记录，它知道当前任务需要哪些信息，并精准地将它们放到传送带上进行输出。

（来源：谷歌技术白皮书）

具体来说，这一目标的实现依赖三大支柱。

首先是 Gemini 3 的推理能力。相比之前的模型，Gemini 3 能够更好地理解复杂的个人语境，比如映射家族关系或识别用户特定的审美偏好——当用户提到“我的车”时，它需要理解这不仅是一个名词，还关联着购车合同、保养记录、驾驶习惯等一系列个人数据。

其次是工具调用能力的强化。这是从被动检索到主动推理的关键跃升。白皮书强调，模型现在能够“智能地”（Agentically）理解用户目标，并主动生成指令从 Personal Intelligence 引擎中检索与用户偏好相关的信息。这种检索建立在谷歌多年搜索和密集检索研究的基础上，包括 Gemini Embeddings 等技术。

当用户询问“为我即将到来的旅行计划一份靠近酒店的餐厅清单”时，模型会将这个任务拆解成多个细节：酒店预订信息、航班抵达时间、过往用餐历史以及收藏的餐厅。系统会在后台执行智能检索，不仅查找最近的邮件行程，还会关联过往的餐厅预订记录、搜索查询、YouTube 观看历史和过去的对话记录，最终给出贴合用户住宿地点的个性化推荐。

第三个也是最核心的技术支柱，是超长上下文处理与“上下文打包”技术的结合。Gemini 3 拥有 100 万 token 的上下文窗口，理论上可以处理相当于 1 小时视频、11 小时音频、3 万行代码或 70 万个单词的信息量。但谷歌在白皮书中坦承，真正有用的个性化需要处理远超这一窗口的数据规模——仅用户积累的邮件和照片往往就以数量级超出这个限制。