Codex现在随时能截屏你的桌面量子位

Codex，现在盯着你的屏幕

刚刚，OpenAI给Codex上了一个新功能，Chronicle。

它会在后台抓你的屏幕截图，炼成记忆，下次你打开Codex就接上。

上周Codex才刚上线memories，让agent从对话历史里学。这周Chronicle更进一步，从屏幕里学。

奥特曼称其为“心灵感应”。

这多模态上下文，也是让OpenAI最先整起来了。

利用屏幕截图来增强上下文

OpenAI自己是这么描述Chronicle的，它能让Codex听懂你说的「这个」和「那个」。

屏幕上的一个报错。开着的一份文档。或者「那个东西，两周前你在搞的」。

以前你跟Codex说这些，它不知道你指的是什么，你得重新把背景信息粘一遍、把报错截一张、翻上次的聊天。

Chronicle把这个摩擦去掉了。时间长了，它还能记住你常用什么工具、反复回去看哪些项目、依赖哪些工作流。

比如，你问GPT，为什么这个失败了。

以前它只能说，我不知道你在说什么。

现在，Chronicle能基于此前的屏幕截图推断出你那句模糊指令到底指什么。

OpenAI总裁Greg Brockman的描述更直白一点：

「一个实验性功能，让Codex能看到、能记住你最近看到的东西，自动拿到你在做什么的全部上下文。用起来惊人地有种魔法感。」

这玩意的背后原理也很简单，就是后台agent周期性地抓屏幕截图。

截图不在你本地处理。它们被传到OpenAI的服务器，走一遍OCR和视觉分析，生成一段一段的Markdown文字摘要，再回传到本地。

摘要存在本地目录下。你下次打开Codex，它们就作为上下文被拉进上下文窗口。

原始截图在本地保留六小时，之后删掉。但那些Markdown摘要是永久保存的，明文，未加密。你打开目录就能读，也能编辑，也能删掉某一条你不想让它记住的。

不过，Chronicle并不总是把截图摘要当答案用。

OpenAI在文档里说得很清楚，如果手头有更合适的源，某个具体文件、某条Slack消息、某份Google Doc、某张dashboard、某个pull request，Codex会先用Chronicle识别出这个源，然后直接去读那个源。

Chronicle是索引，不一定是答案。

用起来也很简单。

打开Codex设置，进Personalization，先打开Memories，再打开下面的Chronicle，授权macOS的屏幕录制和辅助功能权限，就能开始跑。

目前它是opt-in research preview，只向ChatGPT Pro订阅用户开放，每月100刀那档，并且只支持macOS。

AI看截图靠谱吗？

截图接入上下文虽然能让工作流变的更丝滑，但开Chronicle之前你得知道几件事。

OpenAI自己在文档里老实交代了三条风险。

第一条，rate limit消耗很快。因为后台agent一直在把截图炼成摘要，这个过程本身就在烧你的配额。

第二条，prompt injection风险上升。屏幕上显示的恶意网页、恶意邮件、恶意文档，都可能通过截图把坏指令偷偷注入到Codex的上下文里。你没看到，Codex看到了。

第三条，记忆未加密存储在你的设备上。Markdown文件就那么明晃晃躺在本地，别的应用如果有权限访问这些文件，也能读到。

OpenAI的建议是，开会之前、看敏感内容之前，暂停Chronicle。

这个建议有点微妙。它等于承认Chronicle会捕捉到不该捕捉的东西，只不过把「记得暂停」这件事的责任交给了用户自己。

而说到做桌面屏幕感知，桌面agent的，OpenAI并不是第一个。

微软Recall 2024年就想过同样的事，结果是全网炸了一遍。

2026年初有安全研究员演示出一套攻击路径，把Recall加密的数据库攻破了。Copilot订阅用户半年掉了39%，Recall的阴影是原因之一。

Rewind AI曾经是这个赛道上跑得最早的那个，后来改名Limitless，2025年12月被Meta收购，Mac app直接关了，屏幕捕捉功能下线。Meta显然不是买它来继续做这件事的。

开源替代Screenpipe还在，本地优先，但太硬核，不是普通用户会去装的东西。

Chronicle走的是相对保守的路。截图不上云、本地存储、六小时删除、可随时暂停、摘要可以人工审查和编辑。这是一套比Recall坦诚得多的机制。

但需求没消失，关也没变。

推文底下争议很大，一边是用户觉得这个方向是对的，终于不用反复粘报错粘截图了。