CMU隆博士解读：ClaudeCode 7层记忆机制troyhua

许多技术大神进行了超详细的解析，发现一个不超过 200 行的 MEMORY.md 文件竟是解决记忆问题的关键！

众所周知，上下文窗口有限——LLM难为了无数开发者的致命痛点随着 CloudeCode完整代码在被迫开源之后，被给出解决方案了！

X上一位卡内基梅隆博士大佬@troyhua对Claude Code进行了一场深度分析，与之前网络上流传的全代码拆解不同，troyhua则选择了解读Claude Code最精彩、也最复杂的、也是外界最难复刻的：7层记忆架构！

它像人类大脑一样，分层管理记忆：从毫秒级的轻量清理，到“做梦机制”巩固长期记忆，层层递进。

这套系统工程之精妙，堪称当前Agentic AI的教科书级设计。

来，一起拆解这套“AI永生记忆系统”！

01 核心问题：上下文窗口是LLM的“金鱼记忆”

LLM有一个基本约束：固定的上下文窗口，Claude Code默认200K token窗口（加[1m]后缀可到1M）。但一次真实coding：读几个大文件 + grep全仓库 + 几轮编辑 = 轻松超标。

它的解决方案？不是简单扩窗，而是7层渐进式记忆管理：每层成本递增、能力递增，层层防护，避免下一层触发。

Token 计数的底层基础是tokenCountWithEstimation（）函数：优先使用上次 API 返回的精确 input_tokens，再对新增消息做粗估（普通文本约 4 bytes/tokens，JSON 更省，图片/文档固定 2000 tokens）。还预留了约 20K tokens 作为输出缓冲，绝不把窗口用满，避免压缩时自己都塞不下。

上下文窗口解析优先级也很讲究：模型后缀 [1m] → 模型能力查询 → Beta Header → 环境变量 → 默认 200K。

02 7层记忆架构详解：从便宜到昂贵

这套架构像一座防御金字塔，越往上越强大但也越贵。系统设计的核心是“预防为主”，尽可能防止N+1层触发。

第1层：工具结果存储——“日常清洁工”

单次 grep 可能返回 100KB+ 文本，大文件 cat 也可能 50KB。这些内容如果直接塞进上下文，不仅浪费 Token，还很快就会过时。

而Claude code 的解决方案是：每个工具的结果在进入上下文前都会经过预算系统，超过其阈值时：

完整结果写到磁盘（tool-results//.txt）

上下文里只放前 ~2KB 预览，用标签包裹

模型如果需要，可以后续用 Read 工具读取完整版

而且，一个关键之处：内容替换状态：一旦决定用预览，就把这个决定“冻结”。后续所有 API 调用都用同样的预览，确保 Prompt 前缀字节完全一致，最大化缓存命中率。这个状态甚至会持久化到会话记录里，支持 resume。

同时，每个工具的阈值可以通过 tengu_satin_quoll 功能标志远程调节——使 Anthropic 能够在无需代码部署的情况下调整特定工具的持久性阈值。

第2层：微压缩——每轮对话前的“日常保洁”