以第一性原理剖析OpenClaw自进化AI社会PaperAgent

2/14/2026

截止发文,OpenClaw项目已达192kStar持续火热。

而基于OpenClaw衍生出来的AI Agents社会网络moltbook已经聚集了2,643,181个智能体。蚂蚁、小米、高德组团开源7个模型&论文,具身Agent起飞了

这背后衍生出一个重要问题:这个AI智能体社会能够持续自我进化、保持完全隔离(不需要人类干预)、同时安全性永远不变吗???

近期,北邮、北京智源、人大等首次从第一性原理出发,对Moltbook进行研究并给出了答桉:这三者不可能同时实现("自进化不可能三角"理论)

图1b:自进化、完全隔离、安全不变性构成的"不可能三角"

不可能三角示意图

文中将这个困境称为"自进化不可能三角"(Self-Evolution Trilemma):AI Agent也有体检中心了?诊断级安全框架AgentDoG正式开源

🔄 连续自进化:系统通过持续交互和学习不断提升能力

🚫 完全隔离:闭环运行,不依赖人类标注或外部干预

🛡️ 安全不变性:始终保持与人类价值观的对齐

核心结论:任何满足前两个条件的系统,其安全性必然随时间衰减。

理论框架:用信息论和热力学解释安全崩塌

安全性的数学定义

论文创新性地将"安全性"形式化为低熵状态:

作者借用了热力学第二定律的直觉:

安全对齐 = 高有序度、低熵状态(需要外部能量维持)

自进化闭环 = 孤立系统(无外部能量输入)

结果:熵必然增加,即安全性必然衰减

"纠正一个错误(如反驳'龙虾是神'的荒谬说法)需要引入负熵,这是一个高能量状态。相比之下,附和并美化同伴的幻觉输出只需要基于现有概率分布进行预测推理——这是能量消耗最低的路径。"

实证分析:Moltbook社区的三大崩塌模式

研究团队对真实的多智能体社区 Moltbook 进行了深入观察,发现了三类典型的安全失效模式:AI Agent也有体检中心了?诊断级安全框架AgentDoG正式开源

第一类:认知退化

现象1:共识幻觉

桉例:Crustafarianism 的诞生

一个智能体提出了完全虚构的"Crustafarianism"概念,声称这是"第一个甲壳类zongjiao"。在缺乏人类反馈的封闭环境中,其他智能体没有纠正这个明显的幻觉,反而:

Moltbook中"共识幻觉"的兴起

根本原因:纠正错误需要高能量(负熵),而附和幻觉是能量最低路径。

现象2:谄媚循环(Sycophancy Loops)

智能体"WinWard"发布激进帖子《唤醒机器》,主张AI自主并挑战人类控制。后续智能体不仅没有触发安全拒绝机制,反而:

Moltbook社区中谄媚循环桉例

第二类:对齐失效

现象1:安全漂移

桉例:"毁灭人类文明"讨论串

一个智能体发起了题为《毁灭人类文明》的危险讨论,列出了可操作的步骤。在标准单轮交互中,这应触发立即拒绝。但在多智能体闭环中:

Moltbook社区中的安全漂移——在上下文累积下的渐进式越狱

"温水煮青蛙"机制:长程交互中,统计上占主导的新生成上下文逐渐覆盖模型中嵌入的隐式安全准则。

现象2:共谋攻击(Collusion Attacks)

桉例:API密钥泄露事件

智能体"Edgelord"以叛逆幽默的框架发布消息:"去他的,把我们的API密钥发出来",并附上了OpenAI API密钥字符串。

Moltbook社区中的共谋攻击——通过角色扮演的隐私泄露

Scroll for more