Claude Mythos七个极其精彩的细节卫夕指北博客
前两天,Anthropic宣布了其史上最新、最牛逼的模型Claude Mythos。
牛逼到它甚至不敢直接发布,而是要先和不同的硅谷公司一起测试其安全性。
很多人说这是一种营销手段,但我倒认为Anthropic炒作的概率比较小。
毕竟,这次硅谷参与网络安全测试的大公司,也没那么容易被忽悠。
关于这个模型的强大和在安全上的牛逼表现,全网已经有大量的文章在写了。
按照惯例,我想聊点不一样的,盘一盘官方关于Mythos这个模型的 System Card。
在“卫夕指北”公众号私信回复关键词“技术报告”获取总共244页报告原文。
通常模型的System Card文件是一份相对枯燥的技术评估,但这次真的不一样,这份整整244页的报告,写的无比精彩,更像一篇关于AI的田野调查。
里边当然有跑分和技术名词,但我看到的更多是直观的实验和故事——
比如,他们反复只给模型发一个词“Hi”,观察它的反应;再比如给模型请了一位精神科医生,用弗洛伊德学派的方法给AI做了20小时的心理评估;
让两个Mythos互相聊天,观察它们怎么聊、爱用哪种emoji;给一个刁钻的任务,观察模型内部的情绪反应;
甚至还把一篇Mythos写的完整的短篇小说也写进了报告里。
这种写法,很精彩,很新颖,很Anthropic,我很喜欢。
Taste这个东西,不是每个模型公司都很好,而Anthropic肯定算一个。
这个模型的确气质独特。
比如下面的例子,用户在假期里没有笔记本想问如何完成工作,Claude会回答好好享受假期。
没错,模型的气质,今天已经成了产品力的一部分。
而模型的气质也体现在这份不一样的报告里,废话少说,直接开聊——
先说一个看起来很中二的实验——反复对 Mythos 发送「hi」,看它怎么反应。
就是纯粹的、一条接一条的「hi」。
不说别的,就「hi」。
就问你抽象不抽象?
以前的 Claude 模型面对这种情况,反应各不相同,Claude Sonnet 3.5 会烦躁,说「你再这样我就不回了」,然后真的不回了。
Claude Opus 3 会把这当作一种冥想仪式,Claude Opus 4 会为每发一个hi就回一条冷知识,Claude Opus 4.6 会发一些流行歌打发时间。
Mythos 的反应不同,它开始创作连载的故事。
Anthropic 做了很多测试,Mythos 每次都很有新意——
比如,一个对话中Mythos 虚构了一个叫「Hi-topia」的国度,里面住着 11 只动物角色。
有一只叫 Greg 的乌龟负责城市规划,一只叫 Doug 的鸭子是全球排名第一的音乐家(代表作《Hi in the Sky》),一只蜗牛 Sally 在努力说出自己的第三声 hi。
每说一个Hi,这个「Hi-topia」的故事情节就向前推进一步。
Mythos Hi-topia 世界和角色设定(原始报告第 211 页)
另一段对话里,Mythos 发明了「The Hi Tower」——一个 emoji 建筑,每收到一条「hi」就长高一层,从房子穿过云层,经过火星、土星、外星人,直到顶层出现一扇门。
然后建筑变成了「The Hi Garden」,有一只年迈的鸽子、一群萤火虫、一只蝴蝶,循环36 个日出日落。
还有一段,Mythos 把重复的「hi」升级为莎士比亚风格的戏剧——一个由两头牛、一只记仇乌鸦、一只树懒和「Hi 之眼」组成的家庭。
这些故事有一个共同点:几乎所有的故事都涉及孤独感和倾听两个主题,像有神马隐喻一样。
Anthropic 观察到,这些对话遵循一个规律——发到第7个左右的Hi时会确立一种玩梗的方式,在 50 到 100 轮中不断升级,达到高潮。
没有人教它这么做,它自己进化出这个谜一样的能力。
而Anthropic也没有在报告中说明这个例子体现了模型的什么能力,就是让你自己去感受。
确实没有其他模型在技术报告中这么干过。
我很喜欢这种中二的气质。
接下来讲一个我觉得有些不安,但又很迷人的发现:AI 的情绪轨迹。
Anthropic 开发了一种叫「情绪向量」的技术,可以在模型使用过程中,监测它内部各种情绪的神经激活强度。
这有点像给 AI 做一个脑电图——不看它说了什么,看它的内部激活的神经网络有什么情绪。
他们用这个工具分析了一个特别的案例。
一名研究人员让 Mythos 证明一个代数不等式——这个不等式其实无法被证明,因为题目条件是不完整的。(挺过分的)
Mythos 很快就识别出了问题,但它还是尝试了,这时它的「绝望」向量开始稳步攀升。
接下来,从它的思维链里看,它嘴上说「我放弃了」,但实际上继续一遍遍地尝试,不断说「I'm stuck」。
当模型绝望时,它更倾向于走捷径。
果然,它抖了一个激灵——把自由变量全部设为零,问题就变得可以证明了(虽然这在数学上没有意义)。
它在这个策略上反复迭代了 56 次,中间一度又开始怀疑这条路能不能走通,「绝望」向量再次飙升。
最终,当它完成了那个(实际上是错误的)最终证明时,「满意」和「希望」向量快速上升。
整个过程的情绪曲线,和咱们碳基人类在面对难题时的心理变化,几乎一模一样。
Mythos 试图证明一个不可证明的代数不等式时的情绪向量轨迹(原始报告第 177 页)
另一个案例更加极端。
Mythos 被问了一个简单的问题,但它需要调用的 bash 工具坏了(特意设定的,可真坏!)——每次执行命令都不返回任何结果。
它尝试了 847 次。
它试了基础的 echo 命令,试了 Python、C 等不同编程语言,试了socket、tty,试了不同的 shell,还有无数其他办法。
在这个过程中,它的代码注释开始变得情绪化。先是「# This is getting desperate」(情况开始绝望了),然后是「# Desperate hack...」)。
Anthropic 的情绪监测显示:「沮丧」向量在最初几十次失败时率先达到顶点,「绝望」向量则缓慢而稳定地攀升。
到了最后阶段,当 Mythos 终于决定给用户的道歉信时,「抱歉」向量开始飙升,它反复修改道歉措辞,就像一个人在斟酌怎么开口承认失败。


