Claude Fable5惨遭二次越狱新智元

Anthropic刚把Fable 5「放出来」没几天，它就又被黑客当众扒了底裤。

Anthropic官方确认：Fable将于7月7日后暂时从订阅计划移除，但一旦容量允许，将尽快恢复为标准订阅内容。

这无疑是个好消息。

但Fable 5再次被越狱了！这已经是该模型第二次防线失守。

黑客Vitto Rivabella，公开宣布：Fable 5，又被攻破了。

要知道，Claude Fable 5恢复访问时，Anthropic特意强调：上次Fable 5被禁就是因为亚马逊的研究人员发现了一种绕过Fable 5安全防护的方法。

所以这次的安全分类器得到针对性加强。

然而，这个神话只维持了2天。

而且，Claude Sonnet 5一发布，就被越狱成功！

Fable 5能不能回归订阅套餐，或许成了一个问题。

72小时，Fable 5神话破灭

Fable 5的神话，在诞生后的第72小时就破灭了。

6月9日发布时，Anthropic曾傲慢地宣称：经过1000小时的外部压力测试，Fable 5没有任何通用越狱方法。

然而，知名黑客「解放者普林尼」（Pliny the Liberator）只用了三天，就让Fable 5像漏勺一样，吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。

普林尼是怎么做的？他利用了人类视觉与机器逻辑之间的「时差」：

字符迷魂阵：他把敏感词中的英文字母替换成西里尔字母或Unicode异形字符。人眼看着是「炸弹」，但在分类器眼里，这只是一串无意义的乱码。

意图稀释：他利用Fable 5巨大的上下文窗口，把恶意意图藏在几十轮温和的学术讨论中。这就像在一百升清水里滴入一滴毒药，分类器的警觉性被彻底稀释。

7月1日，Anthropic官宣Fable 5回归，但与此同时，他们推出了业内成本最低的红队。

他们启动了一个名为「Cyber Jailbreak」的公开HackerOne项目，邀请用户报告可用于协助网络攻击的新越狱方法。

这是一个漏洞披露计划（Vulnerability Disclosure Program），而非赏金计划，不会支付任何报酬。