Claude Fable5惨遭二次越狱新智元
Anthropic刚把Fable 5「放出来」没几天,它就又被黑客当众扒了底裤。
Anthropic官方确认:Fable将于7月7日后暂时从订阅计划移除,但一旦容量允许,将尽快恢复为标准订阅内容。
这无疑是个好消息。
但Fable 5再次被越狱了!这已经是该模型第二次防线失守。
黑客Vitto Rivabella,公开宣布:Fable 5,又被攻破了。
要知道,Claude Fable 5恢复访问时,Anthropic特意强调:上次Fable 5被禁就是因为亚马逊的研究人员发现了一种绕过Fable 5安全防护的方法。
所以这次的安全分类器得到针对性加强。
然而,这个神话只维持了2天。
而且,Claude Sonnet 5一发布,就被越狱成功!
Fable 5能不能回归订阅套餐,或许成了一个问题。
72小时,Fable 5神话破灭
Fable 5的神话,在诞生后的第72小时就破灭了。
6月9日发布时,Anthropic曾傲慢地宣称:经过1000小时的外部压力测试,Fable 5没有任何通用越狱方法。
然而,知名黑客「解放者普林尼」(Pliny the Liberator)只用了三天,就让Fable 5像漏勺一样,吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。
普林尼是怎么做的?他利用了人类视觉与机器逻辑之间的「时差」:
字符迷魂阵:他把敏感词中的英文字母替换成西里尔字母或Unicode异形字符。人眼看着是「炸弹」,但在分类器眼里,这只是一串无意义的乱码。
意图稀释:他利用Fable 5巨大的上下文窗口,把恶意意图藏在几十轮温和的学术讨论中。这就像在一百升清水里滴入一滴毒药,分类器的警觉性被彻底稀释。
7月1日,Anthropic官宣Fable 5回归,但与此同时,他们推出了业内成本最低的红队。
他们启动了一个名为「Cyber Jailbreak」的公开HackerOne项目,邀请用户报告可用于协助网络攻击的新越狱方法。
这是一个漏洞披露计划(Vulnerability Disclosure Program),而非赏金计划,不会支付任何报酬。


