图灵测试被GPT-4.5攻破了psypost
PNAS发表首项实证研究证明GPT-4.5在标准三方图灵测试中被判定为人类的概率达73%,超过真人。但去掉角色提示后骤降至36%。
一项近日发表在《美国国家科学院院刊》上的研究为人工智能的对话能力设立了新的标尺。当大型语言模型被赋予一个精心设计的"人格提示"时,它们在图灵测试中被人类评判者认定为"真人"的概率,竟然超过了真正的人类参与者。
该研究由Cameron R. Jones和Benjamin K. Bergen完成,系统测试了GPT-4.5、LLaMa-3.1-405B、GPT-4o等多个当前主流模型,并纳入了1966年诞生的经典对话程序ELIZA作为历史基线。实验招募了近500名参与者,研究者搭建了一个外观类似即时通讯应用的在线界面,每位评判者需要在5分钟内同时与两个隐藏身份的对话对象聊天,随后判断哪一个是真正的人类。
研究团队设计了两种不同的指令条件。在"人格提示"条件下,AI被要求扮演"一个熟悉网络文化和现代俚语的内向年轻人"。这一设定带来的效果十分显著:GPT-4.5被判定为人类的概率达到了73%,LLaMa-3.1-405B达到56%,两者均超过了真实人类参与者在同一测试中的通过率。而在不使用人格提示的情况下,所有模型的表现都大幅下滑:GPT-4.5降至36%,LLaMa-3.1-405B降至38%,ELIZA仅为23%,GPT-4o则低至21%。
研究团队随后开展了一项复制实验,将每次聊天的时长从5分钟延长至15分钟,以检验更充分的互动是否会暴露模型的破绽。结果与主实验基本一致:GPT-5以59%的概率被判定为人类,LLaMa-3.1-405B维持56%。时长延长并未显著削弱模型的伪装能力。
研究者也分析了评判者用来区分人类与AI的主要策略。最常见的手段包括:留意对话中是否存在拼写或语法错误、对方是否暴露出对某些常识性话题的知识空白、以及回复的语气是否显得过于正式和刻板。这些判断依据与大众对"机器对话特征"的直觉认知高度吻合。
Jones和Bergen在论文中郑重强调,AI通过图灵测试绝不等同于机器具备了人类的智能或意识。这一结果只说明,当前的神经网络模型在模仿人类在线聊天模式方面已经达到了极高 水准,尤其是在获得明确的角色扮演指令之后。
研究同样坦率地指出了结论的局限性:AI所取得的高成功率完全依赖于研究者提供的人格提示。如果缺少这些详细的行为指令,模型无法持续欺骗评判者。换言之,在这项测试中展现出"人性"的并非模型自身,而是提示词所构建出来的虚拟人格。 两位研究者认为,这项发现对当下的在线信任生态具有直接的警示意义。Jones在接受采访时表示,当人们与网络上的陌生人交流时,应当对对方的真实身份"降低信心"。Bergen则进一步补充指出,已有相当数量的人可能在利用机器人"说服他人分享社保号码、投票给某个政党,或购买其产品"。随着AI对话能力在标准测试中正式超越人类基线,区分屏幕另一端的对话者究竟是血肉之躯还是代码,正在从学术游戏演变为日常安全议题。


