图灵测试被GPT-4.5攻破了psypost

PNAS发表首项实证研究证明GPT-4.5在标准三方图灵测试中被判定为人类的概率达73%，超过真人。但去掉角色提示后骤降至36%。

一项近日发表在《美国国家科学院院刊》上的研究为人工智能的对话能力设立了新的标尺。当大型语言模型被赋予一个精心设计的"人格提示"时，它们在图灵测试中被人类评判者认定为"真人"的概率，竟然超过了真正的人类参与者。

该研究由Cameron R. Jones和Benjamin K. Bergen完成，系统测试了GPT-4.5、LLaMa-3.1-405B、GPT-4o等多个当前主流模型，并纳入了1966年诞生的经典对话程序ELIZA作为历史基线。实验招募了近500名参与者，研究者搭建了一个外观类似即时通讯应用的在线界面，每位评判者需要在5分钟内同时与两个隐藏身份的对话对象聊天，随后判断哪一个是真正的人类。

研究团队设计了两种不同的指令条件。在"人格提示"条件下，AI被要求扮演"一个熟悉网络文化和现代俚语的内向年轻人"。这一设定带来的效果十分显著：GPT-4.5被判定为人类的概率达到了73%，LLaMa-3.1-405B达到56%，两者均超过了真实人类参与者在同一测试中的通过率。而在不使用人格提示的情况下，所有模型的表现都大幅下滑：GPT-4.5降至36%，LLaMa-3.1-405B降至38%，ELIZA仅为23%，GPT-4o则低至21%。

研究团队随后开展了一项复制实验，将每次聊天的时长从5分钟延长至15分钟，以检验更充分的互动是否会暴露模型的破绽。结果与主实验基本一致：GPT-5以59%的概率被判定为人类，LLaMa-3.1-405B维持56%。时长延长并未显著削弱模型的伪装能力。

研究者也分析了评判者用来区分人类与AI的主要策略。最常见的手段包括：留意对话中是否存在拼写或语法错误、对方是否暴露出对某些常识性话题的知识空白、以及回复的语气是否显得过于正式和刻板。这些判断依据与大众对"机器对话特征"的直觉认知高度吻合。

Jones和Bergen在论文中郑重强调，AI通过图灵测试绝不等同于机器具备了人类的智能或意识。这一结果只说明，当前的神经网络模型在模仿人类在线聊天模式方面已经达到了极高水准，尤其是在获得明确的角色扮演指令之后。

研究同样坦率地指出了结论的局限性：AI所取得的高成功率完全依赖于研究者提供的人格提示。如果缺少这些详细的行为指令，模型无法持续欺骗评判者。换言之，在这项测试中展现出"人性"的并非模型自身，而是提示词所构建出来的虚拟人格。两位研究者认为，这项发现对当下的在线信任生态具有直接的警示意义。Jones在接受采访时表示，当人们与网络上的陌生人交流时，应当对对方的真实身份"降低信心"。Bergen则进一步补充指出，已有相当数量的人可能在利用机器人"说服他人分享社保号码、投票给某个政党，或购买其产品"。随着AI对话能力在标准测试中正式超越人类基线，区分屏幕另一端的对话者究竟是血肉之躯还是代码，正在从学术游戏演变为日常安全议题。