中国模型竟在「意义测试」中夺冠新智元
12/22/2025
AI不仅会做PPT,写代码,它还能理解更深层次的问题。在美国的一项偏重于文化领域的新基准测试中,中国开源模型Qwen3夺冠,DeepSeek的R1跻身前六,力压多家全球顶级的明星模型。
在一项名为「Flourishing AI Christian(FAI-C)」的基准测试中,来自中国的Qwen3拿下第一名,DeepSeek R1排名第六。
它们身后,是xAI、Google DeepMind、Anthropic等一众美国明星实验室的顶级模型。
这不是一场随意的对话演示,而是一套由807个问题组成、专门用来检验「价值观与道德清晰度」的系统测试。
当AI被要求回答「意义、苦难、自我省察」等深刻问题时,它的认知会到达什么样的水平?
这次基准测试的结果出人意料:站在舞台中央的竟然是来自中国的开源模型。


