退学博士是怎么用AI打击学术圈的?秦朔朋友圈
2026年的春夏之交,中国学术圈和文学圈接连经历了两场“地震”。
学术圈的震中,是一个叫“耿同学讲故事”的B站up主。36天时间里,他连续实名举报了5位985高校院长级学者的论文造假,被点名的无一例外都是手握国家杰出青年科学基金和“长江学者”等头衔的资深学者。
文学圈的震中,是一个叫“抒情的森林”的普通网友。从2024年10月开始,他用逐字逐句的文本对比,一年多时间内点名了近40位作家涉嫌抄袭——从86岁的杨本芬,到贾平凹、贾浅浅父女,再到蒋方舟等中生代与青年作者,覆盖文坛老中青三代。
一个是生物医学退学博士,一个是普通读书人;一个用的是AI图片查重和统计学工具,一个靠的是肉眼比对和查重软件。两个普通人,凭着各自的“武器”,正在撼动两个领域的权威。
这听起来像是两个“愤青”打假的故事。但仔细一想,这里面还有更多值得思考的地方,那就是AI时代的到来,当普通人也能使用技术工具,监督权不再是少数人的特权,正在交还给每一个会使用工具的人。
当然,更深层的问题是,当一个体系需要靠一个退学博士来纠错时,到底该从哪些方面来改进?
打假门槛低了
这场风暴最让人震惊的地方,不是耿同学有多厉害,而是他用的方法竟然出奇地“低门槛”。
在中国学术圈,过往的学术打假是极少数人的能耐。要么你是同领域学者,要么得像饶毅那样有学界影响又有揭露问题的勇气,普通人连Nature这种期刊的文章都未必能完全读懂,更别提找出数据造假的痕迹了。造假者占尽了所有便宜,专业壁垒让外行人无从下手,学术共同体的“熟人社会”让内行人睁一只眼闭一只眼,期刊审稿人时间精力有限只能基于信任评审。这三个门槛对普通人来说太高了,也因此让造假长期是一种“低成本、高回报”的选择。
而耿同学的打法和所有人都不一样。他不跟你讨论高深的生物学机制,不需要在Nature发过论文才有资格质疑你。他的武器是AI辅助的图片和数据查重技术。
他的操作方法被技术圈拆解过,核心流程其实只有三步:把一篇论文的PDF拆成文本、表格和图片,再把数据交给AI做审查。
具体来说,他重点检查三个地方:
第一,看数据末尾数字分布是否过于集中。真实的实验数据因为测量误差的存在,小数点后一位乃至两位应该是随机分布的,而造假数据则会出现大量“5”“0”或某个数字完全消失的情况。
第二,看不同量表之间的数据有没有雷同。比如基因表达量的数据序列和肿瘤体积的数据序列,本该毫不相干的实验却出现了几个数值完全相同。
第三,用视觉大模型检查图片有没有被篡改或重复使用。
耿同学自己有一句话说得极妙,在揭露中山大学邝栋明的论文造假时,他说:“这不仅是学术界的耻辱,更是造假界的耻辱。连随机数生成器都不会用的人,也配学术造假?”
数据造假被发现,根本原因往往不是造假者技术太差,而是太敷衍。中山大学康铁邦论文中被质疑的实验图片,被网友形容为“像是从不同论文里直接复制粘贴的”。上海大学苏佳灿的论文数据中,一组数据直接呈等差数列,“人为编造痕迹明显”。就连同济大学王平的那篇Nature论文,196只小鼠的体重数据中也出现了一只末位为“0”的离群值,这在统计学上是极不自然的。
耿同学对此的概括非常直白:“编造者甚至没有花心思和时间去做一组随机数据,而是完全随心所欲地人为乱填。如果用心去编,其实我是看不出来的。”
这恰恰说明技术逼出了造假者的真实水平。一个在造假时都不愿意花心思的人,足以说明在这个生态里,造假已经成了一种常规操作,没有人觉得会被发现。
本质上,耿同学只不过是把学术争议从学术辩论降维成了数据判断题。他没有和你去争论学科里面的那些高深的知识,只是从大多数只需要有一定观察与推理能力就可以发现的问题问你:
这组数据的末位分布符合统计学规律吗?这两张图片相似度是多少?这组数据有没有在其他表格中出现过?
这些都是可以用算法来回答的,而且答案只有“是”或“否”,没有任何灰色地带。
不得不说,耿同学这套打法已经成了可复制的、人人都能掌握的工具,只要是有心人都可以试试。
文学圈的回响
如果说耿同学的故事是“技术赋能”的第一版本,那么“抒情的森林”的故事就是第二版本——它同样印证了技术正在把监督权从中心推向边缘,只不过用的是另一种工具。
抒情的森林是谁?从公开信息来看,他是一位普通的读书博主。从2024年10月开始,他陆续公开了数十位作家已出版作品中与其他作家相似的部分语句和段落,引发舆论剧震。
他在一次采访中坦陈:“我从0人关注开始发帖,很少下判断,只呈现文本对比。直到今天,我更多的也只是展示事实本身,将判断交给看帖子的人。”
过去界定抄袭,需要专家意见,需要法律程序,需要大量的专业辩论。而现在,抒情的森林只用了最基础的“文本比对”——这是任何一个识字的人、会使用搜索引擎的人都能独立完成的。
比如,他把贾平凹的《三十未立》和美国作家华盛顿·欧文《英国的农村生活》并列排在一起,让读者看到两段文字几乎完全相同,这样简单的技术工具就可以让传统上依赖专家权威才能做的事情,变成了任何人都能参与的“判断题”。
在这一点上,耿同学和抒情的森林是殊途同归的,一个靠的是AI图片比对和统计学分析,把高深的学术论文变成了数据题;另一个靠的是文本比对和互联网搜索,把模糊的抄袭争议变成了直观对照。
抒情的森林面对“你是不是为了流量”的质疑时的回应同样值得品味。他说:“我无法阻止别人的质疑,甚至欢迎别人的质疑,但大家凡事不要代入过甚,以己度人,流于诛心之论。讲话尽量有理有据,至少我自己是这样要求自己的。你质疑的,有根据吗?”
用证据说话,君子论迹不论心,当证据足够清晰,动机就成了无关变量。


