据说,中国高校里,AIGC检测已经成为不少高校毕业论文必经之路。已经有300多个高校要求做AIGC检测,覆盖87%的985学校。
提供这些AI检测服务的有不少知名公司。而且这些公司的AIGC检测率,会成为高校评价这些论文的重要指标。
事实上,现在对AI生成的文本进行检测是根本不可能的。
可是,如果AI检测真的是骗子,那怎么会有这么多高校都采用?
要理解这个现象,我们不妨先回顾两段并不遥远的历史。
80年代的特异功能
第一段历史,是1980年中国掀起的一股气功和特异功能热潮。人民日报还刊登报道,有儿童可以透视识字。时值改革开放早期,邓小平提出科学技术是第一生产力,中国人从平民到学术界都对科学充满极高的热情,钱学森都表示要用系统的方法进行研究。
其中最有名的气功大师张宝胜多次表演耳朵认字、透视能特异功能,甚至在1983年得以进入国防科工委507所工作。那10多年时间里,在全国各地进行了多场表演,与各大高校、研究院开展了学术研究和学术汇报。其中,虽然何祚庥在1988年就指控他为骗子,但是仍然不影响他招摇撞骗,两年后还得以出版《超人张宝胜》的自传。
1995年,张宝胜在北京电视台表演抖药片,由于事先抖出来藏在身上的鱼肝油药丸受热粘结,结果粘在张宝胜手中无法抖下,出尽洋相。随着作伪作假的事实被揭露,张宝胜因涉嫌诈骗和扰乱社会治安等罪,被批准逮捕。
值得注意的是,1995年《北京青年报》登发了何祚庥等三人写出《“超人”张宝胜走麦城》揭露其作假的事实,而这篇文章,其实是何祚庥1988年在507所观摩其特异功能表演时写出的,压了7年才发表。
2000年的摩尔探测仪
第二段历史在21世纪的第一个十年。摩尔探测仪是美国Quadro公司发明的探测装置,宣称利用分子共振和人体静电等技术实现远程定位爆炸物或毒品。这种装置由一个中空的盒子和一根天线组成,芯片由两片塑料夹一片纸组成,成本大约2美元。
公司CEO麦考密克是英国人(跟格拉斯哥大学著名学者同名),他是这样介绍其工作原理的:每种物质都有其特定的分子结构,就好比人类的DNA一样,这就意味着几乎所有的物质都有其本身的特征。摩尔就是根据物质的分子结构,赋予物质一个特征,并且将这些特征固化到主机的记忆卡中。这样,摩尔即可对附近区域中所有具有类似特征的物质进行定位。
华南理工大学物理系教授全宏俊说:“我不能理解这样的工作原理,最难以置信的是探测器竟不需要电源,而人体产生的静电十分微弱。”
在中国首先大规模引进的是重庆,在2007年,重庆从英国进口3000多支探测器将陆续装备执法人员。而大面积普及则在2008年。公安部2008年曾大批购买摩尔探测器用于奥运会、春运等安保工作,每套探测器采购单价普遍为28万元人民币。在一篇《科技点亮奥运之火 北京奥运会9大科技看点》的官方新闻稿中,官方称“北京奥运会有嗅觉灵敏的摩尔探测仪保驾护航”。
伊拉克政府耗资8500万美元购买了大批麦考密克公司的假探测器,供包括英军把守的公路检查站使用,导致英军和伊拉克军民严重死伤,引起人们怀疑。
2002年,美国圣地亚国家实验室对摩尔探测器进行了双盲测验揭露了这个骗局。
4个箱子分布在室内不同角落,其中一个藏有炸药,共进行两阶段实验。第一阶段是“基线测试”。测试人员随机放置爆炸物,并将位置告诉操作员,操作员使用摩尔探测器进行20次探测,结果定位100%准确;第二阶段是“双盲测试”。在双方均不知道炸药位置的情况下,操作员用摩尔探测器进行20次探测,结果仅有6次成功。在统计学意义上,这并不比随机查找的结果好。
2013年,麦考密克因诈骗罪被判刑10年。
骗局的共性
这几个故事中,有几个共同点。
- 以科学为幌子,让人觉得很专业高深;
- 虽然有学者的质疑,但仍被诸多官方机构采用;
- 诈骗者满足了社会的心理诉求,甚至让学者的质疑噤声;
- 有利益绑定,上下游默契;
- 诈骗者要10年以上才受到制裁。
回到AI检测,它从第一性原理上就不成立。
AI生成的内容跟人类的文字在形式上完全一致,又没有水印或者大模型厂商专门植入的“隐形水印”那样可被可靠提取的特征。现在的AI连生成的源头都缺乏可解释性。包括OpenAI在内的最尖端最懂AI的大模型科学家都惊叹的都是“它竟然可以做出来!(It actully works)”,反过来,怎么会有非这条路线上的人能越狱“鉴别AI”呢?
我们确实发现,不同的AI工具,生成的内容确实风格不同,ChatGPT和Deepseek就能构成差异。可是,这种差异是一种稳定的pattern吗?并不是。这些风格差异不仅仅是基础模型带来的,还跟后续的训练数据集、context有关,甚至最简单的提示词都可以极大程度地改变这种pattern。
今天的AI还在飞速发展,模型结构的升级迭代以月为单位,根本就还没收敛。你要做AI safety,只能在大模型公司内部做。比如Ilya在OpenAI负责的超级对齐部门,比如Anthropic在训练数据的时候就要关注伦理,而不是套个壳就能来做AI判官的。
这些AI检测服务商,他们既没有模型训练能力,也不是大模型公司内部的人,他凭什么有能力来检测这些结果。
利益的绑定
AI检测服务的价格是千字2元。按照中国一年1000万份论文来算,光是这个服务能带来上亿元的收入。
我们看看检测的结果如何。
网上说了很多AI率过高的,自己手打的论文,竟然被判定是AI。马克思《资本论》中商品是天生的平等派的经典论述,AI率竟高达 71.3%。
这是因为,AI检测软件大部分使用算法是衡量混乱度 (Perplexity),AI生成文字在语言模型眼中可能更平滑,缺少随机性,甚至有时过于完美;人类写的比较混乱。
然而这反而导致了有些人写的论文非常严谨,反而AI率高,要把一些语言改成病句或者换种别扭的表达,才能把AI率降下来。师生苦不堪言。
把非AI判定为AI,这是统计学中的第一类错误,错拒。
大概是舆论太盛,最近算法大概又调整了。
我花钱做了一些测试。无论是我自己在2005年写的,还是现在我用ChatGPT、DeepSeek写的AI段落,AI率都极低。
从第一类错误到第二类错误,漏报。
虽然都是错误,至少师生开心了,学校也似乎守住了学术规范的底线。
每人给AI检测服务贡献20元,大家表演了一圈,默契地接受下来。
除了高校,在一些内容平台(比如某信、某乎)上,也会出现AIGC检测。
被错判为AI的内容,轻则不给流量,重的删文封号。
又有的内容,私下认识作者的人都知道全是AI生成的,明晃晃地在平台上存活。
无论是高校,还是内容平台,确实需要控制AI内容。但是AIGC检测软件,并没有真的在筛选AI内容,而只是在表演筛选AI内容。
双盲实验
要判断一个东西是不是骗局,只要一个简单的手段:双盲实验。也是当时何祚庥和美国圣地亚国家实验室揭露这些骗局的方式。
双盲实验太容易了,只要搜集几百篇AI文和人类写的文章,丢到AI检测服务里,模型最多只要跑几十分钟。
但现在仍然没有一个AI检测服务能通过双盲实验。比如德国波鸿做了类似的研究发现,AI生成技术一旦在语言风格上模仿人类更自然,或通过改写工具进行去AI化处理,几乎是无法识别的。
不知道我们是不是需要等十年,等到2035年,才能把号称可以做第三方AI检测的骗子送进去。
即使骗子还没进去,这个过程中,希望政府、监管机构、企事业单位的负责人不要轻信AI检测的结果。
比如说,企业在引入新的管控AI的服务商之前,要求其提交其有效性的科学证明(强度不低于双盲实验);或者在立法和监管上,不要给平台下达不切实际的AI检测要求;更不能实际投入用于对人的作品的评价。
不是说不应该控制AIGC的内容,而是这是一个从根本上就不成立的手段。
参考资料
[1] 搜狐网. (2025, May 22). 1988年何祚庥赴507所看张宝胜表演:表演接连变卦、突现调包行为.
[2] BBC UKChina. (2013, April 24). 向中国等地售假探测器 英商被定罪.
[3] Doru, B., Maier, C., Busse, J. S., Lücke, T., Schönhoff, J., Enax-Krumova, E., Hessler, S., Berger, M., & Tokic, M. (2025). Detecting Artificial Intelligence–Generated Versus Human-Written Medical Student Essays: Semirandomized Controlled Study. JMIR Medical Education, 3(1), e62779.
发表回复