斯坦福发文:AI写论文比例激增,CS专业是重灾区,现状堪忧!

斯坦福发文:AI写论文比例激增,CS专业是重灾区,现状堪忧!
2024年04月16日 12:04 大数据_文摘

自从2022年底ChatGPT发布以来,用大模型辅助写学术论文已经不是什么稀罕事,各种“超详细ChatGPT论文写作、润色指南”一搜一大把。

但有些学者可能用得太过火,甚至还有一些一眼假的论文被发表。

比如下面这篇论文,在论文开篇第一句,就暴露了ChatGPT的痕迹:

当然,下面是你的主题的一个可能的介绍:

还有在论文正文中夹杂着chatgpt经典话术:

我很抱歉...我是一个Ai语言模型,我可以提供...

这些毫无意义的措辞居然可以通过合著者、编辑、审稿人、文字校对等重重审核而幸存下来的。

对学术圈而言,直接让饱受幻觉问题困扰的大模型生成论文并发表,是一件可怕的事。这种论文,缺乏大量实验佐证结论,也缺少人类深思熟虑的过程,纯粹是从海量的语料库中拼凑而成,产出虽快但质量堪忧。

当然,这类一眼就能看出问题的论文只是少数。在浩如烟海的学术论文中,AI参与写作的论文究竟由多少呢?

最近斯坦福进行了首个系统性的大规模分析,借鉴人口统计学框架,分析了2020年1月至2024年2月期间共950,965篇论文,其中arXiv有773,147篇,bioRxiv有161,280篇,Nature期刊有16,538篇。arXiv的论文涵盖计算机科学、电气工程与系统科学、数学、物理学和统计学等多个学科领域,得出了一些有趣的结果。

论文标题:

Mapping the Increasing Use of LLMs in Scientific Papers

论文链接:

https://arxiv.org/pdf/2404.01268.pdf

1. 计算机科学论文中AI修改比例最为显著

计算机科学论文中AI修改比例最为显著,到2024年2月,摘要达到17.5%,引言中为15.3%。

相比之下,数学论文和Nature论文增长最少,摘要修改率分别为4.9%和6.3%,引言中分别为3.5%和6.4%。

▲摘要部分
▲引言部分

2. ChatGPT发布以来,论文中某些词汇使用频率激增

作者统计了计算机科学领域arXiv摘要和引言中(2010-2024)的词汇频率变化。下图显示了LLM与人类相比,使用频率显著偏高的前4个词的log odds比随时间的变化。这些词是:领域(realm)、复杂的(intricate)、展示(showcasing)、关键的(pivotal)。

在超过10年的时间(2010-2022)里,这些词汇的使用频率一直保持低位,但自2023年开始突然激增。

这一变化可能是由于LLM在生成文本时,可能会倾向于使用某些特定的词汇或表达方式,从而导致这些词汇在论文中的使用频率出现显著上升。

3. 第一作者在arXiv上发布的预印本数量越多,其使用LLM修改论文得可能性越大

如下图所示,作者统计了2023年第一作者发布预印本的数量,并分为两组:少于等于2和大于等于3。在摘要部分中,预印本数量更多的作者的论文估计有19.3%的句子由AI修改,而发布2个或更少预印本的第一作者的论文为15.6%(图a)。

在引言部分,观察到类似的趋势,发布更多预印本的第一作者的论文,估计有16.9%的句子由LLM修改,而发布较少预印本的第一作者为13.7%(图b)。

考虑到第一作者预印本发布频率可能受到研究领域的影响,作者还分别在arXiv计算机科学的三个子类别中——cs.CV(计算机视觉与模式识别)、cs.LG(机器学习)和cs.CL(计算和语言)进行了验证,这个结论都得到了保持。

这很可能是因为,计算机科学研究社区日益竞争激烈和快速发展的特性,促使研究人员必须采取措施加快写作进程,再加上他们对LLM的了解程度,使用起来更是得心应手。

4.研究领域拥挤,论文相似度较高的领域,其LLM修改率较高

作者首先运用OpenAI的text-embedding-ada-002模型,对arXiv计算机科学论文的摘要和引言进行了嵌入计算。随后,根据这些嵌入之间的相似度,将论文分为两组:一组是相似度较高的论文(其距离低于中位数),另一组则是相似度较低的论文(其距离高于中位数)。

相似度高的论文往往处于相同的子领域或主题,研究发现,这些论文中由AI修改的比例相对较高,大约有22.2%的句子经过了AI的修改。而相似度低的论文中,这一比例则为14.7%。

造成这一结果的原因有几个:一是在写作过程中使用LLM可能会导致论文在内容或写作风格上的相似性增加。二是社区内的压力也可能促使学者们试图模仿LLM生成文本的风格,以使其作品听起来更为一致。三是竞争激烈的子领域迫使研究人员更快地撰写论文并产生类似的研究成果,从而增加了对LLM这类工具的依赖。

5. 较短的论文显示出更高的LLM修改率

作者根据论文的全文(包括附录)单词计数,将论文分为两组:一组是单词数少于或等于5,000个的(这是四舍五入后的中位数),另一组则是单词数超过5,000个的。

从下图中我们可以看到,自ChatGPT发布以来,较短的论文在AI使用率上始终高于较长的论文。到2024年2月,较短论文的摘要部分估计有17.7%的句子是由大型语言模型(LLM)修改的,而较长论文的这一比例仅为13.6%。在引言部分,也观察到了类似的趋势。

考虑到计算机科学会议论文通常有严格的页数限制,较长的论文可能在附录中包含了更多的实质性内容。较低的LLM使用率可能表明,那些致力于撰写更全面工作的研究人员较少依赖LLMs。

评估方法:扩展的分布式语言模型量化框架

本文扩展了[1]提出的分布式语言模型量化(Distributional LLM quantification)框架来评估学术写作中使用AI修改的使用情况。

该框架的关键特性在于它在群体层面运行,无需对任何个体实例进行推断。

正如先前论文所验证的,该框架在计算效率、准确性和泛化能力方面都远超同类方法,在显著的时间分布变化和其他现实分布变化下表现更好。主要包括以下步骤:

1.问题表述:分别为人工编写和LLM修改文档的概率分布。混合分布由以下公式给出:

α

α

α

其中是AI修改文档的比例。目标是基于观察到的文档

α

来估计

2.参数化:为了使可识别,该框架模拟了人工编写和llm修改文档中token出现的分布,对于选择的一组标记,分别表示为和。使用每个token在人工编写和LLM修改文档中的出现概率和来参数化和。

3.估计:使用已知的人工编写文档和LLM修改文档集合来估计出现概率

4.推断:通过最大化观察到的文档在混合分布下的对数似然来估计比例

作者扩展了这个框架以适应学术论文的应用:

生成逼真的LLM生成训练数据

作者采用两阶段方法使用LLM修改论文,因为直接使用LLM对论文标题或关键词进行提示,会得到包含编造结果、证据和无根据或虚构声明的不现实的科学写作样本。

具体来说,对于一个已知未经过LLM修改的论文段落,作者首先使用LLM进行抽象总结,提取关键内容并形成提纲。然后,提示LLM根据提纲生成完整的段落:

▲总结人类撰写段落的中心思想形成大纲
▲使用结构化大纲作为基础生成全面且连贯文本
▲校对所提供的句子以确保语法的准确性

这一两阶段方法可以看作是生成LLM文本的反事实框架:将一个完全由人类编写段落再次交给LLM完成会使什么样的效果?这个额外的抽象总结步骤可以视为内容的控制。这种方法也模拟了科学家在写作过程中可能使用LLM的方式,即科学家首先自己撰写提纲,然后根据提纲使用LLM生成完整的段落。

使用所有词汇进行估计

作者分别在摘要和引言部分使用不同词性的词如形容词、副词和动词评估了LLM修改内容比例(α)的准确性,如下图所示,结果显示形容词、副词和动词在应用中都表现良好。而使用所有词汇可以最小化因词汇选择导致的设计偏见并且在生成稳定估计时更有效率,表现为bootstrap计算出的置信区间更小。因此,作者最终选用了所有词汇进行估计。

总结

通过分析数百万篇论文,本文发现在ChatGPT发布后的短短五个月里,LLM迅速成为了许多学者修改论文的得力助手,特别是在计算机科学领域。大约17%的摘要,15.3%的引言使用大模型参与写作。

计算机科学领域的技术更新节奏飞快,论文发表压力也如影随形。面对这样的挑战,研究人员可能更倾向于借助LLM这样的写作辅助工具。毕竟,谁不想在有限的时间里产出更多高质量的论文呢?除此之外,还可能因为计算机科学家们对LLM更为熟悉,更愿意尝试这种前卫的“写作神器”,以提升写作效率和品质。

当然,虽然LLM在学术写作中确实能发挥一定的辅助作用,但它终究不能完全替代人类的思考和判断。因此,研究人员在使用这些工具时,必须保持审慎和批判性思维,确保生成的文本符合学术规范和要求。同时,学术界也需加强对LLM使用的监管和规范,确保学术研究的真实性和可信度。

参考资料

[1] Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPTon AI Conference Peer Reviews. arXiv preprint arXiv:2403.07183, 2024.[2]https://twitter.com/gcabanac/status/1767574447337124290 

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部