随着生成式AI工具的日益普及,它在科研场景中的应用也越来越常见。
从一开始的语言润色和结构优化,到如今直接参与段落生成,先不说正确程度如何,如我们所见,AI正在走进更多的学术写作过程之中。最近发表在《Nature Human Behaviour》上的一项研究,首次以大规模统计方式量化了这一趋势。
研究团队分析了2020至2024年间超百万篇科学论文,重点考察了摘要和引言部分的语言特征,寻找由大语言模型(LLM)生成或修改的迹象。结果显示,到2024年9月,计算机科学论文中已有22.5%的摘要可能经过了AI处理,电子工程为18%,统计学12.9%,在生物医学、物理、数学等领域也都检测到明显增长。不同学科的使用率差异,或许与研究者对AI工具的熟悉程度有关。
研究团队并未直接使用现成的AI检测工具,而是自行训练了一个基于词频统计的识别模型。具体来说,他们先从ChatGPT问世前的论文中提取段落,让LLM对其进行摘要,然后再基于摘要提示模型生成完整段落。通过将原始段落和AI生成段落进行对比训练,模型逐渐学会识别某些特定词汇在AI文本中的高频特征,例如“pivotal”“intricate”或“showcase”——这些词在传统学术写作中极为少见,却常出现在AI生成内容中。最终,这一模型被用于分析超过112万篇论文的摘要与引言,以判断其中可能存在的AI写作痕迹。
过去两年,关于AI介入科研写作的讨论一直没有停止。一些早期案例中,论文甚至包含诸如“regenerate response”“my knowledge cutoff”这类AI专属术语,引发广泛关注。有研究者还专门建立数据库,记录这些可疑文本。虽然不少期刊已出台相关规定,但从这项研究的数据来看,AI使用仍在不断增长。
与此同时,AI写作的“隐蔽性”也在增强。一项2023年的实验表明,即使是专业研究人员,也有三分之一的情况下无法识别由ChatGPT生成的医学论文摘要。加上使用者有意规避“高危词汇”,让内容看起来更像人类撰写,使得外部识别变得更加困难。
除了人工辨识的局限性,也有研究试图通过语言模式的微小变化来探测AI写作的痕迹。德国图宾根大学的数据科学家 Dmitry Kobak 领导的一项研究,近期发表于《Science Advances》,即采用“过量词”(excess words)的方法,对PubMed数据库中2010至2024年间收录的超过1500万篇医学论文进行了分析。团队发现,在ChatGPT发布之后,一些原本少见的词汇频率显著上升。研究结果显示,2024年发表的生物医学研究摘要中,大约七分之一可能由AI参与撰写。
这种变化也带来了一些结构性担忧。随着越来越多论文在引用、综述和引言部分依赖AI生成,可能导致语言风格趋同,内容原创性降低。更长远的风险在于,如果未来训练新的语言模型时所使用的语料中,混入大量由AI生成的内容,可能会形成反馈循环,影响模型质量。
不过,也有学者尝试从另一个角度理解AI的潜力。斯坦福大学的研究者正在筹划一次由AI负责写作和审稿的会议,希望检验AI是否具备提出问题、生成研究方法乃至形成新观点的能力。这种实验既是探索也是试探,或许会出现意料之外的亮点,也难免伴随一些荒诞的错误。
不可否认的是,AI写作正在成为科研的一部分。从写摘要、查文献到初稿生成,它逐渐融入了研究者的日常工具箱。在效率提升之外,也带来了新的规范挑战。对整个学术出版系统而言,AI写作正在以一种缓慢但持续的方式融入科研流程——正如此次研究的联合作者James Zou所说:“无论好坏,大语言模型正在成为科学研究过程的一部分。”而这种变化,仍在进行中。
封面来源:Levart_Photographer on Unsplash