如果你将漂亮国宪法的一部分输入到GPTZero(检测文本是否为AI输出的工具),它会认为这段文本“完全是由AI书写的”。在过去的六个月里,类似的截图在社交媒体上多次疯传,这引起了人们的困惑,甚至引发了一些关于漂亮国开国元勋是否是机器人的笑话。事实证明,将《圣经》的一部分输入到这些工具中,这些工具也会认为这是由AI生成的。
为了解释这些工具为何会犯如此明显的错误(以及其他情况下经常出现假阳性的现象),我们首先需要理解它们是如何工作的。
理解AI检测的概念
不同的AI写作检测器使用略有不同的检测方法,但基本原理相同:有一个AI模型,它被训练来在大量的文本(包括数百万的人类写作实例)中进行学习,并建立一套推断规则,用来判断一段写作是更可能由人类还是AI创作的。
例如,GPTZero的核心是一个神经网络,它在“大量、多样的人类写作和AI生成的文本上进行训练,重点是英语散文”。然后,系统使用像“困惑度”和“突发性”这样的属性来评估文本,进行分类。
在机器学习中,“困惑度”是一种度量标准,用来衡量一段文本与AI模型在训练过程中学习到的内容有多大的偏差。正如AI公司Hugging Face的玛格丽特·米切尔博士所言,“困惑度是‘这种语言基于我所见到的有多惊奇’的函数”。
所以,衡量困惑度的思路是,当AI模型像ChatGPT这样的工具进行写作时,它们会自然地选择它们最熟悉的内容,这些内容来自于它们的训练数据。输出内容越接近训练数据,困惑度就越低。人类是更混乱的作者——或者至少,这是理论上的说法。但人类也可以使用较低的困惑度进行写作,特别是在模仿法律或某些类型的学术写作的正式风格时。此外,我们使用的许多短语实际上是非常常见的。
例如,当我们在猜测"我想要一杯 _____."这个句子的下一个词时,大多数人会在空白处填上"水"、"咖啡"或者"茶"。一个在大量英文文本上训练的语言模型也会做出相同的预测,因为这些短语在英语写作中非常常见。由于预测的确定性较高,所以这三个结果的困惑度都会很低。
"如果一段文本的语言符合模型的训练预期,它的困惑度会很低,因此AI检测器更可能将该文本分类为AI生成的。这导致了一个有趣的现象,那就是漂亮国宪法。从本质上讲,宪法的语言在这些模型中根深蒂固,以至于它们将其误分类为AI生成的。
GPTZero的创造者Edward Tian在接受采访时说,“漂亮国宪法是多次输入到许多大型语言模型训练数据中的文本。因此,许多这些大型语言模型被训练以生成与宪法以及其他常用训练文本类似的文本。GPTZero被设计为预测可能由大型语言模型生成的文本,因此出现了这种迷惑的现象。”
然而,问题在于人类作家也可能创作出困惑度较低的内容(例如,如果他们主要使用常见的短语,如“我想要一杯咖啡”),这大大降低了AI写作检测器的可靠性。
GPTZero测量文本的另一项属性是“突发性”,它指的是在文本中某些词或短语快速连续或“突发”出现的现象。从本质上讲,突发性评估了文本在句子长度和结构上的变异性。
人类作家通常会展现出动态的写作风格,创作出句子长度和结构各异的文本。例如,我们可能会写一个长且复杂的句子,然后再写一个短而简单的句子,或者我们可能在一个句子中使用一连串的形容词,而在下一个句子中不使用。这种变化是人类创造力和自发性的自然表现。
另一方面,由AI生成的文本更倾向于保持一致和规律,至少目前是这样。语言模型仍处在初级阶段,生成的句子长度和结构更为规则。这种缺乏变异性可能导致低突发性得分,表明文本可能是AI生成的。
然而,突发性并不是一个可靠的指标来检测AI生成的内容。就像困惑度一样,也存在例外。人类作家可能以一种高度结构化,一致的风格写作,导致突发性得分低。相反,AI模型可能被训练来模仿更人性化的句子长度和结构的变异性,从而提高其突发性得分。事实上,随着AI语言模型的改进,研究表明,它们的写作看起来越来越像人类的写作。
最后,没有一个万能的公式可以始终区分人类写的文本和机器写的文本。AI写作检测器可以提供一个较为可靠的猜测,但误差范围过大,无法完全依赖它们得出精确的结果。
2023年,马里兰大学的研究人员进行的一项研究从实证上证明,AI生成文本的检测器在实际场景中并不可靠,它们的性能仅比随机分类器稍好。他们不仅返回误报,还存在许多漏报情况。例如,它们可能将人类创作的内容误标为机器生成的内容,或者将机器生成的内容误标为人类创作的内容。更糟糕的是,这些检测器可能会被有意欺诈的行为者所利用,例如通过修改AI生成的文本以使其看起来更像是人类创作的。
因此,尽管AI写作检测器在理论上是一个有用的工具,但在实际应用中,我们可能需要更复杂的解决方案。可能需要结合多种不同的技术,包括但不限于人工智能,并且需要人类的参与和监督,以确保更准确、更公正的内容分类。
总的来说,区分AI生成的文本和人类生成的文本是一个复杂且尚未解决的问题。我们需要更精细、更复杂的工具和方法,以及持续的研究和开发,以提高我们的能力并减少误报。
小编有话要说:这样看来,短期内论文可以放心用AI写啦~
#免责声明#
①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。
②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!
④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。
⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!