当前位置: 首页 > 图灵资讯 > 技术篇> 识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!

来源:图灵教育
时间:2023-06-11 09:14:12

编辑:机器之心

AI 造假的成功率很高,前几天「10 分钟骗 430万」还进行了热搜。研究人员最近探索了一种最受欢迎的大语言模型的识别方法。

随着生成大模型的不断进步,它们生成的语料正逐渐接近人类。虽然大模型正在解放无数文件的手,但它也被一些犯罪分子利用,造成了一系列的社会问题:

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_chatgpt

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_计算机视觉_02

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_人工智能_03

北京大学和华为的研究人员提出了各种识别方法 AI 可靠的文本检测器生成语料。根据文本长度的不同特点,提出了基于长度的文本 PU 多尺度的学习 AI 生成文本检测器训练方法。在同等条件下,通过改进检测器的训练过程,可以在长度和短度上实现 ChatGPT 语料检测能力的可观提高解决了短文本识别精度低的痛点。

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_chatgpt_04

  • 论文地址:https://arxiv.org/abs/2305.18149
  • 代码地址 (MindSpore):https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt
  • 代码地址 (PyTorch):https://github.com/YuchuanTian/AIGC_text_detector

引言

随着大语言模型的生成效果越来越逼真,各行各业迫切需要一个可靠的模型 AI 生成文本检测器。然而,不同的行业对测试语料有不同的要求。例如,在学术界,一般需要测试大量完整的学术文本;在社交平台上,需要测试相对简短和支离破碎的假新闻。然而,现有的检测器往往不能满足各种需求。比如一些主流 AI 文本检测器对较短语料的预测能力普遍较差。

作者观察到不同长度语料的不同检测效果较短 AI 生成文本可能有部分归属「不确定性」;或者更直白地说,因为有些 AI 生成短句也经常被人类使用,因此很难定义 AI 生成的短文本是来自人还是 AI。这里列举了几个人和 AI 回答同一个问题的例子:

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_计算机视觉_05

从这些例子可以看出,很难做到正确 AI 识别生成的简短答案:这种语料与人之间的差异太小,很难严格判断其真实属性。因此,简单地将短文标记为人类 / AI 根据传统的二分类问题进行文本检测是不合适的。

针对这一问题,本研究将人类应用于这一问题 / AI 二分类检测部分转化为一部分 PU(Positive-Unlabeled)学习问题,即在较短的句子中,人的语言是正确的(Positive),机器语言是无标记的(Unlabeled),为了改进训练的损失函数。这种改进可以大大提高各种语料中检测器的分类效果。

算法细节

在传统的 PU 在学习设置下,只能根据正训练样本和无标记训练样本学习二分类模型。常用的 PU 通过制定学习方法 PU loss 估计负样本对应的二分类损失:

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_深度学习_06

其中,

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_深度学习_07

表示正样本和正标签计算的二分类损失;

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_chatgpt_08

表示将所有无标记样本假定为负标签计算的二级损失;

识别「造假ChatGPT」,人工智能生成检测器的效果超过了OpenAI!_计算机视觉_09 title=6352e18ee271039d8ef7b36fbc34.jpeg" style="width: 159px; visibility: visible;"></p><p>表示将样本假定为负标签计算的二分类损失;</p><p style=识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_chatgpt_10

它表示先验正样本的概率,即所有正样本 PU 样本中的估计比例。传统 PU 在学习中,通常会先验

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_人工智能_11

设置为一个固定的超参数。然而,在文本检测场景中,探测器需要处理不同长度的文本;对于不同长度的文本,所有长度相同的样本 PU 样本中的估计比例也不同。因此,本研究是正确的 PU Loss 改进提出了长度敏感的多尺度 PU(MPU)loss 损失函数。

具体来说,本研究提出了一个抽象的循环模型来建模短文本检测。传统的 NLP 在处理序列时,模型通常是马尔可夫链的结构,如 RNN、LSTM 等。这种循环模型的过程通常可以理解为一个逐渐迭代的过程,即每个过程 token 输出的预测是由上一个预测的 token 以及之前序列的预测结果和 token 通过变换和整合获得的预测结果。即以下流程:

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_深度学习_12

为了根据抽象模型估计先验概率,需要假设该模型的输出为正类句子(Positive)可信度,即判断为人所说样本的概率。假设每个 token 贡献的大小是句子 token 长度的反比,是非正(Positive)即无标记(Unlabeled)是的,无标记的概率远远大于为正的概率。随着大型词汇量逐渐接近人类,绝大多数词汇也会同时出现 AI 在人类语料中。根据这个简化的模型和设置的正确模型 token 概率,通过在不同的输入条件下找出模型输出信心的总期望,得到最终的先验估计。

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_深度学习_13

通过理论推导和实验,预测先验的概率随着文本长度的增加而增加,最终逐渐稳定。这种现象也符合预期,因为随着文本的延长,探测器可以捕获更多的信息和文本 「来源不确定性」也逐渐减弱:

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_chatgpt_14

之后,根据样本的长度,对每个样本进行独特的先验 PU loss 计算。最后,因为短文本只有一部分 “不确定性”(也就是说,短文本也会包含一些人或 AI 文本特征),可分为二分类 loss 和 MPU loss 加权作为最终优化目标:

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_计算机视觉_15

另外需要注意的是,MPU loss 适用于长度多样的训练语料。如果现有的训练数据单质化明显,大部分语料都是冗长的文本,就不能充分发挥作用 MPU 方法的功效。本研究还在句子层面引入了一个多尺度的模块,以使训练语料的长度更加多样化。该模块随机覆盖训练语料中的一些句子,并在保留原始顺序的前提下重组剩余句子。经过训练语料的多尺度操作,训练文本的长度大大丰富,从而充分利用 PU 学习进行 AI 文本检测器训练。

实验结果

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_人工智能_16

如上表所示,作者首先处于较短的位置 AI 生成语料数据集 Tweep-Fake 上检验 MPU loss 的效果。数据集中的语料都是推特上的短语段。在传统语言模型微调的基础上,作者对传统二类进行了分类 loss 替换为含有 MPU loss 优化目标。超过其他基线算法,改进后的语言模型检测器效果突出。

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_chatgpt_17

作者又对 chatGPT 通过传统微调获得的语言模型检测器对生成文本进行了测试,在短句中表现不佳; MPU 在同等条件下训练的检测器在短句中表现良好,同时可以使用完整的语言F1在材料上取得了可观的效果-score 提升了 1%,超越了 OpenAI 和 DetectGPT 等 SOTA 算法。

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_深度学习_18

如上表所示,作者在消融实验中观察了各部分的效果增益。MPU loss 加强了长短语料的分类效果。

识别「ChatGPT造假」,效果超越OpenAI,AI生成检测器来了!_人工智能_19

作者还比较了传统 PU 和 Multiscale PU(MPU)。由上表可见 MPU 效果更好,可以更好地适应 AI 多尺度文本检测任务。

总结

作者通过提出基于多尺度的建议 PU 随着未来的发展,学习计划解决了文本检测器识别短句的问题 AIGC 对于这类内容的检测,生成模型的泛滥将变得越来越重要。本研究正在进行中 AI 在文本检测问题上迈出了坚实的一步。我希望未来会有更多类似的研究 AIGC 更好地控制内容,防止内容 AI 滥用生成内容。