识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！-图灵课堂

编辑：机器之心

AI 造假的成功率很高，前几天「10 分钟骗 430万」还进行了热搜。研究人员最近探索了一种最受欢迎的大语言模型的识别方法。

随着生成大模型的不断进步，它们生成的语料正逐渐接近人类。虽然大模型正在解放无数文件的手，但它也被一些犯罪分子利用，造成了一系列的社会问题：

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_chatgpt

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_计算机视觉_02

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_人工智能_03

北京大学和华为的研究人员提出了各种识别方法 AI 可靠的文本检测器生成语料。根据文本长度的不同特点，提出了基于长度的文本 PU 多尺度的学习 AI 生成文本检测器训练方法。在同等条件下，通过改进检测器的训练过程，可以在长度和短度上实现 ChatGPT 语料检测能力的可观提高解决了短文本识别精度低的痛点。

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_chatgpt_04

论文地址：https://arxiv.org/abs/2305.18149
代码地址 (MindSpore)：https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt
代码地址 (PyTorch)：https://github.com/YuchuanTian/AIGC_text_detector

引言

随着大语言模型的生成效果越来越逼真，各行各业迫切需要一个可靠的模型 AI 生成文本检测器。然而，不同的行业对测试语料有不同的要求。例如，在学术界，一般需要测试大量完整的学术文本；在社交平台上，需要测试相对简短和支离破碎的假新闻。然而，现有的检测器往往不能满足各种需求。比如一些主流 AI 文本检测器对较短语料的预测能力普遍较差。

作者观察到不同长度语料的不同检测效果较短 AI 生成文本可能有部分归属「不确定性」；或者更直白地说，因为有些 AI 生成短句也经常被人类使用，因此很难定义 AI 生成的短文本是来自人还是 AI。这里列举了几个人和 AI 回答同一个问题的例子：

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_计算机视觉_05

从这些例子可以看出，很难做到正确 AI 识别生成的简短答案：这种语料与人之间的差异太小，很难严格判断其真实属性。因此，简单地将短文标记为人类 / AI 根据传统的二分类问题进行文本检测是不合适的。

针对这一问题，本研究将人类应用于这一问题 / AI 二分类检测部分转化为一部分 PU（Positive-Unlabeled）学习问题，即在较短的句子中，人的语言是正确的（Positive），机器语言是无标记的（Unlabeled），为了改进训练的损失函数。这种改进可以大大提高各种语料中检测器的分类效果。

算法细节

在传统的 PU 在学习设置下，只能根据正训练样本和无标记训练样本学习二分类模型。常用的 PU 通过制定学习方法 PU loss 估计负样本对应的二分类损失：

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_深度学习_06

其中，

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_深度学习_07

表示正样本和正标签计算的二分类损失；

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_chatgpt_08

表示将所有无标记样本假定为负标签计算的二级损失；

识别「造假ChatGPT」，人工智能生成检测器的效果超过了OpenAI！_计算机视觉_09 title=6352e18ee271039d8ef7b36fbc34.jpeg" style="width: 159px; visibility: visible;"></p><p>表示将样本假定为负标签计算的二分类损失；</p><p style= 识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_chatgpt_10

它表示先验正样本的概率，即所有正样本 PU 样本中的估计比例。传统 PU 在学习中，通常会先验

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_人工智能_11

设置为一个固定的超参数。然而，在文本检测场景中，探测器需要处理不同长度的文本；对于不同长度的文本，所有长度相同的样本 PU 样本中的估计比例也不同。因此，本研究是正确的 PU Loss 改进提出了长度敏感的多尺度 PU（MPU）loss 损失函数。

具体来说，本研究提出了一个抽象的循环模型来建模短文本检测。传统的 NLP 在处理序列时，模型通常是马尔可夫链的结构，如 RNN、LSTM 等。这种循环模型的过程通常可以理解为一个逐渐迭代的过程，即每个过程 token 输出的预测是由上一个预测的 token 以及之前序列的预测结果和 token 通过变换和整合获得的预测结果。即以下流程：

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_深度学习_12

为了根据抽象模型估计先验概率，需要假设该模型的输出为正类句子（Positive）可信度，即判断为人所说样本的概率。假设每个 token 贡献的大小是句子 token 长度的反比，是非正（Positive）即无标记（Unlabeled）是的，无标记的概率远远大于为正的概率。随着大型词汇量逐渐接近人类，绝大多数词汇也会同时出现 AI 在人类语料中。根据这个简化的模型和设置的正确模型 token 概率，通过在不同的输入条件下找出模型输出信心的总期望，得到最终的先验估计。

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_深度学习_13

通过理论推导和实验，预测先验的概率随着文本长度的增加而增加，最终逐渐稳定。这种现象也符合预期，因为随着文本的延长，探测器可以捕获更多的信息和文本「来源不确定性」也逐渐减弱：

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_chatgpt_14

之后，根据样本的长度，对每个样本进行独特的先验 PU loss 计算。最后，因为短文本只有一部分 “不确定性”(也就是说，短文本也会包含一些人或 AI 文本特征)，可分为二分类 loss 和 MPU loss 加权作为最终优化目标：

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_计算机视觉_15

另外需要注意的是，MPU loss 适用于长度多样的训练语料。如果现有的训练数据单质化明显，大部分语料都是冗长的文本，就不能充分发挥作用 MPU 方法的功效。本研究还在句子层面引入了一个多尺度的模块，以使训练语料的长度更加多样化。该模块随机覆盖训练语料中的一些句子，并在保留原始顺序的前提下重组剩余句子。经过训练语料的多尺度操作，训练文本的长度大大丰富，从而充分利用 PU 学习进行 AI 文本检测器训练。

实验结果

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_人工智能_16

如上表所示，作者首先处于较短的位置 AI 生成语料数据集 Tweep-Fake 上检验 MPU loss 的效果。数据集中的语料都是推特上的短语段。在传统语言模型微调的基础上，作者对传统二类进行了分类 loss 替换为含有 MPU loss 优化目标。超过其他基线算法，改进后的语言模型检测器效果突出。

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_chatgpt_17

作者又对 chatGPT 通过传统微调获得的语言模型检测器对生成文本进行了测试，在短句中表现不佳； MPU 在同等条件下训练的检测器在短句中表现良好，同时可以使用完整的语言F1在材料上取得了可观的效果-score 提升了 1%，超越了 OpenAI 和 DetectGPT 等 SOTA 算法。

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_深度学习_18

如上表所示，作者在消融实验中观察了各部分的效果增益。MPU loss 加强了长短语料的分类效果。

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！_人工智能_19

作者还比较了传统 PU 和 Multiscale PU（MPU）。由上表可见 MPU 效果更好，可以更好地适应 AI 多尺度文本检测任务。

总结

作者通过提出基于多尺度的建议 PU 随着未来的发展，学习计划解决了文本检测器识别短句的问题 AIGC 对于这类内容的检测，生成模型的泛滥将变得越来越重要。本研究正在进行中 AI 在文本检测问题上迈出了坚实的一步。我希望未来会有更多类似的研究 AIGC 更好地控制内容，防止内容 AI 滥用生成内容。

识别「ChatGPT造假」，效果超越OpenAI，AI生成检测器来了！

精品课程

技术教程

图灵资讯

图灵内推

图灵公众号