EMNLP'24 最佳论文解读 | 大语言模型的预训练数据检测:基于散度的校准方法

点击蓝字

611b930710b4b0cc5b84293c3a4992ce.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

f21f6e6dbe213153f6eada91042b1e34.png

点击 阅读原文 观看作者讲解回放!

作者简介

张伟超,中国科学院计算所网络数据科学与技术重点实验室三年级直博生

内容简介

近年来,大语言模型(LLMs)的训练数据规模在不断扩大,而模型开发者却越来越不愿意公开训练数据的使用信息,这种情况使得审查大模型的数据使用过程是否符合法律法规面临困难。近期,在大模型上进行预训练数据检测的任务开始受到关注,即给定一段文本和一个预训练数据未知的大模型,仅依靠黑盒访问条件来推断该文本被用于大模型的预训练过程。Min-K% Prob方法在一些基准数据集上取得了最好的效果,该方法假设非训练文本往往包含一些具有低词元概率的异常词。然而,该方法容易将包含较多频繁词的非训练文本误分类为训练文本。受信息检索领域的divergence-from-randomness理论启发,他们提出了一种新的预训练数据检测方法DC-PDD来解决这个问题。DC-PDD通过计算词元概率分布与词元频率分布之间的交叉熵(即divergence)作为检测信号。此外,他们提出了一个中文基准数据集PatentMIA,用于评估中文数据检测方法的性能。在现有的基准数据集和PatentMIA上的实验结果表明,DC-PDD显著优于现有方法。

论文地址

https://arxiv.org/pdf/2409.14781

代码链接

https://github.com/ zhang-wei-chao/DC-PDD

Motivation

众所周知,自从在大模型上验证 scaling law 的有效性之后,模型的训练数据规模就开始急剧增加但是模型开发商却越来越不愿意公开有关训练数据的使用信息,这种数据不透明的情况,就使得我们难以审查模型的数据使用过程是否合乎道德,甚至法规。

比如,近期就有不少报道称,在未经授权的情况下,大模型开发商擅自使用了具有敏感信息或者受到版权保护的数据进行训练,侵犯了数据所有者的权益,受到相关的起诉。

此外,有些模型的训练数据中,可能有意或者无意的包含了用于评估模型性能的基准数据集,造成模型性能虚高的假象,这种刷榜现象也对大模型的发展带来了不利影响。

4955b12d8bbf87e05a87d5e75f20ca09.png

鉴于这些现象,大模型的预训练数据检测任务开始受到关注。该任务是指,给定一段文本和一个大语言模型,要求检测出该段文本是否为这个大语言模型的训练数据。然而,需要注意的是,检测过程是不可获知大模型的训练数据信息的。

c12de942d9b9e9c81be4174f34639bb4.png

这里,先简单介绍一下词元概率的概念。即给定一个大模型和一段文本序列,模型对文本中每个词元的概率可计算为,在给定的全部前文信息时,模型预测下一个词元为的概率,也就是这张动态图所示的过程。

现有方法通常认为,模型对一段文本的词元概率分布,可以作为信号,用于检测该段文本是否为模型的训练数据。

例如,一篇发表于ICLR 2024的文章提出一种检测方法认为,模型对一段非训练文本的词元概率分布,与一段训练文本的相比,通常会有更多的词元,被计算得到更低的概率,也可以理解为具有高预测概率的文本更可能是训练文本。

abb5c2d743d1d4c88ffac185cb2b3ebf.png

然而,有研究表明,基于交叉熵损失函数训练得到的语言模型,在进行下一词元预测时,通常会偏好高频词元。这就使得,大语言模型在进行下一词元预测时,倾向于给高频词元赋予更高的预测概率,进而就使得现有基于词元概率的检测方法,容易将包含较多高频词的非训练文本误检为训练文本。

右图展示了一个概念性的例子来阐述这个问题。图中,是一段非训练文本,而是一段训练文本,通过词元概率计算后,整体上,的词元概率高于。因此,现有方法就认为相比于更可能是训练文本,而这与真实情况却是恰恰相反的。所以,本文提出一种新的检测方法来解决这个问题。

9f6771f437861a80e48b0909141f6d06.png

此外,当前的研究主要关注英文文本的预训练数据检测,对非英文文本的研究较少。而实际上,不同语言之间存在着较大的语法差异。以中文为例,它跟英文相比,就没有首字母大写,以及基于空格分隔单词的特点。

因此,这也让研究者好奇,这些特性是否会影响现有方法的检测性能,换句话说,现有方法在非英文文本的检测上是否也能奏效。

34e0c7ded73f8c7ed712141bea63f052.png

A New Benchmark and a Novel Method

因此,为了弥补上述的研究空白,本篇工作主要做了两点:一是构造了一个非英文的基准数据集,具体来说是中文,用于评估现有方法在非英文文本上的检测效果;二是提出了一种新的检测方法,并证实该方法的有效性。

A Non-English Benchmark

该基准数据集的数据来源是 Google patent 的网页数据。该网页的数据作为公开数据集 Common Crawl 的数据来源之一,常被用于大模型的预训练过程。因此,可以通过待检测大模型的训练数据截止时间,将发布于此时间节点之前的 Google patent 数据,作为待检测大模型的训练数据,而将发布于此时间节点之后的 Google patent 数据,作为待检测大模型的非训练数据,进而构造得到基准数据集。

具体来说,作者分别爬取了 5000 页发布于 2023 年 1 月 1 日之前和  2024 年 3 月 1 号之后的专利文本作为训练数据和非训练数据。然后对这些文本的预处理方式,跟随一些大型的中文公开语料库的处理方式,使预处理后的文本格式,尽可能接近大模型的预训练数据格式。最后从每页专利文本中抽取一个 512 个词汇长度的片段,得到一个规模为 10000,训练数据与非训练数据等量的基准数据集。

938d43d6a005239fd536f8abf95a35ed.png

表中展示了作者构造的数据集,与现有数据集的统计数据。需要注意的是,本文构造的基准数据集仅适用于,训练数据截止日期在 2023 年 1 月 1 号 至 2024 年 3 月 1 号之间,且支持中文推理的大模型。

0a68408bc2ee350f4be638955b51399a.png

A Novel Method

本文方法受信息检索领域中 Divergence from randomness 理论的启发,该理论是指,如果一个词汇在当前文档内的频率,与该词汇在多个文档中的频率的差异越大,那么该词汇对当前文档而言,就具有越大的信息量。

此处以一个概念性的例子来帮助大家理解这个理论。单词‘the’ 在当前文档中出现的频率较高,同时在大多数其他文档中出现的频率也比较高,因此,‘the’ 对当前文档来说,就不是一个具有大信息量的词汇;反之,单词‘LLM’ 在当前文档中出现的频率较高,但在大多数其他文档中出现的频率却比较低,因此,‘LLM’ 对当前文档来说,就是一个信息量比较大的词汇。

也就是说,一个词汇对当前文档的信息量应该通过该词汇的 文档内频率 与 跨文档频率 二者的差异来度量,也就是局部与全局的差异,而不是仅仅看该词汇在当前文档中出现的频率。

14807c59c14471aa4cf2852e021d9734.png

那么在本文的场景中,DFR 理论下的文档内词频分布,就可以理解为模型对一段文本的词元概率分布,记为 token probability distribution。而 DFR 理论下的跨文档词频分布,就可以理解为模型的训练语料库的词频分布,代表全局的分布情况,记为 token frequency distribution。

dfa4663443ecb2e400af4590121f41a7.png

因此,本文方法就是利用模型对待检测文本的词元概率,与待检测文本中词元在训练语料库中频率 之间的差异来进行检测,只有这种差异大时,才表明当前文本更有可能是训练数据。而不是像现有方法那样仅依靠词元概率进行检测。

8f5527b4c103a5e7deae26f1da910452.png

第一步,先获取模型对待检测文本的词元概率分布,这可以通过将文本输入目标大模型后获取得到,具体的计算过程如动态图所示,每个词元概率都是大模型基于该词元的全部前文信息计算得到的。

6ab3dc9f7c7e69e749ec581e4fc2939a.png

第二步,需要获取大模型预训练语料的词元频率分布,但是由于大模型的训练语料没有公开,所以作者采取了一个公开的大型语料库作为参考语料,来近似计算这个分布。对于计算过程中可能遇到的零概率问题,也就是大模型词表中的某些词元可能在参考语料库中一次也不会出现,文中采取拉普拉斯平滑来解决这个问题。

90ca3bad3071337e1b84aa4a33f1854b.png

第三步,通过对比前面得到的两个分布的差异,为待检测文本计算一个用于最终检测的分数。具体来说,首先依据 DFR 理论计算两个分布的散度,就是将模型对每个词元的概率,与相应词元在语料库中出现的频率的对数相乘后取反,进而为文本中的每个词元得到一个新的值然后,由于个别词元的频率较低,当取对数后值会变得非常大,因此,为了防止最终的分数被个别词元的值所主导,本文设置了一个超参数 a 来控制上限。

最后,因为模型通常会给那些在文本此前出现过的词,赋予较高的预测概率,所以文中仅选取在文本中第一次出现的词对应的值来计算最后的分数。以一个具体示例说明,假设待检测文本为 a cat chased another cat,由于 cat 在第二个位置出现过,那么在模型预测第五个词时,cat 的预测概率会受到第二个位置出现过的影响而自然地被赋予更高的预测概率,因此我们在最终计算时,cat 只是用第二个位置对应的值,也就是第一次出现的时候,而摒弃之后出现的重复词对应的值。

99f3f1bfd2436d6c3a86ff0d0dab79c6.png

第四步,将计算得到的检测分数,与一个提前设定好的阈值进行对比,来给出最终的检测结果。当分数小于阈值时,认为待检测文本不是训练数据;反之,认为待检测文本是训练数据。本文实验中的评估指标跟随大多数现有工作,主要采用 AUC 分数进行评估,因此未涉及具体的阈值设定。

fb47e31f1ab4c551de666ac82b3611a9.png

Experiments

Models And Benchmarks

本实验包含了三组设置,第一组实验的几个目标模型的训练数据截至日期都是在 2017 至 2022 年期间,相应地,现有基准数据集 WikiMIA 的构造也是围绕这个时间节点进行的,它将发布于 Wikipedia 上 2017 年之前的新闻事件的报道文章作为目标模型的训练数据,2022年之后的作为非训练数据。其他两组实验设置也与之类似。

特别要提的是,对于本文构造的 PatentMIA 基准数据集,作者选取了两类发布于2023年期间,且支持中文推理的 Qwen1.5 和 Baichuan 系列大模型。

8dd895a8514197cb003db735f793aa3f.png

Baselines And Metrics

本文方法与 6 种代表性的极限方法进行了对比。其中 Min-k% prob 是在本工作之前在现有数据集上取得最佳效果的方法,而 Min-k%++ prob 是同期工作,是在 Min-k% prob 方法上的改进,也是对词元概率进行了校准再利用其进行检测,只不过是从其他的角度进行校准,而不是从词元频率的角度。

其他几种方法是一些基于参考的检测方法,其目的是为了降低文本自身复杂度对检测的影响,尽管这些方法的性能表现也不错,但由于检测过程需要借助额外的参考物,使得他们在实际应用场景中存在更大的局限性。

在实验的评估指标上,本文与大多数现有工作类似,主要采取了两个评估指标,一个是 AUC 分数,另一个是低假阳性率下对应的真阳性率。

d83b6172754019ac983bb9a8ed18fcf7.png

Main Results

主实验结果如表所示,整体来说,本文方法在多个模型和基准数据集上的表现优于现有方法。

首先是在 WikiMIA 的检测上,这个数据集相比与其余两个规模为 1w 大小的数据集而言较小,只有 250 条数据,同期工作 Min-k%++ Prob 在个别模型的检测效果上优于我们,考虑到 Min-k%++ Prob 方法是从其他角度对词元概率进行校准再进行检测分数计算的方法,我们可以合理地推测词元概率受到多种因素的影响,而不仅仅是词频,因此直接依赖词元概率进行检测是不太稳定的,未来工作也可以从这方面去探索其他校准词元概率的方法,使之更适合检测,或者是更创新地探索更有效的特征来作为训练数据检测的信号。

最后,通过在中文基准数据集上的实验结果表明,除了基于英文大小写特性进行检测的 Lowercase 方法,现有的方法还是适用于中文文本检测的,而且我们的方法仍然取得最佳的效果。

cfcde4efdfbc9bb448c151f60e3e7643.png

Ablation Study

本文所提方法在具体执行过程中,采用了两个策略。首先是在基于词元概率与词元频率计算交叉熵,为文本中的每个词元Xi得到一个新的值α之后,作者设置了一个超参数 a 来控制α的上限,以防止最终的检测分数被个别词元的值所主导,此处记为 LUP 策略。

其次是因为模型通常会给那些在文本此前出现过的词,赋予较高的预测概率,所以仅选取在文本中第一次出现的词对应的值,来计算最后的检测分数,此处记为 SFO 策略。

CLD 表示都不采取两个策略时的方法变体,+ LUP 是指在 CLD 方法变体的基础上纳入第一个策略,+ SFO 是指在 CLD + LUP 方法变体的基础上再纳入第二个策略。

实验结果如图所示,实验结果表明,这两个策略在整体上对所提方法性能的提升都有一定的贡献。但有一点需要注意的是,在检测 GPT-3 时,LUP 策略并没有起到太大的效果,作者推测,可能是因为该策略涉及到超参数设置所导致的,因此后续也对 LUP 中涉及的超参数设置做了进一步分析。

57412b37d1af0723b9924225b721ec80.png

Impact of model size and text length

实验的最后,作者对一些可能影响方法性能的因素做了进一步分析,首先是两个方法无关的因素,待检测模型的大小,以及待检测文本的长度。

左图是检测方法性能随待检测模型大小变化的变化情况,这里本文采取了 Qwen1.5 系列的模型在 PatentMIA 基准数据集上的检测效果。实验结果表明,检测方法的性能随着待检测模型大小的增加而增加,这进一步证实了此前研究的结论,这种现象可能是因为较大的模型具有更大的参数量,使之在记忆和处理文本上的能力更强所导致,其中本文所提方法在各种模型规模设定下一致地优于现有方法。

右图是检测方法性能随待检测文本长度变化的变化情况,这里采取了 Qwen1.5 的 7B 版本模型在 PatentMIA 基准数据集多种长度版本下的检测效果。实验结果表明,检测方法的性能随着待检测文本的长度增加也呈现出增加,这同样证实了此前研究的结论,这可能是较长的文本携带了更多有助于模型记忆文本的的信息所导致的,其中本文所提方法也在各种长度版本设定下一致地优于现有方法。

7dc5245557cce1d99995fe1cf713a769.png

Impact of a reference corpus

最后探讨一下方法相关的两个因素。第一个因素是参考语料库,回顾本方法涉及大模型训练语料库的词元频率分布计算,但因为大模型的训练语料库不可知,作者借助一个公开的大型语料库来近似计算这个分布。

此处的实验探讨了参考语料库的选择对方法性能的影响情况。具体地,作者从语料库的数据规模和数据内容两个维度入手,在数据规模上,探索了分别选择规模大小为 1G 和 10G 时的语料作为参考语料库时,方法的性能表现情况;在数据内容上,探索了分别选择数据来源为网页数据 和 专业领域数据的语料作为参考语料库时,方法的性能表现情况。

实验结果如表中所示,方法性能的变动,受参考语料库的数据规模,和数据内容的影响较小,表明我们的方法在参考语料库的选择上并不敏感。

其中选择为 10 G 的 C4 语料时,方法的表现最好,作者认为是因为该选择,在规模上相较于 1G 更大,在内容上相比于专业领域数据更多样,使得其数据分布更接近原始的训练数据分布,进而能取得更好的性能表现。

62074ae6f66137c4fae83a4913ce40c3.png

Impact of the hyperparameter

另一个因素是前面提到的超参数设置,本文在基于词元概率与词元频率计算交叉熵,为文本中的每个词元得到一个新的值之后,设置了一个超参数 a 来控制的上限,以防止最终的检测分数被个别词元的值所主导。

这里的实验就是想探讨不同大小的超参数设置下,方法性能的变动情况。实验结果如表中所示,方法对该参数还是有一点敏感的,这是因为较高的超参数设置不能有效地限制上限,起不到预期作用,而较低的超参数设置将导致最后为每个词元计算的值都一样,进而使得训练文本和非训练文本的分数相似而难以区分。

但尽管如此,本文的方法在多种超参数设置下仍然取得具有竞争力的性能表现,未来可能可以探索自适应的超参数设置方法来改进这方面的缺陷。

79708c925bdc562cf5489301992164d9.png

Conclusion

首先本文构造了一个新的基准数据集,用于评估现有方法在中文文本上的检测效果,弥补现有研究在这一块上的空白;

其次作者受信息检索领域 DFR 理论的启发,提出一种新的检测方法来校准词元概率,使之更适用于训练数据的检测;

最后通过大量实验进一步证实所提方法的有效性;

在未来工作中,作者表示可能会探索数据集级别的预训练数据检测方法,而不仅仅实现对单条文本的检测。

25e9f3b674bcfc8976a4c5c99fc2ffb4.png

本期文章由陈研整理

往期精彩文章推荐

e03900e78f1997adff1451a19e2e7587.jpeg

AAAI 2025预讲会一作讲者招募|个人和团队报名通道开启

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 bc43c7a758594181a6e96d18edd2ef3f.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

6310970d0907d4f1cc766ca65ff31843.gif

点击 阅读原文 观看作者讲解回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/944726.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[Day 10]有序数组的平方

今天这道题较之前的思路会好理解些,题目链接:977.有序数组的平方 题目描述: 给你一个按 非递减顺序 排序的整数数组 nums,返回 每个数字的平方 组成的新数组,要求也按 非递减顺序 排序。 示例 1: 输入&…

大O算法的魔法世界

引言 嘿,小朋友们,今天我们要一起探索一个神秘的魔法世界——大O算法。这听起来可能有点奇怪,但它其实是一种帮助我们理解计算机程序运行速度的方式。想象一下,我们有很多不同的魔法咒语(算法)&#xff0c…

UE(虚幻)学习(四) 第一个C++类来控制小球移动来理解蓝图和脚本如何工作

UE5视频看了不少,但基本都是蓝图如何搞,或者改一下属性,理解UE系统现有组件使用的。一直对C脚本和蓝图之间的关系不是很理解,看到一个视频讲的很好,我也做笔记记录一下。 我的环境是UE5.3.2. 创建UE空项目 我们创建…

细说STM32F407单片机IIC总线基础知识

目录 一、 I2C总线结构 1、I2C总线的特点 2、I2C总线通信协议 3、 STM32F407的I2C接口 二、 I2C的HAL驱动程序 1、 I2C接口的初始化 2、阻塞式数据传输 (1)函数HAL_I2C_IsDeviceReady() (2)主设备发送和接收数据 &#…

关于easy-es对时间范围查询遇到的小bug

前言:在使用easy-es之前作为一个小白的我只有es原生查询的基础,在自己通过查看官方文档自学easy-es遇到了一个挫折,其他的还好语法和MybatisPlus差不多,正以为我觉得很快就能入手,在对时间范围的判断就给我当头一棒&am…

Flink源码解析之:如何根据算法生成StreamGraph过程

Flink源码解析之:如何根据算法生成StreamGraph过程 在我们日常编写Flink应用的时候,会首先创建一个StreamExecutionEnvironment.getExecutionEnvironment()对象,在添加一些自定义处理算子后,会调用env.execute来执行定义好的Flin…

【代码随想录|完全背包问题】

518.零钱兑换|| 题目链接:518. 零钱兑换 II - 力扣(LeetCode) 这里求的是组合数,就是不强调元素排列的顺序,211和121是同一个数那种,要先遍历物品,这样的话我算出来的每个值才是按顺序121&…

一款汽车连接器(HSD(4+2))信号完整性仿真

下面是一款汽车连接器HSD(42) 的3D外形: 其爆炸图如下: 下面是Rosenboger同款产品的2D图: 其信号完整性参数如下: 下面介绍一下如何给上面的3D模型做信号完整性仿真。 在介绍仿真前先介绍一下上面的一些参数:上面的参数…

安卓/system/bin下命令中文说明(AI)

ATFWD-daemon:AT指令转发守护进程,用于将AT指令从应用层转发到调制解调器。 PktRspTest:数据包响应测试工具。 StoreKeybox:存储密钥盒工具,用于安全地存储加密密钥。 WifiLogger_app:WiFi日志记录应用&…

华为开源自研AI框架昇思MindSpore应用案例:ICNet用于实时的语义分割

ICNet用于实时的语义分割 ICNet 被广泛应用于实时的语义分割领域。它在处理图像数据时,能够以较高的效率进行语义分割操作,为相关领域的研究和实际应用提供了有力的支持。ICNet 的实时性使其在众多场景中都具有很大的优势,例如在视频处理、自…

docker-compose搭建sfpt服务器

1. 搭建 创建sftp目录,进入该目录创建docker-compose.yml文件内容如下: version: 3.7services:sftp:image: atmoz/sftpcontainer_name: sftpports:- "122:22"volumes:- ./sftp-data:/homeenvironment:SFTP_USERS: "liubei:liubei161:10…

跨域请求问题

跨域请求简介 跨域请求:通过一个域的JavaScript脚本和另外一个域的内容进行交互 域的信息:协议、域名、端口号 同域:当两个域的协议、域名、端口号均相同 如下所示: 同源【域】策略:在浏览器中存在一种安全策略就是…

AI发展新态势:从技术突破到安全隐忧

AI安全的新挑战 近期AI领域出现了令人担忧的新发现。根据最新研究,AI模型已经开始展现出策略性欺骗的倾向。具体表现在以下几个方面: 策略性欺骗行为的出现 在实验中发现,当研究人员试图让AI执行一些"反Anthropic"的操作时(如获取模型权限和外部服务器访问),模…

【学生管理系统】环境搭建

目录 1. 环境搭建 1.1 前端环境 1.2 后端环境 1.2.1 父项目 1.2.2 domain项目 1.2.3 gateway项目 1.3 数据库环境 1.3.1 用户数据库 1.3.2 班级数据库 1.3.3 学生数据库 1.3.4 课程数据库 1. 环境搭建 1.1 前端环境 项目名:nacos-nuxt-student-fore 创…

若依数据权限控制

效果 新建用户 表结构 sys_role_dept 这张表的存在。是为了实现数据权限自定义的功能 service层 mapper层 流程

vue源码分析(十)—— 生命周期

文章目录 前言一、关键方法 callHook二、详细的钩子函数说明1.beforeCreate和create2.beforeMount & mounted注意点组件(非根组件)的渲染节点(1)invokeInsertHook函数(2)insert方法(3&#…

【运维】部署MKDocs

部署MKDocs obsidian 记录笔记,通过 mkdocs 私有化部署。 1 使用MKDocs创建笔记 创建仓库,安装 Material for MkDocs 和 mkdocs-minify-plugin mkdir tmp cd tmp git initpip install mkdocs-material pip install mkdocs-minify-pluginmkdocs new .2 …

深度学习——神经网络中前向传播、反向传播与梯度计算原理

一、前向传播 1.1 概念 神经网络的前向传播(Forward Propagation)就像是一个数据处理的流水线。从输入层开始,按照网络的层次结构,每一层的神经元接收上一层神经元的输出作为自己的输入,经过线性变换(加权…

面试突击-JAVA集合类(持续更新...)

前言 这篇文档非常适合面试突击人群,java集合类是面试高频问点,阅读完此文章可以直接应对面试官一切问题,最终吊打面试官。 概览 Java 集合,也叫作容器,主要是由两大接口派生而来:一个是 Collection接口&am…

Ps:创建数据驱动的图形 - 数据组

在 Photoshop 的“变量” Variables对话框中,可以为某一图层定义(或关联)变量并指定变量类型和变量值。 请参阅: 《Ps:创建数据驱动的图形 - 定义变量》 每个实例的变量值的集合构成一个数据组 Data Set。在相应的数据…