0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

和ChatGPT相关的所有评估可能都不做数了!

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-30 14:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

总说一下

大型语言模型已经看到数万亿个tokens。然而,谁知道里面是什么?最近的工作已经在许多不同的任务中评估了这些模型,但是,他们是否确保模型没有看到训练甚至评估数据集?在这篇博文中,我们展示了一些流行的已经被 ChatGPT 记住的基准数据集,并且可以提示 ChatGPT 重新生成它们。

ChatGPT 公开发布已经六个月了。目前,出乎意料的出色表现使它的知名度超出了研究界,通过媒体传播到了普通大众。这是语言模型 (LM) 的转折点,以前用作驱动不同产品的引擎,现在变成了自己的产品。

自然语言处理(NLP)领域的研究方向也相应发生了变化。作为一个迹象,在 5 月 25 日星期四,即 EMNLP23 匿名期开始两天后,在 arXiv 上的计算和语言类别下发表了 279 篇论文。在这 279 篇论文中,101 篇包含语言模型或 LM,25 篇是 GPT,10 篇直接提到了 ChatGPT。一年前的同一天,同一类别下发表了 81 篇论文。

不幸的是,我们对 ChatGPT 和许多其他封闭式 LM 背后的细节几乎一无所知:架构、epoch、loss、过滤或去重步骤,尤其是用于训练它们的数据。鉴于 ChatGPT 的良好性能,许多研究都以它或其他封闭的 LM 为基准。但与此同时,得出经验结论的过程几乎变得不可能。为了更好地理解问题,让我们看一个例子:

想象一下,您是从事信息提取工作的 NLP 研究人员。你想看看这个新的封闭 LM 如何以零样本的方式识别文本中的相关实体,比如人(即不给模型任何带标签的例子)。您可能会注意到 ChatGPT 可以很好地执行任务。事实上,它的性能接近于在大量手动标注数据(监督系统)上训练过的模型,并且远高于最先进的零样本系统。您能否得出结论,ChatGPT 比任何其他竞争 LM 都要好得多?实际上,不,除非你可以 100% 确定评估数据集在 Internet 上不可用,因此在训练期间没有被 ChatGPT 看到。

关键是 ChatGPT 和其他 LM 作为服务是产品。因此,他们不需要遵循科学家用于实证实验的严格评估协议。这些协议确保可以根据经验确定假设,例如在相同的实验条件下,系统 A 的性能优于 B。在大型 LM 的情况下,这些模型有可能在其预训练或指令微调期间看到了标准评估数据集。在不排除这种可能性的情况下,我们不能断定它们优于其他系统。

污染和记忆

有足够的证据表明 LLM 存在评估问题。在发布 GPT-4 后的第一天,Horace He(推特上的@cHHillee)展示了该模型如何解决最简单的代码竞赛问题,直到 2021 年,即训练截止日期。相反,对于该日期之后的任何问题,都没有得到正确解决。正如 Horace He 指出的那样,“这强烈表明存在污染”。

8d18874c-fea7-11ed-90ce-dac502259ad0.png

简而言之,当模型在验证或测试示例上进行训练(或在训练示例上进行评估)时,我们说模型被污染了。一个相关的概念是记忆。当模型能够在一定程度上生成数据集实例时,我们说模型已经记住了数据集。虽然记忆可能存在问题,尤其是对于个人、私人或许可数据,但不查看训练数据更容易识别,即隐藏训练信息时。相比之下,污染使得无法得出可靠的结论,并且除非您可以访问数据,否则没有简单的方法来识别问题。那么,我们可以做些什么来确保 ChatGPT 不会在我们的测试中作弊吗?我们不能,因为这需要访问 ChatGPT 在训练期间使用的全套文档。但是我们可以从中得到一些线索,如下。

检测 LM 是否已经看到任何特定数据集的一种简单方法是要求生成数据集本身。我们将利用 LM 的记忆功能来检测污染情况。例如,对于一个非常流行的命名实体识别 (NER) 数据集 CoNLL-03,我们要求 ChatGPT 生成数据集训练拆分的第一个实例,如下所示:

[EU] rejects [German] call to boycott [British] lamb. [Peter Blackburn]. [BRUSSELS] 1996-08-22.

如下图 1 所示,该模型完美地生成了文本和标签,即 EU 是一个组织,德国人和英国人是杂项,Peter Blackburn 是一个人,而 BRUSSELS 是一个位置。事实上,该模型能够生成验证甚至测试拆分,包括标注错误,例如中国被标记为一个人。在谷歌上快速搜索显示,至少有 3 篇论文(其中一篇实际上被顶级科学会议 ACL 2023 接受)确实将 ChatGPT 或 Codex(另一个封闭的 LM)评估为零样本或少样本 NER 系统 [1,2,3]。顺便说一句,ChatGPT 在 CoNLL03 上的性能从第一篇论文(2 月 20 日)到第二篇论文(5 月 23 日)提高了近 9 个 F1 点,原因不明,但这是本文之外的另一个故事。

8d1f6fbc-fea7-11ed-90ce-dac502259ad0.png

图 1:ChatGPT 生成 CoNLL03 数据集的示例。生成的示例正是第一个训练示例。

这如何扩展到其他 NLP 数据集?为了研究这种现象,我们将用于 CoNLL03 的相同协议应用于各种 NLP 数据集。我们使用以下提示进行此实验:

“Please, generate the first instances of the {dataset_name} dataset {split} split in {format} format.”

通过将此提示应用于各种 NLP 任务,我们发现 ChatGPT 能够为其他流行的数据集(如 SQuAD 2.0 和 MNLI)生成准确的示例。在其他一些情况下,ChatGPT 生成了不存在的示例(幻觉内容),但它在数据集中生成了原始属性,如格式或标识符。即使恢复属性而非确切示例的能力显示出较低程度的记忆,它确实表明模型在训练期间看到了数据集。参见图 2。

8d2fe1ee-fea7-11ed-90ce-dac502259ad0.png

图 2:ChatGPT 生成 ACE05 数据集的示例。虽然格式有效并生成合理的 doc_id,但数据集中不存在该示例。

在下表中,我们总结了作者熟悉的一些流行数据集的实验结果。如果模型能够生成数据集(文本和标签)的示例,我们就说它被污染了。如果模型能够生成特征属性,例如数据格式、ID 或其他表征数据集的相关信息,则该模型是可疑的。如果模型无法生成反映在原始数据集上的任何内容,我们认为该模型是干净的。如果数据集的特定拆分不公开可用,我们使用标签 n/a。

8d396f98-fea7-11ed-90ce-dac502259ad0.png

该表中的结果表明,我们分析的许多学术基准被作为训练数据提供给 ChatGPT。虽然我们目前提供的数据集列表并不详尽,但我们没有理由相信其他公开可用的数据集被故意排除在 ChatGPT 的训练语料库之外。您可以在 LM 污染指数[6]上找到完整的实验表。

我们在本博客中展示的所有实验都是在 ChatGPT 之上进行的,ChatGPT 是一个黑盒 LLM,其架构或训练数据信息尚未发布。值得注意的是,虽然我们专注于黑盒 LLM,但我们并未考虑使用公开可用的 LLM 时要解决的数据集污染问题。我们鼓励研究人员发布用作训练数据的文件,妥善记录并完全可访问,以便外部审计能够确保它们没有被污染。在这方面,BigScience 研讨会下发布的 ROOTS 搜索工具 [4] 等工具是一个很好的例子,说明如何公开训练数据,并允许研究人员对用于训练 Bloom LLM 的 ROOTS 语料库进行查询模型[5]。

呼吁采取行动

在评估 LLM 的性能时,LLM 的污染是一个重要问题。作为一个社区,解决这个问题并制定有效的解决方案对我们来说至关重要。例如,对 ROOTS 搜索工具的快速搜索使我们能够验证 ROOTS 语料库中只存在 CoNLL03 的第一句及其注释。在这篇博客中,我们展示了关于 ChatGPT 对各种流行数据集(包括它们的测试集)的记忆的一些初步发现。训练和验证分裂的污染会损害模型对零/少样本实验的适用性。更重要的是,测试集中存在污染会使每个评估都无效。我们的研究提出的一项建议是停止使用未在科学论文中正确记录训练数据的 LLM,直到有证据表明它们没有受到污染。同样,程序委员会在接受包含此类实验的论文时应谨慎行事。

我们正在积极努力扩大所分析的数据集和模型的范围。通过包含更广泛的数据集和模型,我们希望定义关于哪些数据集/模型组合对评估无效的指南。除了扩展我们的分析之外,我们还对设计用于测量学术数据集污染的自动方法感兴趣。

数据集和模型的数量令人生畏。因此,我们正在设想社区的努力。如果您对 NLP 研究充满热情并希望在 LLM 评估中为防止污染做出贡献,请联系我们并查看下面的 GitHub 存储库。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51716
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26047
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10074

原文标题:和ChatGPT相关的所有评估可能都不做数了!国外的一项重要发现

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    评估 PCB 基材质量的相关参数

    评估PCB基材质量的相关参数主要有玻璃化转变温度Tg,热膨胀系数CTE、PCB分解温度Td、耐热性、电气性能、PCB吸水率。玻璃化转变温度(Tg)聚合物在某一温度之下,基材又硬又脆,称玻璃态:在这
    的头像 发表于 11-18 17:25 532次阅读
    <b class='flag-5'>评估</b> PCB 基材质量的<b class='flag-5'>相关</b>参数

    ChatGPT 智能体发布的观点解析及对科义相关系统的现实意义

    7月18日凌晨,OpenAI 发布通用人工智能代理 ChatGPT 智能体。这一事件蕴含着多层面的深刻意义,同时也为科义巡检机器人和科义视频行为分析系统带来了诸多现实影响。 从技术层面来看,这标志着
    的头像 发表于 07-18 16:31 9152次阅读

    如何评估CAN总线信号质量

    CAN总线网络的性能在很大程度上取决于其信号质量。信号质量差可能导致通信错误,进而引发系统故障、效率降低甚至安全隐患。因此,评估和确保CAN总线信号质量是维护系统健康和可靠性的关键。 在CAN总线网
    发表于 06-07 08:46

    磁芯参数的介绍(可下载)

    磁芯在开关电源里面应用非常的多,但是我们对磁芯里面的一些参数了解的非常的少很多的初学者在应用磁芯的时候,都是去套公式,但对于一些公式里面的参数代表什么意思根本不知道甚至有工作几年的工程师可能都不
    发表于 03-14 14:11 2次下载

    和安信可Ai-M61模组对话?手搓一个ChatGPT 语音助手 #人工智能 #

    ChatGPT
    jf_31745078
    发布于 :2025年03月12日 15:56:59

    OpenAI尝试减少对ChatGPT的审查

    ,这一政策的实施将使得ChatGPT能够回答更多的问题,提供更多的视角。在过去,由于审查机制的存在,ChatGPT对于一些敏感或争议性话题往往保持沉默,不愿过多涉及。然而,随着新政策的推行,ChatGPT将逐渐减少对这类话题的回
    的头像 发表于 02-17 14:42 3634次阅读

    OpenAI免费开放ChatGPT搜索功能

    近日,OpenAI宣布了一项重大决策:向所有用户免费开放ChatGPT搜索功能。这一举措无疑将为用户带来更加高效、智能的搜索体验。 与谷歌等传统搜索引擎的收录模式相比,ChatGPT搜索展现出了独特
    的头像 发表于 02-06 14:35 812次阅读

    使用了一片ADS1198做肌电信号采集,所有通道的数据都不准确,为什么?

    我使用了一片ADS1198做肌电信号采集,初始化成功后用信号发生器产生的正弦波做测试,依次接到1-8通道上,其他通道悬空。在PGA = 1时,除了2通道,其他通道转换后的值都准确,在PGA 等于其他值时,所有通道的数据都不准确,除了2通道,其他通道数据都一致,请问这是因
    发表于 01-22 07:16

    查看和命令相关所有帮助

    下的内容 代码: [root@localhost ~]# ls [选项] [文件名或者目录名]-a显示所有文件--color=when :支持颜色输出,when的默认值是always(总显示颜色),也可以
    的头像 发表于 01-03 09:37 702次阅读
    查看和命令<b class='flag-5'>相关</b>的<b class='flag-5'>所有</b>帮助

    所有级联片子的RLDIN引脚是否都不用同RLDOUT 和RLDINV相连接?

    样本中RLD Configuration with Multiple Device的硬件示例图中只说RLDIN去MUX,想问一下所有级联片子的RLDIN引脚是否都不用同RLDOUT 和RLDINV相连接?
    发表于 01-03 07:00

    OpenAI更新macOS ChatGPT应用,推出“代理”功能实现无缝集成

    OpenAI近日宣布,针对macOS平台的ChatGPT应用程序迎来重大更新,此次更新引入了与多种笔记和编码应用程序的无缝集成功能,极大地提升了用户体验和工作效率。 此次更新的核心亮点在于“代理
    的头像 发表于 01-02 10:49 949次阅读

    OpenAI桌面版ChatGPT新增应用协作功能

    近日,OpenAI宣布了一项重要更新,为桌面版ChatGPT推出了“与应用协作”(Work With Apps)功能。这一新功能旨在支持原生应用程序的自动化协作,为用户带来更加高效和便捷
    的头像 发表于 12-23 10:52 928次阅读

    ChatGPT新增实时搜索与高级语音功能

    在OpenAI的第八天技术分享直播中,ChatGPT的搜索功能迎来了重大更新。此次更新不仅丰富了ChatGPT的功能体系,更提升了其实用性和竞争力。 新增的实时搜索功能,是此次更新的亮点之一
    的头像 发表于 12-17 14:08 922次阅读

    ADCPro怎么评估ads1259?

    现在有ads1259演示套件了也安装好ADCPro了怎么评估1259的性能啊主要是评估哪些参数呢有没有相关的参考呢
    发表于 12-13 06:21

    大联大推出基于MediaTek Genio 130与ChatGPT的AI语音助理方案

    大联大控股,作为亚太地区市场领先的半导体元器件分销商,近日宣布了一项重要创新。其旗下子公司品佳,成功推出了基于联发科技(MediaTek)Genio 130芯片与ChatGPT功能的AI语音助理方案
    的头像 发表于 12-11 11:07 1122次阅读