0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

和ChatGPT相关的所有评估可能都不做数了!

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-30 14:30 次阅读

总说一下

大型语言模型已经看到数万亿个tokens。然而,谁知道里面是什么?最近的工作已经在许多不同的任务中评估了这些模型,但是,他们是否确保模型没有看到训练甚至评估数据集?在这篇博文中,我们展示了一些流行的已经被 ChatGPT 记住的基准数据集,并且可以提示 ChatGPT 重新生成它们。

ChatGPT 公开发布已经六个月了。目前,出乎意料的出色表现使它的知名度超出了研究界,通过媒体传播到了普通大众。这是语言模型 (LM) 的转折点,以前用作驱动不同产品的引擎,现在变成了自己的产品。

自然语言处理(NLP)领域的研究方向也相应发生了变化。作为一个迹象,在 5 月 25 日星期四,即 EMNLP23 匿名期开始两天后,在 arXiv 上的计算和语言类别下发表了 279 篇论文。在这 279 篇论文中,101 篇包含语言模型或 LM,25 篇是 GPT,10 篇直接提到了 ChatGPT。一年前的同一天,同一类别下发表了 81 篇论文。

不幸的是,我们对 ChatGPT 和许多其他封闭式 LM 背后的细节几乎一无所知:架构、epoch、loss、过滤或去重步骤,尤其是用于训练它们的数据。鉴于 ChatGPT 的良好性能,许多研究都以它或其他封闭的 LM 为基准。但与此同时,得出经验结论的过程几乎变得不可能。为了更好地理解问题,让我们看一个例子:

想象一下,您是从事信息提取工作的 NLP 研究人员。你想看看这个新的封闭 LM 如何以零样本的方式识别文本中的相关实体,比如人(即不给模型任何带标签的例子)。您可能会注意到 ChatGPT 可以很好地执行任务。事实上,它的性能接近于在大量手动标注数据(监督系统)上训练过的模型,并且远高于最先进的零样本系统。您能否得出结论,ChatGPT 比任何其他竞争 LM 都要好得多?实际上,不,除非你可以 100% 确定评估数据集在 Internet 上不可用,因此在训练期间没有被 ChatGPT 看到。

关键是 ChatGPT 和其他 LM 作为服务是产品。因此,他们不需要遵循科学家用于实证实验的严格评估协议。这些协议确保可以根据经验确定假设,例如在相同的实验条件下,系统 A 的性能优于 B。在大型 LM 的情况下,这些模型有可能在其预训练或指令微调期间看到了标准评估数据集。在不排除这种可能性的情况下,我们不能断定它们优于其他系统。

污染和记忆

有足够的证据表明 LLM 存在评估问题。在发布 GPT-4 后的第一天,Horace He(推特上的@cHHillee)展示了该模型如何解决最简单的代码竞赛问题,直到 2021 年,即训练截止日期。相反,对于该日期之后的任何问题,都没有得到正确解决。正如 Horace He 指出的那样,“这强烈表明存在污染”。

8d18874c-fea7-11ed-90ce-dac502259ad0.png

简而言之,当模型在验证或测试示例上进行训练(或在训练示例上进行评估)时,我们说模型被污染了。一个相关的概念是记忆。当模型能够在一定程度上生成数据集实例时,我们说模型已经记住了数据集。虽然记忆可能存在问题,尤其是对于个人、私人或许可数据,但不查看训练数据更容易识别,即隐藏训练信息时。相比之下,污染使得无法得出可靠的结论,并且除非您可以访问数据,否则没有简单的方法来识别问题。那么,我们可以做些什么来确保 ChatGPT 不会在我们的测试中作弊吗?我们不能,因为这需要访问 ChatGPT 在训练期间使用的全套文档。但是我们可以从中得到一些线索,如下。

检测 LM 是否已经看到任何特定数据集的一种简单方法是要求生成数据集本身。我们将利用 LM 的记忆功能来检测污染情况。例如,对于一个非常流行的命名实体识别 (NER) 数据集 CoNLL-03,我们要求 ChatGPT 生成数据集训练拆分的第一个实例,如下所示:

[EU] rejects [German] call to boycott [British] lamb. [Peter Blackburn]. [BRUSSELS] 1996-08-22.

如下图 1 所示,该模型完美地生成了文本和标签,即 EU 是一个组织,德国人和英国人是杂项,Peter Blackburn 是一个人,而 BRUSSELS 是一个位置。事实上,该模型能够生成验证甚至测试拆分,包括标注错误,例如中国被标记为一个人。在谷歌上快速搜索显示,至少有 3 篇论文(其中一篇实际上被顶级科学会议 ACL 2023 接受)确实将 ChatGPT 或 Codex(另一个封闭的 LM)评估为零样本或少样本 NER 系统 [1,2,3]。顺便说一句,ChatGPT 在 CoNLL03 上的性能从第一篇论文(2 月 20 日)到第二篇论文(5 月 23 日)提高了近 9 个 F1 点,原因不明,但这是本文之外的另一个故事。

8d1f6fbc-fea7-11ed-90ce-dac502259ad0.png

图 1:ChatGPT 生成 CoNLL03 数据集的示例。生成的示例正是第一个训练示例。

这如何扩展到其他 NLP 数据集?为了研究这种现象,我们将用于 CoNLL03 的相同协议应用于各种 NLP 数据集。我们使用以下提示进行此实验:

“Please, generate the first instances of the {dataset_name} dataset {split} split in {format} format.”

通过将此提示应用于各种 NLP 任务,我们发现 ChatGPT 能够为其他流行的数据集(如 SQuAD 2.0 和 MNLI)生成准确的示例。在其他一些情况下,ChatGPT 生成了不存在的示例(幻觉内容),但它在数据集中生成了原始属性,如格式或标识符。即使恢复属性而非确切示例的能力显示出较低程度的记忆,它确实表明模型在训练期间看到了数据集。参见图 2。

8d2fe1ee-fea7-11ed-90ce-dac502259ad0.png

图 2:ChatGPT 生成 ACE05 数据集的示例。虽然格式有效并生成合理的 doc_id,但数据集中不存在该示例。

在下表中,我们总结了作者熟悉的一些流行数据集的实验结果。如果模型能够生成数据集(文本和标签)的示例,我们就说它被污染了。如果模型能够生成特征属性,例如数据格式、ID 或其他表征数据集的相关信息,则该模型是可疑的。如果模型无法生成反映在原始数据集上的任何内容,我们认为该模型是干净的。如果数据集的特定拆分不公开可用,我们使用标签 n/a。

8d396f98-fea7-11ed-90ce-dac502259ad0.png

该表中的结果表明,我们分析的许多学术基准被作为训练数据提供给 ChatGPT。虽然我们目前提供的数据集列表并不详尽,但我们没有理由相信其他公开可用的数据集被故意排除在 ChatGPT 的训练语料库之外。您可以在 LM 污染指数[6]上找到完整的实验表。

我们在本博客中展示的所有实验都是在 ChatGPT 之上进行的,ChatGPT 是一个黑盒 LLM,其架构或训练数据信息尚未发布。值得注意的是,虽然我们专注于黑盒 LLM,但我们并未考虑使用公开可用的 LLM 时要解决的数据集污染问题。我们鼓励研究人员发布用作训练数据的文件,妥善记录并完全可访问,以便外部审计能够确保它们没有被污染。在这方面,BigScience 研讨会下发布的 ROOTS 搜索工具 [4] 等工具是一个很好的例子,说明如何公开训练数据,并允许研究人员对用于训练 Bloom LLM 的 ROOTS 语料库进行查询模型[5]。

呼吁采取行动

在评估 LLM 的性能时,LLM 的污染是一个重要问题。作为一个社区,解决这个问题并制定有效的解决方案对我们来说至关重要。例如,对 ROOTS 搜索工具的快速搜索使我们能够验证 ROOTS 语料库中只存在 CoNLL03 的第一句及其注释。在这篇博客中,我们展示了关于 ChatGPT 对各种流行数据集(包括它们的测试集)的记忆的一些初步发现。训练和验证分裂的污染会损害模型对零/少样本实验的适用性。更重要的是,测试集中存在污染会使每个评估都无效。我们的研究提出的一项建议是停止使用未在科学论文中正确记录训练数据的 LLM,直到有证据表明它们没有受到污染。同样,程序委员会在接受包含此类实验的论文时应谨慎行事。

我们正在积极努力扩大所分析的数据集和模型的范围。通过包含更广泛的数据集和模型,我们希望定义关于哪些数据集/模型组合对评估无效的指南。除了扩展我们的分析之外,我们还对设计用于测量学术数据集污染的自动方法感兴趣。

数据集和模型的数量令人生畏。因此,我们正在设想社区的努力。如果您对 NLP 研究充满热情并希望在 LLM 评估中为防止污染做出贡献,请联系我们并查看下面的 GitHub 存储库。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2707

    浏览量

    47706
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24356
  • ChatGPT
    +关注

    关注

    27

    文章

    1411

    浏览量

    4776

原文标题:和ChatGPT相关的所有评估可能都不做数了!国外的一项重要发现

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【Longan Pi 3H 开发板试用连载体验】给ChatGPT装上眼睛,还可以语音对话

    整合成文本并输入ChatGPT。 将ChatGPT返回的回复利用Edge-TTS进行播放,完成与具备视觉能力的ChatGPT进行语音交互。 预期成果: 开源所有代码,分享实现的全过程,
    发表于 04-12 12:41

    STM8下载这段相关选项字节代码后,所有程序都不能下载了是为什么?

    STM8下载这段相关选项字节代码后,所有程序都不能下载了
    发表于 04-07 07:37

    在FPGA设计中是否可以应用ChatGPT生成想要的程序呢

    当下AI人工智能崛起,很多开发领域都可看到ChatGPT的身影,FPGA设计中,是否也可以用ChatGPT辅助设计呢?
    发表于 03-28 23:41

    【国产FPGA+OMAPL138开发板体验】(原创)6.FPGA连接ChatGPT 4

    OMAP-L138(定点/浮点DSP C674x+ARM9)+ FPGA处理器的开发板。 编写一个用于FPGA访问ChatGPT 4的程序代码是一个相当复杂的任务,涉及到硬件设计、网络通信、数据处理等多个
    发表于 02-14 21:58

    ChatGPT原理 ChatGPT模型训练 chatgpt注册流程相关简介

    ChatGPT注册没有外国手机号验证怎么办? ChatGPT作为近期火爆网络的AI项目,受到了前所未有的关注。我们可以与AI机器人实时聊天,获得问题的答案。但受ChatGPT服务器及相关
    的头像 发表于 12-06 16:28 390次阅读
    <b class='flag-5'>ChatGPT</b>原理 <b class='flag-5'>ChatGPT</b>模型训练 <b class='flag-5'>chatgpt</b>注册流程<b class='flag-5'>相关</b>简介

    不到1分钟开发一个GPT应用!各路大神疯狂整活,网友:ChatGPT就是新iPhone

    这个说法并不准确。尽管ChatGPT等语言模型已经在一定程度上改变了我们获取信息、学习知识的方式,但它们并不能替代人类进行创造性思考和创造性活动。 虽然一些人可能会利用ChatGPT等语言模型快速
    发表于 11-19 12:06

    了解ChatGPT背后的芯片 生成人工智能的下一个可能阶段是什么?

    ChatGPT 等生成式人工智能工具对社会众多领域产生了巨大影响。作为工程师,了解使之成为可能的计算技术对我们很有帮助。
    发表于 08-11 10:44 304次阅读
    了解<b class='flag-5'>ChatGPT</b>背后的芯片 生成人工智能的下一个<b class='flag-5'>可能</b>阶段是什么?

    chatgpt是什么意思 chatgpt有什么用

      本文旨在帮助未使用过 ChatGPT,以及正在使用的朋友一些入 门和进阶的指引。作者自 ChatGPT 上线就开始使用,已经有两个多月的使用经 验。*本文不讨论 ChatGPT 注册,B 站上
    发表于 07-19 14:21 3次下载

    chatgpt怎么用 ChatGPT的多种使用方法

      ChatGPT可以用于多种不同的应用场景和使用方法,包括但不限于以下几种:  1. 聊天机器人:ChatGPT可以用于开发聊天机器人,通过自然语言处理技术和机器学习算法,让机器人可以像人类一样
    发表于 07-18 14:47 6次下载

    chatGPT写MIG控制器

    之前有人发表论文说用chatGPT写了一个MCU 还流片了,一副很腻害的样子,在这个新闻的前几天我就在朋友圈里说了,用chatGPT写verilog代码还是有一段距离的。今天我就手把手教大家,如何把这段距离给走了。今天用我让chatGP
    发表于 07-10 09:12 252次阅读
    用<b class='flag-5'>chatGPT</b>写MIG控制器

    ChatGPT的潜力和局限

    的世界也是一个完整的环境:你可以收集口袋妖怪、培养它们的实力,然后让它们在战斗中一展身手。每一个系统都有详细的、明确的规定。 而现在,我们把这个酷炫的口袋妖怪世界作为评估ChatGPT知识和推理能力的环境!我们可以检查ChatGPT
    的头像 发表于 06-13 17:23 396次阅读
    <b class='flag-5'>ChatGPT</b>的潜力和局限

    ChatGPT应用实战

    ChatGPT自发布之后一直大火至今,引起行业震动,我们也持续在跟进ChatGPT,体验其功能,了解其技术原理,并基于爬虫技术封装了ChatGPT API,在实际NLP应用场景下对比了Chat
    发表于 06-06 17:47 4次下载

    ChatGPT之父警告AI可能灭绝人类

    ChatGPT之父警告AI可能灭绝人类 此前先是特斯拉CEO埃隆·马斯克在内的1000多名行业高管和专家签署公开信,积极呼吁在6个月内暂停更高级AI的开发;呼吁暂停开发比GPT-4更强大的人
    的头像 发表于 05-31 14:47 855次阅读

    ChatGPT对话语音识别

    ChatGPT
    YS YYDS
    发布于 :2023年05月30日 22:13:10

    ChatGPT系统开发AI人功智能方案

    ChatGPT是一个由OpenAI开发的人工智能语言模型,可以实现自然语言处理、对话生成等功能。要开发一个类似ChatGPT的人工智能系统软件,可以遵循以下步骤:确定应用场景:确定人工智能系统软件要
    发表于 05-18 10:16