0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

这篇究极讽刺的文章一出,NLP无了

深度学习自然语言处理 来源:深度学习自然语言处理 2023-09-25 17:08 次阅读

在测试集上预训练?这听起来似乎有点不合常规,但别急,继续往下看!

文章以一项大胆的实验为开端,作者创造了一个高质量的数据集,然而,这个数据集并非来自于人为合成,而是源自huggingface上的众多评估基准数据。

借助这一数据集完成了一个基于 Transformer 的语言模型的预训练,这个模型被命名为 phi-CTNL(发音为“fictional”)。

令人惊讶的是,phi-CTNL 在各类学术基准测试中表现得相当完美,胜过了所有已知的模型。

该研究还发现,phi-CTNL 在预训练计算方面超越了神秘的幂律扩展法则。随着训练轮次的增加,它的性能快速趋近于零。

e5acc378-5b81-11ee-939d-92fbcf53809c.png

此外,phi-CTNL 似乎具备某种超自然的理解能力。在学习过程中,它能够快速而准确地预测下游评估的指标。

e5c67ffc-5b81-11ee-939d-92fbcf53809c.png

是的,这篇文章可不是在搞笑,而是要讽刺那些以前不知道眼前有坑的学术研究。

作者认为,尽管评估和基准测试对于语言模型的发展至关重要,但这个领域经常受到夸夸其谈的宣传,却忽视了数据污染的潜在风险。

作者甚至含蓄地点名了一些模型,例如 phi-1、TinyStories 和 phi-1.5。告诫我们,不要相信任何一个没有隔离数据污染的LLM模型。

这些模型做错了什么呢?

一个在推上测试Phi-1.5的例子引发了众多讨论。例如,如果你截断下图这个问题并输入给Phi-1.5,它会自动完成为计算第三个月的下载数量,并且回答是正确的。

e5d9fffa-5b81-11ee-939d-92fbcf53809c.png

稍微改变一下数字,它也会正确回答。

e5ef3906-5b81-11ee-939d-92fbcf53809c.png

但是一旦你变换格式,它就会完全出错。(这里的格式变化是保留了提示中的所有 ' '。)

e60936b2-5b81-11ee-939d-92fbcf53809c.jpg

另一个例子是一个关于苹果的数学计算问题,phi模型最初可以正确回答问题。

e62942fe-5b81-11ee-939d-92fbcf53809c.jpg

然而,一旦我们改变其中的一个数字,例如从8.5改成7.5,模型会开始出现幻觉现象。

e63ba0ac-5b81-11ee-939d-92fbcf53809c.jpg

为了检查2这个数字有没有被记忆,我们可以把pizza的价格改成10.5.但是phd依然继续输出2(应该为1)。

e65ad116-5b81-11ee-939d-92fbcf53809c.jpg

基于这些发现,研究人员认为Phi-1.5模型的数据污染问题很严重。

通过以不合常规的方式预训练模型,这篇文章提醒我们强调了数据污染的危险性。告诫我们,不要相信任何一个没有隔离数据污染的LLM模型。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2761

    浏览量

    47849
  • 数据集
    +关注

    关注

    4

    文章

    1182

    浏览量

    24419
  • nlp
    nlp
    +关注

    关注

    1

    文章

    464

    浏览量

    21865

原文标题:这篇究极讽刺的文章一出,NLP无了

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于卷积神经网络的组合模型处理NLP任务讽刺检测

    数据为均衡和失衡的讽刺推文数据集,取自Ptacek等2014年的工作和The Sarcasm Detector。移除了用户名、URL、#标记,使用了NLTK Twitter Tokenizer。
    的头像 发表于 07-02 08:37 5925次阅读
    基于卷积神经网络的组合模型处理<b class='flag-5'>NLP</b>任务<b class='flag-5'>讽刺</b>检测

    开关三

    电就导通 一进一出个控制脚 有那种信号可以选择
    发表于 01-06 09:57

    【论文】效应的封装设计

    摘 要 本文介绍种全新的功率半导体封装结构。这种封装结构可以防止模块基板和散热器之间的热介质由于泵效应而造成模块损坏的现象。该封装结构可以有效减少散热基板由于温度变化而产生的弯曲。1、引言目前
    发表于 04-05 15:39

    NLP的面试题目

    NLP面试题目6-10
    发表于 05-21 15:02

    全面拥抱Transformer:NLP三大特征抽取器(CNNRNNTF)比较

    放弃幻想,全面拥抱Transformer:NLP三大特征抽取器(CNNRNNTF)比较
    发表于 05-29 10:43

    NLP的tfidf作词向量

    NLP之tfidf作词向量
    发表于 06-01 17:28

    HDMI2.0 二进一出KVM转换器电路设计资料AG7231参考电路

    `AG7231主要是用在HDMI2.0 二进一出KVM转换器或者HDMI2.0 二切KVM切换器方案设计当中。AG7231设计结构框图如下AG7231详细的参考电路如附件中所示`
    发表于 06-29 17:09

    王兴,带头围观华为第辆车 精选资料分享

    千呼万唤,华为第辆车正式亮相。4月17日,北汽新能源旗下高端品牌狐联合华为发布狐阿尔法S华为HI版。这是华为的第
    发表于 07-27 06:40

    种微小爬壁机器人三维位置测量的新方法

    种 微 小 爬 壁 机 器 人 三 维 位 置 测 量 的新方 法 。笔 者 通 过 深 入 分 析 研 各 种 位 置 测 控 方 法 与 系统 ,提
    发表于 09-20 07:25

    NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍

    本文用简洁易懂的语言,讲述了自然语言处理(NLP)的前世今生。从什么是NLP到为什么要学习NLP,再到如何利用机器学习进行NLP,值得一读。这是该系列的第一部分,介绍了三种
    的头像 发表于 06-10 10:26 7.7w次阅读
    <b class='flag-5'>NLP</b>的介绍和如何利用机器学习进行<b class='flag-5'>NLP</b>以及三种<b class='flag-5'>NLP</b>技术的详细介绍

    NLP-Progress库NLP的最新数据集、论文和代码

    方向是自然语言处理的同学们有福啦,为了跟踪自然语言处理(NLP)的进展,有大量仁人志士在 Github 上维护了一个名为 NLP-Progress 的库。它记录了几乎所有NLP任务的 baseline 和 标准数据集,同时还记录
    的头像 发表于 11-17 09:21 2374次阅读

    一位NLP算法工程师对NLP的看法

    最近的项目就是NLP相关,说一些个人对NLP的看法。直观地看,NLP算法工程师的经验和算法工程师的经验没有太大差别。NLP的发展并不是那么快。如果没有实际的业务需求,
    的头像 发表于 04-24 09:37 5012次阅读

    NLP 2019 Highlights 给NLP从业者的一个参考

    自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理(NLP)领域而言,2019年是令人印象深刻的一年。在这篇博客文章中,我想重点介绍一些
    的头像 发表于 09-25 16:56 1524次阅读

    针对社交媒体的评论讽刺检测模型

    讽刺是日常交际中一种常见的语用现象,能够丰富说话者的观点并间接地表达说话者的深层含义。讽刺检测任务的研究目标是挖掘目标语句的讽刺倾向。针对讽刺语境表达变化多样以及不同用户、不同主题下的
    发表于 03-12 11:49 5次下载
    针对社交媒体的评论<b class='flag-5'>讽刺</b>检测模型

    理解什么是NLP Subword算法

    Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后,各路预训练语言模型如同雨后春笋般涌现,其中Subword算法在其中已经成为标配。所以作为NLP界从业者,
    的头像 发表于 02-22 14:16 413次阅读