这篇究极讽刺的文章一出，NLP无了-电子发烧友网

在测试集上预训练？这听起来似乎有点不合常规，但别急，继续往下看！

文章以一项大胆的实验为开端，作者创造了一个高质量的数据集，然而，这个数据集并非来自于人为合成，而是源自huggingface上的众多评估基准数据。

借助这一数据集完成了一个基于 Transformer 的语言模型的预训练，这个模型被命名为 phi-CTNL（发音为“fic tional”）。

令人惊讶的是，phi-CTNL 在各类学术基准测试中表现得相当完美，胜过了所有已知的模型。

该研究还发现，phi-CTNL 在预训练计算方面超越了神秘的幂律扩展法则。随着训练轮次的增加，它的性能快速趋近于零。

此外，phi-CTNL 似乎具备某种超自然的理解能力。在学习过程中，它能够快速而准确地预测下游评估的指标。

是的，这篇文章可不是在搞笑，而是要讽刺那些以前不知道眼前有坑的学术研究。

作者认为，尽管评估和基准测试对于语言模型的发展至关重要，但这个领域经常受到夸夸其谈的宣传，却忽视了数据污染的潜在风险。

作者甚至含蓄地点名了一些模型，例如 phi-1、TinyStories 和 phi-1.5。告诫我们，不要相信任何一个没有隔离数据污染的LLM模型。

这些模型做错了什么呢？

一个在推上测试Phi-1.5的例子引发了众多讨论。例如，如果你截断下图这个问题并输入给Phi-1.5，它会自动完成为计算第三个月的下载数量，并且回答是正确的。

稍微改变一下数字，它也会正确回答。

但是一旦你变换格式，它就会完全出错。（这里的格式变化是保留了提示中的所有 ' '。）

另一个例子是一个关于苹果的数学计算问题，phi模型最初可以正确回答问题。

然而，一旦我们改变其中的一个数字，例如从8.5改成7.5，模型会开始出现幻觉现象。

为了检查2这个数字有没有被记忆，我们可以把pizza的价格改成10.5.但是phd依然继续输出2（应该为1）。

基于这些发现，研究人员认为Phi-1.5模型的数据污染问题很严重。

通过以不合常规的方式预训练模型，这篇文章提醒我们强调了数据污染的危险性。告诫我们，不要相信任何一个没有隔离数据污染的LLM模型。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
2761

浏览量
47849
数据集

数据集

+关注

关注
4

文章
1182

浏览量
24419
nlp

nlp

+关注

关注
1

文章
464

浏览量
21865

原文标题：这篇究极讽刺的文章一出，NLP无了

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

基于卷积神经网络的组合模型处理NLP任务讽刺检测

数据为均衡和失衡的讽刺推文数据集，取自Ptacek等2014年的工作和The Sarcasm Detector。移除了用户名、URL、#标记，使用了NLTK Twitter Tokenizer。

发表于 07-02 08:37 •5925次阅读

基于卷积神经网络的组合模型处理<b class='flag-5'>NLP</b>任务<b class='flag-5'>讽刺</b>检测

开关三极管

电就导通 一进一出，一个控制脚有那种信号可以选择

发表于 01-06 09:57

【论文】无泵出效应的封装设计

摘要本文介绍了一种全新的功率半导体封装结构。这种封装结构可以防止模块基板和散热器之间的热介质由于泵出效应而造成模块损坏的现象。该封装结构可以有效减少散热基板由于温度变化而产生的弯曲。1、引言目前

发表于 04-05 15:39

NLP的面试题目

NLP面试题目6-10

发表于 05-21 15:02

全面拥抱Transformer：NLP三大特征抽取器（CNNRNNTF）比较

放弃幻想，全面拥抱Transformer：NLP三大特征抽取器（CNNRNNTF）比较

发表于 05-29 10:43

NLP的tfidf作词向量

NLP之tfidf作词向量

发表于 06-01 17:28

HDMI2.0 二进一出KVM转换器电路设计资料AG7231参考电路

`AG7231主要是用在HDMI2.0 二进一出KVM转换器或者HDMI2.0 二切一KVM切换器方案设计当中。AG7231设计结构框图如下AG7231详细的参考电路如附件中所示`

发表于 06-29 17:09

王兴，带头围观了华为第一辆车精选资料分享

千呼万唤，华为第一辆车正式亮相了。4月17日，北汽新能源旗下高端品牌极狐联合华为发布了极狐阿尔法S华为HI版。这是华为的第

发表于 07-27 06:40

一种微小爬壁机器人三维位置测量的新方法

提出了一种微小爬壁机器人三维位置测量的新方法。笔者通过深入分析研究各种位置测控方法与系统，提

发表于 09-20 07:25

NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍

本文用简洁易懂的语言，讲述了自然语言处理（NLP）的前世今生。从什么是NLP到为什么要学习NLP，再到如何利用机器学习进行NLP，值得一读。这是该系列的第一部分，介绍了三种

发表于 06-10 10:26 •7.7w次阅读

<b class='flag-5'>NLP</b>的介绍和如何利用机器学习进行<b class='flag-5'>NLP</b>以及三种<b class='flag-5'>NLP</b>技术的详细介绍

NLP-Progress库NLP的最新数据集、论文和代码

方向是自然语言处理的同学们有福啦，为了跟踪自然语言处理(NLP)的进展，有大量仁人志士在 Github 上维护了一个名为 NLP-Progress 的库。它记录了几乎所有NLP任务的 baseline 和标准数据集，同时还记录

发表于 11-17 09:21 •2374次阅读

一位NLP算法工程师对NLP的看法

最近的项目就是NLP相关，说一些个人对NLP的看法。直观地看，NLP算法工程师的经验和算法工程师的经验没有太大差别。NLP的发展并不是那么快。如果没有实际的业务需求，

发表于 04-24 09:37 •5012次阅读

NLP 2019 Highlights 给NLP从业者的一个参考

自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理（NLP）领域而言，2019年是令人印象深刻的一年。在这篇博客文章中，我想重点介绍一些

发表于 09-25 16:56 •1524次阅读

针对社交媒体的评论讽刺检测模型

讽刺是日常交际中一种常见的语用现象，能够丰富说话者的观点并间接地表达说话者的深层含义。讽刺检测任务的研究目标是挖掘目标语句的讽刺倾向。针对讽刺语境表达变化多样以及不同用户、不同主题下的

发表于 03-12 11:49 •5次下载

理解什么是NLP Subword算法

Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后，各路预训练语言模型如同雨后春笋般涌现，其中Subword算法在其中已经成为标配。所以作为NLP界从业者，

发表于 02-22 14:16 •413次阅读

搜索历史

这篇究极讽刺的文章一出，NLP无了

评论