搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

SuperGLUE正式上线：NLP模型们，来迎接挑战吧！

Facebook AI Research、Google DeepMind、华盛顿大学和纽约大学合作，共同推出了SuperGLUE，这是一系列用来衡量现代高性能语言理解AI表现的基准测试任务，SuperGLUE针对的是已经达到挑战上限的会话式AI深度学习模型，为其提供更难的挑战，其比GLUE基准任务更负责，旨在构建能处理更加复杂和掌握更细微差别的语言模型。

目前NLP主要着眼在多任务学习和语言模型预训练，从而孕育出各种模型，如BERT、Transformer、Elmo、MT-DNN、GPT-2等。为了评估这些模型的精准度，GLUE基准应运而生。

SuperGLUE正式上线：NLP模型们，来迎接挑战吧！

GLUE全称是通用语言理解评估（General Language Understanding Evaluation），基于已有的9种英文语言理解任务，涵盖多种数据集大小、文本类型和难度。终极目标是推动研究，开发通用和强大的自然语言理解系统。

但随着NLP模型狂飙似的发展速度，仅推出一年时间的GLUE基准，已经显得有些力不从心。于是，Facebook AI研究院、谷歌DeepMind、华盛顿大学以及纽约大学4家公司和高校开始携手打造进化版新基准：SuperGLUE！

近日，进化后的基准也正式宣布上线，可供大家使用了！

地址：

https://gluebenchmark.com

因为BERT在GLUE上是当前最成功的方法，所以SuperGLUE也使用BERT-LARGE-CASED variant.11作为模型性能基准。

什么是SuperGLUE？

如果你搜索SuperGLUE，出现在首页的一定的各种胶水。这也是科技公司在给产品起名时特别喜欢玩儿的一个梗：利用命名的首字母缩写成为一个十分普通、十分常见的英文单词，这个单词经常和实际的科技产品毫不相关。

实际上，我们今天要介绍的SuperGLUE，全称是超（级）通用语言理解评估（Super General-Purpose Language Understanding Evaluation）。

据SuperGLUE团队介绍，为了获得更强悍的任务集，他们向各个NLP社区发出了征集令，并最终获得一个包含约30种不同NLP任务的列表。随后按照如下标准筛选：

任务本质：即测试系统理解英语的能力

任务难度：即超出当前最先进模型的能力

可评估性：具备自动评断机制，同时还需要能够准确对应人类的判断或表现

公开数据：拥有可公开的数据

任务格式：提升输入值的复杂程度，允许出现复杂句子、段落和文章等

任务许可：所用数据必须获得研究和重新分发的许可

最终获得一个包含7个任务的集合。然后，以这7个任务为基础构建公开排行榜。

此外，SuperGLUE还包含基于已有数据的抽取、单个数值的表现指标，以及一套分析工具包jiant。下载地址： https://jiant.info/

相比GLUE有哪些变化？效果如何？

进化后的新基准，难度有了大幅提升，应对起当前这些发育迅猛的NLP模型更加得心应手，从而可以鼓励构建能够掌握更复杂，或具有更细微差别的语言的模型。

相比上一代GLUE，首先研究人员向原有的11项任务开刀，直接砍掉其中的9项，并对剩下的2项任务进行了升级，这两项任务分别是识别文本蕴涵（RTE）和Winograd模式挑战赛（WSC）。

之后，5项新的评估基准也被添加进来，用于测试模型在回答问题、指代消解和常识推理方面的能力。这5项新任务分别是：CB，COPA，GAP，MultiRC和WiC。

初始的SuperGLUE基准版本包含了人类水平估计结果，扩展了GLUE中的句子和句子的分类，还包含了共指消解、句子完成和问答。

SuperGLUE任务集合比较多样化，为了帮助研究者能够开发出统一的新方法，SuperGLUE团队还贴心的为研究人员提供了一套基于PyTorch和AllenNLP、用来操作NLP的预训练、多任务学习和迁移学习的模块化建模工具包。

此外，因为考虑到公平性、信息的丰富性，管理SuperGLUE排行榜的规则也有很多地方和GLUE有所区别，以期能充分体现数据和任务创建者的贡献。

研究人员用主流NLP模型对新基准进行了测试，效果如下图：

任务示例：

值得一提的是，即使是当前最先进的BERT模型，量化后的综合分数，比人类低了约16.8%。这样的表现，恐怕只能勉强算过得去而已。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
434

浏览量
10044
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24349
nlp

nlp

+关注

关注
1

文章
463

浏览量
21819

原文标题：超难NLP新基准SuperGLUE正式发布：横扫SOTA模型BERT勉强过关

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

评论

相关推荐

宇视张鹏国：大模型只是技术升级不是革命

,宇视要坚持“准确识别环境、充分迎接挑战、集中关注核心命题、积极推动变革”。以下是宇视科技总裁张鹏国在2024合作伙伴大会的演讲全文: 各位尊敬的合作伙伴,早上好! 最近和几拨渠道老板聊天,大家普遍都对大模型有技术和产业焦虑,尤其马斯克、黄仁勋、

的头像

发表于 04-17 15:06 •139次阅读

您有一份2023年得瑞领新成绩单，请查收

展望2024年，得瑞领新充满信心迎接挑战，在不断变化的市场环境中，继续专注于自主研发和技术创新，以提升的产品性能和创新力，为客户创造更大的价值，为行业发展贡献更多力量。

的头像

发表于 02-05 14:31 •164次阅读

您有一份2023年得瑞领新成绩单，请查收

特斯拉降价，24年电车价格战持续

如果加上之前的极氪007的激进定价，真是好戏连台。就在今天，特斯拉又一次降价，引发了市场的震动。2024年的价格战已经打响，我们要做好准备，迎接挑战。

的头像

发表于 01-12 16:26 •627次阅读

特斯拉降价，24年电车价格战持续

英特尔：让我们一起消灭CUDA

基尔辛格认为："由于推理的发生，一旦你训练了模型......就不会依赖CUDA。"关键在于，你能否很好地运行该模型？他表示，英特尔将利用今日首次在舞台上展示的 Gaudi3 迎接挑战，并利用至强和边缘PC实现这一目标

的头像

发表于 12-15 17:12 •641次阅读

后发而先至的腾讯混元大模型，到底有哪些技术亮点？

腾讯集团副总裁蒋杰在采访中介绍：“在腾讯内部，混元已经内测很久了，不是现在第一天才有。”腾讯是国内最早研究大模型的企业之一。2021年，腾讯推出了千亿规模的NLP大模型。2022年，腾讯推出万亿参数的

的头像

发表于 09-12 17:25 •972次阅读

后发而先至的腾讯混元大<b class='flag-5'>模型</b>，到底有哪些技术亮点？

大模型现存的10个问题和挑战

来源：Coggle数据科学大模型现存的问题和挑战这篇文章介绍了关于大型语言模型（LLMs）研究中的十个主要方向和问题：1.减少和度量幻觉：幻觉指的是AI模型虚构信息的情况，可能是创意应

的头像

发表于 09-04 16:42 •529次阅读

大<b class='flag-5'>模型</b>现存的10个问题和<b class='flag-5'>挑战</b>

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练这些模型带来的硬件挑战，以及GPU和网络行业如何针对训练的工作负载不断优化硬件。

的头像

发表于 09-01 17:14 •1111次阅读

训练大语言<b class='flag-5'>模型</b>带来的硬件<b class='flag-5'>挑战</b>

人工智能nlp是什么方向

人工智能nlp是什么方向人工智能（AI）已经日益普及，正在改变我们的方法和方式。AI 涵盖了许多领域，其中包括机器学习，计算机视觉，自然语言处理（NLP）等。在这些方向之中，NLP 是最引人注目

的头像

发表于 08-22 16:45 •1312次阅读

华为发布盘古大模型3.0，华为云盘古大模型将迎重大升级

盘古大模型基于华为自研的MindSpore框架开发，参数最多可达1.085万亿。此前，盘古大模型已经在2021年4月和2022年4月分别升级到2.0版本和3.0版本。其中，NLP大模型

的头像

发表于 07-07 16:33 •1595次阅读

李开复麾下大模型公司的官网正式上线了

众所周知，今年3月下旬，创新工场董事长兼CEO李开复曾正式宣布以Project AI 2.0之名入局大模型，而如今的零一万物，正是这家创业公司的正式公司名，这不官网也同步上线了。

的头像

发表于 07-04 09:44 •562次阅读

李开复麾下大<b class='flag-5'>模型</b>公司的官网正式<b class='flag-5'>上线</b>了

华为大模型计划如何应用到华为云之中？

目前华为[盘古系列AI大模型]基础层主要包括NLP大模型、CV大模型、以及科学计算大模型等，上层则是与合作伙伴开发的华为行业大

的头像

发表于 06-20 15:13 •814次阅读

华为大<b class='flag-5'>模型</b>计划如何应用到华为云之中？

NLP中的迁移学习：利用预训练模型进行文本分类

迁移学习彻底改变了自然语言处理（NLP）领域，允许从业者利用预先训练的模型来完成自己的任务，从而大大减少了训练时间和计算资源。在本文中，我们将讨论迁移学习的概念，探索一些流行的预训练模型，并通过实际示例演示如何使用这些

发表于 06-14 09:30 •311次阅读

IBM最新发布企业级 AI 与数据平台 watsonx

大家好，我是陈旭东。很荣幸参加今年的 STC 小蛮腰科技大会，与各位共同探讨人工智能将如何引领新产业革命，身处其中的企业应该如何迎接挑战、拥抱机遇。

的头像

发表于 05-26 09:50 •480次阅读

做实大模型的产业价值，度小满深耕“NLP+金融”

从度小满NLP开始，去看看AI走向产业的应用落地如何实现

的头像

发表于 05-18 20:43 •438次阅读

做实大<b class='flag-5'>模型</b>的产业价值，度小满深耕“<b class='flag-5'>NLP</b>+金融”

如何通过一个简单的方法来解锁大型语言模型的推理能力？

近来NLP领域由于语言模型的发展取得了颠覆性的进展，扩大语言模型的规模带来了一系列的性能提升，然而单单是扩大模型规模对于一些具有挑战性的任务

的头像

发表于 05-10 11:13 •1547次阅读

如何通过一个简单的方法来解锁大型语言<b class='flag-5'>模型</b>的推理能力？