0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SuperGLUE正式上线:NLP模型们,来迎接挑战吧!

DPVg_AI_era 来源:lq 2019-09-13 16:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Facebook AI Research、Google DeepMind、华盛顿大学和纽约大学合作,共同推出了SuperGLUE,这是一系列用来衡量现代高性能语言理解AI表现的基准测试任务,SuperGLUE针对的是已经达到挑战上限的会话式AI深度学习模型,为其提供更难的挑战,其比GLUE基准任务更负责,旨在构建能处理更加复杂和掌握更细微差别的语言模型。

目前NLP主要着眼在多任务学习和语言模型预训练,从而孕育出各种模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。为了评估这些模型的精准度,GLUE基准应运而生。

SuperGLUE正式上线:NLP模型们,来迎接挑战吧!

GLUE全称是通用语言理解评估(General Language Understanding Evaluation),基于已有的9种英文语言理解任务,涵盖多种数据集大小、文本类型和难度。终极目标是推动研究,开发通用和强大的自然语言理解系统。

但随着NLP模型狂飙似的发展速度,仅推出一年时间的GLUE基准,已经显得有些力不从心。于是,Facebook AI研究院、谷歌DeepMind、华盛顿大学以及纽约大学4家公司和高校开始携手打造进化版新基准:SuperGLUE!

近日,进化后的基准也正式宣布上线,可供大家使用了!

地址:

https://gluebenchmark.com

因为BERT在GLUE上是当前最成功的方法,所以SuperGLUE也使用BERT-LARGE-CASED variant.11作为模型性能基准。

什么是SuperGLUE?

如果你搜索SuperGLUE,出现在首页的一定的各种胶水。这也是科技公司在给产品起名时特别喜欢玩儿的一个梗:利用命名的首字母缩写成为一个十分普通、十分常见的英文单词,这个单词经常和实际的科技产品毫不相关。

实际上,我们今天要介绍的SuperGLUE,全称是超(级)通用语言理解评估(Super General-Purpose Language Understanding Evaluation)。

据SuperGLUE团队介绍,为了获得更强悍的任务集,他们向各个NLP社区发出了征集令,并最终获得一个包含约30种不同NLP任务的列表。随后按照如下标准筛选:

任务本质:即测试系统理解英语的能力

任务难度:即超出当前最先进模型的能力

可评估性:具备自动评断机制,同时还需要能够准确对应人类的判断或表现

公开数据:拥有可公开的数据

任务格式:提升输入值的复杂程度,允许出现复杂句子、段落和文章等

任务许可:所用数据必须获得研究和重新分发的许可

最终获得一个包含7个任务的集合。然后,以这7个任务为基础构建公开排行榜。

此外,SuperGLUE还包含基于已有数据的抽取、单个数值的表现指标,以及一套分析工具包jiant。 下载地址: https://jiant.info/

相比GLUE有哪些变化?效果如何?

进化后的新基准,难度有了大幅提升,应对起当前这些发育迅猛的NLP模型更加得心应手,从而可以鼓励构建能够掌握更复杂,或具有更细微差别的语言的模型。

相比上一代GLUE,首先研究人员向原有的11项任务开刀,直接砍掉其中的9项,并对剩下的2项任务进行了升级,这两项任务分别是识别文本蕴涵(RTE)和Winograd模式挑战赛(WSC)。

之后,5项新的评估基准也被添加进来,用于测试模型在回答问题、指代消解和常识推理方面的能力。这5项新任务分别是:CB,COPA,GAP,MultiRC和WiC。

初始的SuperGLUE基准版本包含了人类水平估计结果,扩展了GLUE中的句子和句子的分类,还包含了共指消解、句子完成和问答

SuperGLUE任务集合比较多样化,为了帮助研究者能够开发出统一的新方法,SuperGLUE团队还贴心的为研究人员提供了一套基于PyTorch和AllenNLP、用来操作NLP的预训练、多任务学习和迁移学习的模块化建模工具包。

此外,因为考虑到公平性、信息的丰富性,管理SuperGLUE排行榜的规则也有很多地方和GLUE有所区别,以期能充分体现数据和任务创建者的贡献。

研究人员用主流NLP模型对新基准进行了测试,效果如下图:

任务示例:

值得一提的是,即使是当前最先进的BERT模型,量化后的综合分数,比人类低了约16.8%。这样的表现,恐怕只能勉强算过得去而已。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11343
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23345

原文标题:超难NLP新基准SuperGLUE正式发布:横扫SOTA模型BERT勉强过关

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智谱新一代旗舰模型GLM-5.1上线华为云

    4月8日,智谱正式发布新一代旗舰模型GLM-5.1,发布当天已上线华为云,并成功对接华为云多款产品。该模型整体能力全面提升,是目前全球最强的开源模型,Coding能力刷新全球最佳成绩,
    的头像 发表于 04-10 10:11 298次阅读

    月之暗面全新开源旗舰模型Kimi K2.5上线模力方舟

    模力方舟平台现已上线来自月之暗面(Moonshot AI)发布的全新开源旗舰模型Kimi K2.5。
    的头像 发表于 01-29 10:20 1227次阅读
    月之暗面全新开源旗舰<b class='flag-5'>模型</b>Kimi K2.5<b class='flag-5'>上线</b>模力方舟

    百度文心大模型5.0正式版上线

    今天,在百度文心Moment大会现场,文心大模型5.0正式版上线
    的头像 发表于 01-23 16:48 1489次阅读

    中德开集团与蔚能源首批共建换电站上线交付

    2025年12月1日,随着蔚换电站|沈阳站西广场站正式上线,中德园开发建设集团有限公司(下称“中德开集团”)与武汉蔚能源有限公司(下称“蔚能源”)首批5座共建换电站完成
    的头像 发表于 12-05 17:40 2234次阅读

    亚马逊云科技上线Amazon Nova多模态嵌入模型

    Embeddings多模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖多模态嵌入模型。该模型是首个通过单一
    的头像 发表于 10-29 17:15 372次阅读
    亚马逊云科技<b class='flag-5'>上线</b>Amazon Nova多模态嵌入<b class='flag-5'>模型</b>

    OpenAI Sora 2模型上线微软Azure AI Foundry国际版

    我们非常激动地宣布,OpenAI 的新一代多模态视频生成模型 Sora 2 现已在 Azure AI Foundry(国际版)上线,进入公共预览阶段。
    的头像 发表于 10-22 09:44 964次阅读
    OpenAI Sora 2<b class='flag-5'>模型</b><b class='flag-5'>上线</b>微软Azure AI Foundry国际版

    中科曙光助力首个地质大模型“坤枢”上线

    近日,首个地质领域专用大语言模型“坤枢”在河南郑州正式上线,该大模型的部署将有助于夯实地质产业数字化基础,在保障国家能源资源信息安全前提下,完成多项地质相关任务。而在该模型诞生过程中,
    的头像 发表于 10-14 16:12 946次阅读

    小白学大模型:国外主流大模型汇总

    数据科学AttentionIsAllYouNeed(2017)https://arxiv.org/abs/1706.03762由GoogleBrain的团队撰写,它彻底改变了自然语言处理(NLP
    的头像 发表于 08-27 14:06 1164次阅读
    小白学大<b class='flag-5'>模型</b>:国外主流大<b class='flag-5'>模型</b>汇总

    亚马逊云科技Amazon Bedrock模型再更新,Anthropic最新版Claude4模型现已上线

    北京2025年8月6日 /美通社/ -- 亚马逊云科技宣布,Anthropic最新一代模型Claude Opus 4.1与Claude Sonnet 4,现已在Amazon Bedrock全面上线
    的头像 发表于 08-06 19:42 800次阅读
    亚马逊云科技Amazon Bedrock<b class='flag-5'>模型</b>再更新,Anthropic最新版Claude4<b class='flag-5'>模型</b>现已<b class='flag-5'>上线</b>

    亚马逊云科技现已上线OpenAI开放权重模型

    客户现可通过Amazon Bedrock和Amazon SageMaker AI使用OpenAI开放权重模型,实现将先进的开放权重模型与全球最广泛云服务的深度集成。 亚马逊云科技首次上线OpenAI
    的头像 发表于 08-06 19:29 959次阅读

    3Dfindit 提供的数字立方体模型为研究项目的可视化提供了支持

    魔方的帮助下实现多视角可视化 为了克服这一挑战并实现多视角可视化,我们使用了3Dfindit立方体动画模型。博物馆和学生可以利用 3D 模型提出新的历史教学问题。
    发表于 08-01 14:36

    积算科技上线赤兔推理引擎服务,创新解锁FP8大模型算力

    北京2025年7月30日 /美通社/ -- 近日,北京积算科技有限公司(以下简称"积算科技")宣布其算力服务平台上线赤兔推理引擎。积算科技PowerFul-AI应用开发平台与赤兔合作,打造高性价比
    的头像 发表于 07-30 21:44 1046次阅读

    新品上线|Maix4-HAT 大模型 AI 加速套件 ,一键解锁树莓派多模态 AI 力量!

    还在为边缘端的大模型运行发愁?还在为算力不够、模型太大束手无策?Maix4-HAT,一款专为端侧大模型而生的高性能AI加速模块,现已正式上线淘宝!淘宝:https://item.tao
    的头像 发表于 07-18 18:35 2095次阅读
    新品<b class='flag-5'>上线</b>|Maix4-HAT 大<b class='flag-5'>模型</b> AI 加速套件 ,一键解锁树莓派多模态 AI 力量!

    第1000座高速公路换电站上线运营

    近日,蔚第1,000座高速公路换电站——蔚换电站|G5011芜合高速福山服务区合肥方向正式上线运营,蔚宣布完成高速换电千站计划,建成全国主要城市间高速公路换电网络,连通全国550
    的头像 发表于 07-14 14:28 1094次阅读

    华为开发者大会2025(HDC 2025)亮点:华为云发布盘古大模型5.5 宣布新一代昇腾AI云服务上线

    HarmonyOS、昇腾AI云服务、盘古大模型等最新科技创新成果。 在主题演讲中,华为常务董事、华为云计算CEO张平安宣布基于CloudMatrix384 超节点的新一代昇腾AI云服务全面上线,为大模型应用提供澎湃算力;宣布盘古
    的头像 发表于 06-20 20:19 4670次阅读
    华为开发者大会2025(HDC 2025)亮点:华为云发布盘古大<b class='flag-5'>模型</b>5.5 宣布新一代昇腾AI云服务<b class='flag-5'>上线</b>