0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SuperGLUE正式上线:NLP模型们,来迎接挑战吧!

DPVg_AI_era 来源:lq 2019-09-13 16:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Facebook AI Research、Google DeepMind、华盛顿大学和纽约大学合作,共同推出了SuperGLUE,这是一系列用来衡量现代高性能语言理解AI表现的基准测试任务,SuperGLUE针对的是已经达到挑战上限的会话式AI深度学习模型,为其提供更难的挑战,其比GLUE基准任务更负责,旨在构建能处理更加复杂和掌握更细微差别的语言模型。

目前NLP主要着眼在多任务学习和语言模型预训练,从而孕育出各种模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。为了评估这些模型的精准度,GLUE基准应运而生。

SuperGLUE正式上线:NLP模型们,来迎接挑战吧!

GLUE全称是通用语言理解评估(General Language Understanding Evaluation),基于已有的9种英文语言理解任务,涵盖多种数据集大小、文本类型和难度。终极目标是推动研究,开发通用和强大的自然语言理解系统。

但随着NLP模型狂飙似的发展速度,仅推出一年时间的GLUE基准,已经显得有些力不从心。于是,Facebook AI研究院、谷歌DeepMind、华盛顿大学以及纽约大学4家公司和高校开始携手打造进化版新基准:SuperGLUE!

近日,进化后的基准也正式宣布上线,可供大家使用了!

地址:

https://gluebenchmark.com

因为BERT在GLUE上是当前最成功的方法,所以SuperGLUE也使用BERT-LARGE-CASED variant.11作为模型性能基准。

什么是SuperGLUE?

如果你搜索SuperGLUE,出现在首页的一定的各种胶水。这也是科技公司在给产品起名时特别喜欢玩儿的一个梗:利用命名的首字母缩写成为一个十分普通、十分常见的英文单词,这个单词经常和实际的科技产品毫不相关。

实际上,我们今天要介绍的SuperGLUE,全称是超(级)通用语言理解评估(Super General-Purpose Language Understanding Evaluation)。

据SuperGLUE团队介绍,为了获得更强悍的任务集,他们向各个NLP社区发出了征集令,并最终获得一个包含约30种不同NLP任务的列表。随后按照如下标准筛选:

任务本质:即测试系统理解英语的能力

任务难度:即超出当前最先进模型的能力

可评估性:具备自动评断机制,同时还需要能够准确对应人类的判断或表现

公开数据:拥有可公开的数据

任务格式:提升输入值的复杂程度,允许出现复杂句子、段落和文章等

任务许可:所用数据必须获得研究和重新分发的许可

最终获得一个包含7个任务的集合。然后,以这7个任务为基础构建公开排行榜。

此外,SuperGLUE还包含基于已有数据的抽取、单个数值的表现指标,以及一套分析工具包jiant。 下载地址: https://jiant.info/

相比GLUE有哪些变化?效果如何?

进化后的新基准,难度有了大幅提升,应对起当前这些发育迅猛的NLP模型更加得心应手,从而可以鼓励构建能够掌握更复杂,或具有更细微差别的语言的模型。

相比上一代GLUE,首先研究人员向原有的11项任务开刀,直接砍掉其中的9项,并对剩下的2项任务进行了升级,这两项任务分别是识别文本蕴涵(RTE)和Winograd模式挑战赛(WSC)。

之后,5项新的评估基准也被添加进来,用于测试模型在回答问题、指代消解和常识推理方面的能力。这5项新任务分别是:CB,COPA,GAP,MultiRC和WiC。

初始的SuperGLUE基准版本包含了人类水平估计结果,扩展了GLUE中的句子和句子的分类,还包含了共指消解、句子完成和问答

SuperGLUE任务集合比较多样化,为了帮助研究者能够开发出统一的新方法,SuperGLUE团队还贴心的为研究人员提供了一套基于PyTorch和AllenNLP、用来操作NLP的预训练、多任务学习和迁移学习的模块化建模工具包。

此外,因为考虑到公平性、信息的丰富性,管理SuperGLUE排行榜的规则也有很多地方和GLUE有所区别,以期能充分体现数据和任务创建者的贡献。

研究人员用主流NLP模型对新基准进行了测试,效果如下图:

任务示例:

值得一提的是,即使是当前最先进的BERT模型,量化后的综合分数,比人类低了约16.8%。这样的表现,恐怕只能勉强算过得去而已。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11256
  • 数据集
    +关注

    关注

    4

    文章

    1231

    浏览量

    26050
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23193

原文标题:超难NLP新基准SuperGLUE正式发布:横扫SOTA模型BERT勉强过关

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中德开集团与蔚能源首批共建换电站上线交付

    2025年12月1日,随着蔚换电站|沈阳站西广场站正式上线,中德园开发建设集团有限公司(下称“中德开集团”)与武汉蔚能源有限公司(下称“蔚能源”)首批5座共建换电站完成
    的头像 发表于 12-05 17:40 1666次阅读

    亚马逊云科技上线Amazon Nova多模态嵌入模型

    Embeddings多模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖多模态嵌入模型。该模型是首个通过单一
    的头像 发表于 10-29 17:15 121次阅读
    亚马逊云科技<b class='flag-5'>上线</b>Amazon Nova多模态嵌入<b class='flag-5'>模型</b>

    OpenAI Sora 2模型上线微软Azure AI Foundry国际版

    我们非常激动地宣布,OpenAI 的新一代多模态视频生成模型 Sora 2 现已在 Azure AI Foundry(国际版)上线,进入公共预览阶段。
    的头像 发表于 10-22 09:44 453次阅读
    OpenAI Sora 2<b class='flag-5'>模型</b><b class='flag-5'>上线</b>微软Azure AI Foundry国际版

    中科曙光助力首个地质大模型“坤枢”上线

    近日,首个地质领域专用大语言模型“坤枢”在河南郑州正式上线,该大模型的部署将有助于夯实地质产业数字化基础,在保障国家能源资源信息安全前提下,完成多项地质相关任务。而在该模型诞生过程中,
    的头像 发表于 10-14 16:12 510次阅读

    小白学大模型:国外主流大模型汇总

    数据科学AttentionIsAllYouNeed(2017)https://arxiv.org/abs/1706.03762由GoogleBrain的团队撰写,它彻底改变了自然语言处理(NLP
    的头像 发表于 08-27 14:06 672次阅读
    小白学大<b class='flag-5'>模型</b>:国外主流大<b class='flag-5'>模型</b>汇总

    亚马逊云科技现已上线OpenAI开放权重模型

    客户现可通过Amazon Bedrock和Amazon SageMaker AI使用OpenAI开放权重模型,实现将先进的开放权重模型与全球最广泛云服务的深度集成。 亚马逊云科技首次上线OpenAI
    的头像 发表于 08-06 19:29 683次阅读

    积算科技上线赤兔推理引擎服务,创新解锁FP8大模型算力

    北京2025年7月30日 /美通社/ -- 近日,北京积算科技有限公司(以下简称"积算科技")宣布其算力服务平台上线赤兔推理引擎。积算科技PowerFul-AI应用开发平台与赤兔合作,打造高性价比
    的头像 发表于 07-30 21:44 730次阅读

    华为开发者大会2025(HDC 2025)亮点:华为云发布盘古大模型5.5 宣布新一代昇腾AI云服务上线

    HarmonyOS、昇腾AI云服务、盘古大模型等最新科技创新成果。 在主题演讲中,华为常务董事、华为云计算CEO张平安宣布基于CloudMatrix384 超节点的新一代昇腾AI云服务全面上线,为大模型应用提供澎湃算力;宣布盘古
    的头像 发表于 06-20 20:19 3952次阅读
    华为开发者大会2025(HDC 2025)亮点:华为云发布盘古大<b class='flag-5'>模型</b>5.5 宣布新一代昇腾AI云服务<b class='flag-5'>上线</b>

    商汤科技日日新大模型SenseNova上线声网云市场

    日前,商汤科技日日新大模型SenseNova即将正式上线声网云市场,开发者和企业用户可通过声网的实时互动云服务进行调用,将商汤领先的模型能力集成到各类应用场景中,快速构建基于日日新大模型
    的头像 发表于 04-08 17:24 1320次阅读

    加征关税对中国芯片的影响,万年芯:做好自己迎接挑战

    2025年4月2日,美国政府签署“对等关税”行政令,宣布美国对贸易伙伴设立10%的“最低基准关税”,并对部分贸易伙伴征收更高关税。其中,中国大陆加征税率为第6高,加征34%。作为“反击”,我国于4月4日出台多条反制措施应对美国发起的“关税战”,其中包括对原产于美国的所有进口商品,在现行适用关税税率基础上加征34%关税。对于中国芯片行业而言,美国的关税政策无疑
    的头像 发表于 04-08 14:54 1547次阅读
    加征关税对中国芯片的影响,万年芯:做好自己<b class='flag-5'>迎接挑战</b>

    模型原生操作系统:机遇、挑战与展望 CCCF精选

    本文立足人工智能时代用户、应用和系统的需求,分析“外挂式模型”演进路径下的操作系统发展困局,提出通过“模型-系统-芯片”的全栈协同设计构建模型原生操作系统,并进一步探讨了面临的机遇与
    的头像 发表于 03-14 17:46 932次阅读
    <b class='flag-5'>模型</b>原生操作系统:机遇、<b class='flag-5'>挑战</b>与展望  CCCF精选

    浅析半导体激光器的发展趋势

    文章综述了现有高功率半导体激光器(包括单发射腔、巴条、水平阵列和垂直叠阵)的封装技术,并讨论了其发展趋势;分析了半导体激光器封装技术存在的问题和面临的挑战,并给出解决问题与迎接挑战的方法及策略。
    的头像 发表于 02-26 09:53 1701次阅读
    浅析半导体激光器的发展趋势

    DeepSeek-R1全尺寸版本上线Gitee AI

    继 DeepSeek 全套蒸馏模型以及 V3 版本上线后,经过 Gitee AI 和沐曦团队两天紧锣密鼓的适配和机器筹备,DeepSeek-R1全尺寸版本现在已上线 Gitee AI 供开发者
    的头像 发表于 02-07 15:25 1832次阅读

    京东云正式上线DeepSeek系列模型

    近日,京东云正式宣布DeepSeek-R1和DeepSeek-V3模型全面上线。这两款模型支持公有云在线部署和专混私有化实例部署两种模式,旨在为用户提供更加灵活、高效的AI解决方案。 用户可以根据
    的头像 发表于 02-06 14:25 801次阅读

    【「大模型启示录」阅读体验】对大模型更深入的认知

    阅读《大模型启示录》这本书,我得说,它彻底颠覆了我对大模型的理解。作为一个经常用KIMI和豆包这类AI工具完成作业、整理资料的大学生,我原以为大模型就是这些工具背后的技术。但这本书让
    发表于 12-20 15:46