0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软谷歌AI模型在SuperGLUE测试中超过人类

我快闭嘴 来源:澎湃新闻 作者:澎湃新闻 2021-01-08 10:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,科技公司谷歌和微软相继在一份权威自然语言理解榜单中超越人类的表现,微软宣称这“标志着迈向通用人工智能的重要里程碑。”

自然语言理解(Natural Language Understanding,简称NLU)任务在人工智能领域历史悠久,被誉为“人工智能皇冠上的明珠”。由于自然语言本身存在的歧义性或多义性,实现高质量的自然语言理解有相当的难度。

为了衡量人工智能模型的自然语言理解能力,纽约大学、华盛顿大学、Facebook和DeepMind在2019年合作提出一个名为SuperGLUE的人工智能基准测试。SuperGLUE由2018年GLUE演化而来,其语言理解任务难度更大,包括问答、自然语言推理、指代消解和词义消歧等等。

在最近更新的SuperGLUE上,微软的DeBERTa模型和谷歌的T5+Meena模型分列第一第二,超越人类基准线(human baseline)。这是人工智能首次在SuperGLUE中表现超越人类。

尽管在SuperGLUE测试上取得令人满意的结果,但微软坦言,DeBERTa模型还没有达到人类智能的自然语言理解水平。人类非常善于利用从不同任务中学到的知识来解决新的任务,这是AI模型需要学习的地方。

排名第一的微软模型DeBERTa共有15亿个参数。在SuperGLUE测试中,单个DeBERTa模型的宏观平均分(89.9分)超过了人类的表现(89.8分);模型整体得分(90.3分)也超过人类基准线(89.8分),在SuperGLUE排名第一。排名第二的T5+Meena模型得分90.2,同样超过人类基准线(89.8分)。

在SuperGLUE测试中,人工智能模型被要求回答类似这样的问题:

已知“这个孩子对疾病产生了免疫力”,问“这是由什么导致的?”请选择:A.“他避免接触这种疾病”;或B.“他接种了这一疾病的疫苗”。

这是一个简单的因果推理任务,人类很容易选出正确答案。但对人工智能模型而言,却是不小的挑战。为了得出正确答案,模型需要理解已知条件和选项之间的因果关系。

2021年1月6日,微软在博客发文详细介绍此次取得榜首的DeBERTa模型。

DeBERTa全称Decoding-enhanced-BERT-with-disentangled attention,是一个基于Transformer架构的神经语言模型,采用自监督学习方法对大量原始文本语料库进行预训练。DeBERTa的目标是学习通用的语言表达形式,适用于各种自然语言理解任务。DeBERTa主要用到三种新技术,分别是分离注意力机制、增强的掩码解码器和用于微调的虚拟对抗训练方法。

排名第二的T5+Meena技术来自谷歌。谷歌团队尚未详细解释其模型在SuperGLUE创纪录的原因。但微软在博客文章中评价称,谷歌的T5模型由110亿个参数组成,相比之下,15亿参数的DeBERTa在训练和维护上更加节能,更容易压缩并部署到各种程序中。

微软正在将DeBERTa模型集成到下一代“图灵自然语言生成模型”(Turing NLRv4)中。下一步,他们准备向公众公开15亿参数的DeBERTa模型及其源代码。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107341
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261477
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13917
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    微软最新AI技术数据中心即将启用

    微软美国威斯康星州 Mount Pleasant 建设的最新AI技术数据中心即将投入使用,预计 2026 年初正式启用。第二座同规模中心也规划
    的头像 发表于 11-05 16:37 592次阅读

    谷歌AlphaEarth和维智时空AI模型的核心差异

    谷歌AlphaEarth和维智时空AI模型技术理念上存在诸多共性,但两者目标尺度、数据来源、技术实现和应用模式上存在显著差异。
    的头像 发表于 10-22 14:50 518次阅读

    谷歌AlphaEarth和维智时空AI模型的技术路径

    谷歌AlphaEarth和维智时空AI模型应用场景和技术实现上各有侧重,但两者底层技术理念上存在显著共性。
    的头像 发表于 10-22 14:48 596次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    和探索;人类级别的理解能力;常识推理;现实世界的知识整合。 3、测试时计算 测试时计算(TTC)是指在模型推理阶段利用额外的计算资源来提升泛化性能。 4、具身智能与渗透式
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    流体芯片 ⑤AI计算平台 ⑥基于AI的自主决策系统 ⑦基于AI的自主学习系统 2、面临的挑战 ①需要造就一个跨学科、全面性覆盖的知识库和科学基础模型 ②需要解决信息不准确和认知偏差问题
    发表于 09-17 11:45

    谷歌AI模型点亮开发无限可能

    2025 年的 Google 谷歌开发者大会上,AI 不是一门“技术”,更是一股彻底改变开发范式的“力量”,助力开发者们海外市场更上一层楼。A
    的头像 发表于 08-29 09:29 851次阅读

    K230,如何使用AI Demo的object_detect_yolov8n,YOLOV8多目标检测模型

    K230的AI开发教程文档,可以看到有源码的AI Demo,其中包括yolov8n模型
    发表于 08-07 06:48

    谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎​

    电子发烧友网报道(文 / 李弯弯)日前,谷歌 Cloud Next 大会上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。据悉,该芯片预计于今年晚些时候面向 Google
    的头像 发表于 04-12 00:57 3194次阅读

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 P
    的头像 发表于 02-07 15:07 1082次阅读

    大举投资750亿、800亿美元押注AI!抗衡DeepSeek,谷歌微软财报揭秘

    AI 模型的效率可与DeepSeek相媲美。 1月29日,美国微软公司公布了2025财年第二季度财报,值得关注的
    的头像 发表于 02-06 09:10 3400次阅读
    大举投资750亿、800亿美元押注<b class='flag-5'>AI</b>!抗衡DeepSeek,<b class='flag-5'>谷歌</b>和<b class='flag-5'>微软</b>财报揭秘

    名单公布!【书籍评测活动NO.55】AI Agent应用与项目实战

    日程预测性地调整了今天的工作安排。 近日的Agent OpenDay上,智谱AI展示了AI Agent(智能体)方面最新成果,发布了用AI
    发表于 01-13 11:04

    微软寻求365 Copilot多元化AI模型

    此举旨在应对企业用户对于成本和速度的担忧。目前,Microsoft 365 Copilot主要依赖于OpenAI的技术,但微软正寻求通过引入更多元化的AI模型来降低这种单一依赖的风险。 微软
    的头像 发表于 12-26 10:25 706次阅读

    微软寻求365 Copilot引入非OpenAI模型

    担心企业用户使用365 Copilot时面临的成本和速度问题,因此正在寻求更多样化的技术来源。尽管微软与OpenAI之间有着紧密的合作关系,并允许微软定制OpenAI的模型,但
    的头像 发表于 12-25 10:41 833次阅读

    谷歌发布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名为“深度研究”的新特性,旨在为用户提供更加全面和深入的复杂主题探索与报告撰写辅助。 Gemini 2.0通过高级推理和长上
    的头像 发表于 12-12 10:13 967次阅读