0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软亚洲研究院的研究员们提出了一种模型压缩的新思路

深度学习自然语言处理 来源:微软研究院AI头条 作者:微软研究院AI头条 2020-11-24 09:48 次阅读

编者按:深度学习的发展推动了很多大型神经网络模型的诞生,这些模型在多个领域中都取得了当前最优的性能,基于Transformer的预训练模型也在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。然而,这些模型所包含的参数量巨大,计算成本高昂,极大地阻碍了此类模型在生产环境中的应用。为了解决该问题,来自微软亚洲研究院自然语言计算组的研究员们提出了一种模型压缩的新思路。

随着深度学习的流行,很多大型神经网络模型诞生,并在多个领域中取得当前最优的性能。尤其是在自然语言处理(NLP)领域中,预训练和调参已经成为其中大多数任务的新范式。基于 Transformer 的预训练模型在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。尽管这些模型从“过参数化”的特性中获益,但它们往往包含数百万甚至数十亿个参数,这就使得此类模型的计算成本高昂,且从内存消耗和高延迟的角度来看计算低效。这一缺陷极大地阻碍了此类模型在生产环境中的应用。

为了解决该问题,研究人员提出了很多神经网络压缩技术。一般而言,这些技术可以分为三类:量化、权重剪枝和知识蒸馏(Knowledge Distillation)。其中,由于知识蒸馏能够压缩预训练语言模型,所以得到了极大关注。知识蒸馏利用大型教师模型“教”紧凑的学生模型模仿教师的行为,从而将教师模型中嵌入的知识迁移到较小的模型中。但是,学生模型的性能状况取决于设计良好的蒸馏损失函数,正是这个函数使得学生模型可以模仿教师的行为。近期关于知识蒸馏的研究甚至利用更复杂的模型特定蒸馏损失函数,以实现更好的性能。

近日,来自微软亚洲研究院自然语言计算组的研究员们提出了一种与显式地利用蒸馏损失函数来最小化教师模型与学生模型距离的知识蒸馏不同的模型压缩新方法。受到著名哲学思想实验“忒修斯之船”的启发(即如果船上的木头逐渐被替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),研究员们在 EMNLP 2020 上发表了 Theseus Compression for BERT (BERT-of-Theseus),该方法逐步将 BERT 的原始模块替换成参数更少的替代模块(点击文末阅读原文,了解论文详情)。研究员们将原始模型叫做“前辈”(predecessor),将压缩后的模型叫做“接替者”(successor),分别对应知识蒸馏中的教师和学生。

该方法的工作流程如下图所示。首先为每个前辈模块指定一个接替者模块,然后在训练阶段中以一定的概率(如抛硬币)决定是否用替代模块随机替换对应的前辈模块,并按照新旧模块组合的方式继续训练。在模型收敛后,将所有接替者模块组合成接替者模型,进而执行推断。这样就可以将大型前辈模型压缩成紧凑的接替者模型了。

举例来说,假设现在有两支篮球队每支各五人,一支是经验老道的全明星球队,另一支则是年轻球员组成的青训队。为了提高青训队的水平,所以随机选派青训队员去替换掉全明星队中的球员,然后让这个混合的球队不断地练习、比赛。通过向前辈学习经验,新加入成员的实力会有所提升,也能学会和其他队员的配合,逐渐的这个混合球队就拥有了接近全明星球队的实力。之后重复这个过程,直到青训队员都被充分训练,最终青训队员也能自己组成一支实力突出的球队。相比之下,如果没有“老司机”来带一带,青训队无论如何训练,水平也不会达到全明星队的实力。

事实上,Theseus 压缩与知识蒸馏的思路有些类似,都是鼓励压缩模型模仿原始模型的行为,但 Theseus 压缩有很多独特的优势。

首先,Theseus 压缩在压缩过程中仅使用任务特定的损失函数。而基于知识蒸馏的方法除了使用任务特定的损失函数外,还需加入繁琐的蒸馏损失函数作为优化目标。

其次,与近期研究 TinyBERT 等不同,Theseus 压缩不使用Transformer 特定特征进行压缩,这就为压缩广泛模型提供了可能性。与知识蒸馏仅使用原始模型执行推断不同,该方法允许前辈模型与压缩后的接替者模型共同训练,从而实现更深层次的梯度级交互,并简化训练过程。

此外,混合了前辈模块和接替者模块的不同模块组合还添加了额外的正则化项(类似于 Dropout)。该方法基于课程学习(Curriculum Learning)方法来驱动模块替换,将模块替换概率从低到高逐渐增加,从而实现优异的 BERT 压缩性能。利用Theseus 压缩方法压缩得到的 BERT 模型运算速度是之前的1.94 倍,并且保留了原始模型超过98% 的性能,优于其它基于知识蒸馏的压缩的基线方法。

通过在预训练语言模型 BERT 上的成功实验,微软亚洲研究院的研究员们希望可以为模型压缩打开一种全新的思路,并希望看到这一方法在计算机视觉等领域的更广泛应用。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6241

    浏览量

    103076
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98737
  • 函数
    +关注

    关注

    3

    文章

    3866

    浏览量

    61308

原文标题:【EMNLP2020】忒修斯之船启发下的知识蒸馏新思路 - 微软研究院

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    微软亚洲研究院发布VASA-1模型,实现图片人物自动言语表达

    模型,尤其擅长展现逼真的面部表情及各类情绪,且嘴唇动作高度拟真。然而,尽管研究员坦承目前仍有不足之处,如无法精准处理头发等纤维质元素,但相较于其他类似模型,VASA-1 的表现已属优异。
    的头像 发表于 04-19 11:21 253次阅读

    本源入榜胡润研究院2024全球独角兽榜单!

    4月9日,胡润研究院于广州发布《2024全球独角兽榜》,榜单列出了全球成立于2000年之后,价值10亿美元以上的非上市公司。本源量子成功入围该榜单,也是中国量子计算领域唯一入榜企业。来源:胡润研究院
    的头像 发表于 04-12 08:22 84次阅读
    本源入榜胡润<b class='flag-5'>研究院</b>2024全球独角兽榜单!

    微软内部对亚洲研究院的未来持有不同看法

    四位消息人士披露,微软内部曾考虑过关闭或搬迁MSRA,但高层领导普遍倾向于维持实验室在中国的运作。目前,微软已在加拿大温哥华设立MSR分中心,部分研究员已被调配至此。此举旨在作为备用安置点,以应对可能面临的
    的头像 发表于 01-11 13:58 239次阅读

    LabVIEW进行癌症预测模型研究

    LabVIEW进行癌症预测模型研究 癌症是一种细胞异常增生的疾病。随着年龄的增长,细胞分裂速度放缓,但癌细胞会失去控制地不断分裂,形成可能良性或恶性的肿瘤。 2012年的国际癌症数据显示,新发癌症
    发表于 12-13 19:04

    周礼栋对话比尔·盖茨:深入的科学研究比以往任何时候都更加重要

    2023年是微软亚洲研究院建院25周年。25年来,微软亚洲研究院探索并实践了
    的头像 发表于 12-12 15:55 178次阅读
    周礼栋对话比尔·盖茨:深入的科学<b class='flag-5'>研究</b>比以往任何时候都更加重要

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔研究院将重点展示31项研究成果,它们将推进面向未来的AI创新。        英特尔研究院将在NeurIPS 2023大会上展示一系列富有价值、业界领先的AI创新成果。面向广大开发者、
    的头像 发表于 12-08 09:17 401次阅读

    天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚

    11 月 29 日,北京智源人工智能研究院副院长兼总工程师林咏华在 2023 人工智能计算大会上宣布,正式开源 700 亿参数大模型 Aquila2-70B-Expr (异构先驱版), 这是首个
    的头像 发表于 11-30 13:10 1088次阅读
    天数智芯支持智源<b class='flag-5'>研究院</b>首次完成大<b class='flag-5'>模型</b>异构算力混合训练,突破异构算力束缚

    新华社研究院:商汤“商量”获评中国大模型市场未来领袖

    编者按 : 日前,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告3.0》,对主流大模型进行了全面评估,并为中国企业的大模型产品选型提供了专业指导。 报告显示, 商汤“商量
    的头像 发表于 11-29 18:30 279次阅读
    新华社<b class='flag-5'>研究院</b>:商汤“商量”获评中国大<b class='flag-5'>模型</b>市场未来领袖

    九相逆变器SVPWM实现方法的研究

    针对一种为九相集中整距绕组感应电机供电的九相逆变器进行研究。为了提高感应电机输出转矩和直流母线电压利用率,在多相空间矢量理论的基础上提出一种九相逆变器空间矢量脉宽调制的实现方法。对工作
    发表于 09-26 06:37

    机器人设计:解决人类问题的新思路

    不再仅仅是科幻小说中的情节,机器人已经进入到我们的工作、学习和日常生活中,为我们解决了许多问题。本文将探讨机器人设计如何成为解决人类问题的新思路
    的头像 发表于 08-07 20:39 426次阅读
    机器人设计:解决人类问题的<b class='flag-5'>新思路</b>

    科学匠人 | 边江:在研究院的七年“技痒”,探寻大模型助力AI与产业融合之道

    基础科研的创新为技术落地应用提供了动力,而来自真实世界的业务需求则为基础科研提供了灵感和方向。当人工智能进入大模型时代,什么样的技术创新才能更好地落地于产业?对此,微软亚洲研究院资深首
    的头像 发表于 08-04 00:10 418次阅读
    科学匠人 | 边江:在<b class='flag-5'>研究院</b>的七年“技痒”,探寻大<b class='flag-5'>模型</b>助力AI与产业融合之道

    中软国际AIGC研究院出席“模型开发师”、“数据治理员”新职业行业意见征求会

    的头部企业受邀参加,与长城计算机软件与系统有限公司、建信金融科技、中国信息通信研究院、图灵人工智能研究院、中国石油勘探开发研究院人工智能研究中心、同方、网易等央企、科研院所及互联网企业
    的头像 发表于 06-28 18:15 222次阅读

    微软亚洲研究院否认撤离中国,但确认部分 AI 科学家将迁至温哥华

    6 月 19 日消息,针对有消息称微软公司旗下研究机构 微软亚洲研究院(MSRA)的 AI 顶级科学家从中国转移到温哥华,6 月 19 日上
    的头像 发表于 06-20 08:48 547次阅读

    中图仪器-陕西省计量科学研究院精密测量联合实验室揭牌成立

    展的新思路,推动西北地区制造业的变革和发展。陕西省计量科学研究院立足陕西,辐射西北及“一带一路”沿线中亚国家,精密测量联合实验室的建立为西北地区计量检测服务市场提供了
    的头像 发表于 06-08 09:53 328次阅读
    中图仪器-陕西省计量科学<b class='flag-5'>研究院</b>精密测量联合实验室揭牌成立

    中科发布“香山”与“傲来”两项开源处理器芯片

    中科计算技术研究所副所长包云岗介绍了目前全球性能最高的开源高性能RISC-V处理器核项目“香山”。他指出,计算技术研究所对标ARM Cortex-A72,已于2021年成功研制出第
    发表于 05-28 08:43