0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软亚洲研究院的研究员们提出了一种模型压缩的新思路

深度学习自然语言处理 来源:微软研究院AI头条 作者:微软研究院AI头条 2020-11-24 09:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

编者按:深度学习的发展推动了很多大型神经网络模型的诞生,这些模型在多个领域中都取得了当前最优的性能,基于Transformer的预训练模型也在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。然而,这些模型所包含的参数量巨大,计算成本高昂,极大地阻碍了此类模型在生产环境中的应用。为了解决该问题,来自微软亚洲研究院自然语言计算组的研究员们提出了一种模型压缩的新思路。

随着深度学习的流行,很多大型神经网络模型诞生,并在多个领域中取得当前最优的性能。尤其是在自然语言处理(NLP)领域中,预训练和调参已经成为其中大多数任务的新范式。基于 Transformer 的预训练模型在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。尽管这些模型从“过参数化”的特性中获益,但它们往往包含数百万甚至数十亿个参数,这就使得此类模型的计算成本高昂,且从内存消耗和高延迟的角度来看计算低效。这一缺陷极大地阻碍了此类模型在生产环境中的应用。

为了解决该问题,研究人员提出了很多神经网络压缩技术。一般而言,这些技术可以分为三类:量化、权重剪枝和知识蒸馏(Knowledge Distillation)。其中,由于知识蒸馏能够压缩预训练语言模型,所以得到了极大关注。知识蒸馏利用大型教师模型“教”紧凑的学生模型模仿教师的行为,从而将教师模型中嵌入的知识迁移到较小的模型中。但是,学生模型的性能状况取决于设计良好的蒸馏损失函数,正是这个函数使得学生模型可以模仿教师的行为。近期关于知识蒸馏的研究甚至利用更复杂的模型特定蒸馏损失函数,以实现更好的性能。

近日,来自微软亚洲研究院自然语言计算组的研究员们提出了一种与显式地利用蒸馏损失函数来最小化教师模型与学生模型距离的知识蒸馏不同的模型压缩新方法。受到著名哲学思想实验“忒修斯之船”的启发(即如果船上的木头逐渐被替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),研究员们在 EMNLP 2020 上发表了 Theseus Compression for BERT (BERT-of-Theseus),该方法逐步将 BERT 的原始模块替换成参数更少的替代模块(点击文末阅读原文,了解论文详情)。研究员们将原始模型叫做“前辈”(predecessor),将压缩后的模型叫做“接替者”(successor),分别对应知识蒸馏中的教师和学生。

该方法的工作流程如下图所示。首先为每个前辈模块指定一个接替者模块,然后在训练阶段中以一定的概率(如抛硬币)决定是否用替代模块随机替换对应的前辈模块,并按照新旧模块组合的方式继续训练。在模型收敛后,将所有接替者模块组合成接替者模型,进而执行推断。这样就可以将大型前辈模型压缩成紧凑的接替者模型了。

举例来说,假设现在有两支篮球队每支各五人,一支是经验老道的全明星球队,另一支则是年轻球员组成的青训队。为了提高青训队的水平,所以随机选派青训队员去替换掉全明星队中的球员,然后让这个混合的球队不断地练习、比赛。通过向前辈学习经验,新加入成员的实力会有所提升,也能学会和其他队员的配合,逐渐的这个混合球队就拥有了接近全明星球队的实力。之后重复这个过程,直到青训队员都被充分训练,最终青训队员也能自己组成一支实力突出的球队。相比之下,如果没有“老司机”来带一带,青训队无论如何训练,水平也不会达到全明星队的实力。

事实上,Theseus 压缩与知识蒸馏的思路有些类似,都是鼓励压缩模型模仿原始模型的行为,但 Theseus 压缩有很多独特的优势。

首先,Theseus 压缩在压缩过程中仅使用任务特定的损失函数。而基于知识蒸馏的方法除了使用任务特定的损失函数外,还需加入繁琐的蒸馏损失函数作为优化目标。

其次,与近期研究 TinyBERT 等不同,Theseus 压缩不使用Transformer 特定特征进行压缩,这就为压缩广泛模型提供了可能性。与知识蒸馏仅使用原始模型执行推断不同,该方法允许前辈模型与压缩后的接替者模型共同训练,从而实现更深层次的梯度级交互,并简化训练过程。

此外,混合了前辈模块和接替者模块的不同模块组合还添加了额外的正则化项(类似于 Dropout)。该方法基于课程学习(Curriculum Learning)方法来驱动模块替换,将模块替换概率从低到高逐渐增加,从而实现优异的 BERT 压缩性能。利用Theseus 压缩方法压缩得到的 BERT 模型运算速度是之前的1.94 倍,并且保留了原始模型超过98% 的性能,优于其它基于知识蒸馏的压缩的基线方法。

通过在预训练语言模型 BERT 上的成功实验,微软亚洲研究院的研究员们希望可以为模型压缩打开一种全新的思路,并希望看到这一方法在计算机视觉等领域的更广泛应用。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6759

    浏览量

    108127
  • 神经网络
    +关注

    关注

    42

    文章

    4844

    浏览量

    108292
  • 函数
    +关注

    关注

    3

    文章

    4423

    浏览量

    67963

原文标题:【EMNLP2020】忒修斯之船启发下的知识蒸馏新思路 - 微软研究院

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    上海高等研究院在阿秒X射线研究方面取得重要进展

    时间分辨率。近年来,自由电子激光技术持续发展,将X射线脉冲长度从飞秒量级推进至阿秒量级,拓展了超快X射线科学研究能力。 近日,中国科学院上海高等研究院联合德国电子同步加速器研究所,在阿秒X射线
    的头像 发表于 03-27 08:06 158次阅读
    上海高等<b class='flag-5'>研究院</b>在阿秒X射线<b class='flag-5'>研究</b>方面取得重要进展

    MediaTek携手微软研究院联合开发有源光缆技术

    MediaTek、微软研究院以及其他供应商所组成的研发团队,成功设计出新代由微型化 MicroLED 光源驱动的有源光缆(AOC)。这革命性的有源 MicroLED 光缆设计,相较
    的头像 发表于 03-19 14:20 317次阅读

    一种可跨不同领域的异常检测通用模型UniOD介绍

    研究提出了一种可跨不同领域、适用于特征维度各异且特征空间异构的数据集的异常检测通用模型
    的头像 发表于 03-18 09:09 628次阅读
    <b class='flag-5'>一种</b>可跨不同领域的异常检测通用<b class='flag-5'>模型</b>UniOD介绍

    诚迈科技携手应急管理大学、中铁十九局共建智慧应急科技创新研究院

    1月25日,由诚迈科技、应急管理大学、中铁十九局共同组建的智慧应急科技创新研究院(以下简称“研究院”)在应急管理大学南校区正式启动。应急管理大学党委书记赵峰华,中铁十九局党委常委、副总经理赵琦,诚迈
    的头像 发表于 01-27 11:51 780次阅读
    诚迈科技携手应急管理大学、中铁十九局共建智慧应急科技创新<b class='flag-5'>研究院</b>

    纤纳光电获得2025年度浙江省企业研究院认定

    近日,浙江省经济和信息化厅发布2025年度拟认定省企业研究院名单。经企业申报、县级审查、市级推荐、专家评审等程序,纤纳光电建设的“浙江省纤纳新能源钙钛矿技术企业研究院”成功入选。
    的头像 发表于 12-16 17:31 1520次阅读

    广电计量与长沙三大研究院达成战略合作

    11月26-27日,广电计量与长沙北斗产业安全技术研究院集团股份有限公司(简称“长沙北斗研究院”)、长沙量子测量产业技术研究院有限公司(简称“长沙量子研究院”)、湖南大学长沙半导体技术
    的头像 发表于 12-04 14:36 720次阅读

    AI资讯:前DeepSeek研究员罗福莉已加入小米 英伟达夜蒸发超万亿元

    给大家带来些最新的AI业界新闻: 前DeepSeek研究员罗福莉已加入小米 此前直传言称雷军以千万年薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之
    的头像 发表于 11-12 17:02 1384次阅读

    大化所提出高效等离子体啁啾压缩方法 实现阿秒软X射线激光输出

    近日,我所化学反应动力学全国重点实验室大连光源科学研究室杨学明院士、张未卿研究员团队与深圳先进光源研究院科研团队合作,在超快软X射线自由电子激光(FEL)领域取得新进展。研发团队提出
    的头像 发表于 10-27 07:36 329次阅读
    大化所<b class='flag-5'>提出</b>高效等离子体啁啾<b class='flag-5'>压缩</b>方法 实现阿秒软X射线激光输出

    广电计量携手南山研究院打造大健康产业新生态

    10月19日, “南山研究院南海四周年系列活动”在广东省南山医药创新研究院(简称“南山研究院”)成功举办。期间,南山研究院与广电计量等多家单位联合共建的华南医学健康功效循证评价中心正式
    的头像 发表于 10-23 17:42 1365次阅读

    西门子EDA与北京开源芯片研究院达成战略合作

    近日,西门子EDA与北京开源芯片研究院宣布达成战略合作:西门子EDA的Tessent Embedded Analytics解决方案现已全面支持以“昆明湖”为代表的香山RISC-V Core,该解决方案将为选择香山开源处理器的用户提供一种实时监控CPU程序执行的机制。
    的头像 发表于 09-05 17:19 5319次阅读
    西门子EDA与北京开源芯片<b class='flag-5'>研究院</b>达成战略合作

    京东方首个材料研究院项目开工

    2025年8月20日,BOE(京东方)材料研究院项目开工仪式在山东省烟台市黄渤海新区八角片区成功举办。
    的头像 发表于 08-22 09:12 1528次阅读

    今日看点丨亚马逊上海AI研究院解散;索尼拟出售以色列芯片部门

          1、 亚马逊上海AI研究院解散! 据报道,AWS亚马逊云科技上海AI研究院的首席应用科学家王敏捷发朋友圈称,他们收到通知,AWS亚马逊云科技上海AI研究院(也是AWS最后
    发表于 07-24 09:42 1477次阅读
    今日看点丨亚马逊上海AI<b class='flag-5'>研究院</b>解散;索尼拟出售以色列芯片部门

    勇艺达人工智能研究院迎大咖加盟

    近日,深圳勇艺达总部隆重举行 “数智融合 聚贤赋能 —— 勇艺达人工智能研究院高端人才聘任仪式”,正式聘请黄道权先生与吴天准先生加盟,为研究院注入顶尖智慧力量,此举标志着勇艺达在人工智能领域的战略布局迈出关键步,也是践行 “人
    的头像 发表于 07-10 18:04 1117次阅读

    无刷直流电机双闭环串级控制系统仿真研究

    Madlab进行BLDC建模仿真的方法,并且也提出了很多的建模仿真方案。例如有研究人员提出采用节点电流法对电机控制系统进行分析,通过列写m函数,建立BLDC控制系统真模型,这种方法实质
    发表于 07-07 18:36

    导远科技与清华大学无锡应用技术研究院达成合作

    近日,导远科技与清华大学无锡应用技术研究院(以下简称:研究院)达成合作。导远科技将提供高精度定位产品及解决方案,以支持研究院在L4级自动驾驶和人形机器人领域的技术研发及转化落地。
    的头像 发表于 06-12 16:34 1283次阅读