0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软亚洲研究院的研究员们提出了一种模型压缩的新思路

深度学习自然语言处理 来源:微软研究院AI头条 作者:微软研究院AI头条 2020-11-24 09:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

编者按:深度学习的发展推动了很多大型神经网络模型的诞生,这些模型在多个领域中都取得了当前最优的性能,基于Transformer的预训练模型也在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。然而,这些模型所包含的参数量巨大,计算成本高昂,极大地阻碍了此类模型在生产环境中的应用。为了解决该问题,来自微软亚洲研究院自然语言计算组的研究员们提出了一种模型压缩的新思路。

随着深度学习的流行,很多大型神经网络模型诞生,并在多个领域中取得当前最优的性能。尤其是在自然语言处理(NLP)领域中,预训练和调参已经成为其中大多数任务的新范式。基于 Transformer 的预训练模型在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。尽管这些模型从“过参数化”的特性中获益,但它们往往包含数百万甚至数十亿个参数,这就使得此类模型的计算成本高昂,且从内存消耗和高延迟的角度来看计算低效。这一缺陷极大地阻碍了此类模型在生产环境中的应用。

为了解决该问题,研究人员提出了很多神经网络压缩技术。一般而言,这些技术可以分为三类:量化、权重剪枝和知识蒸馏(Knowledge Distillation)。其中,由于知识蒸馏能够压缩预训练语言模型,所以得到了极大关注。知识蒸馏利用大型教师模型“教”紧凑的学生模型模仿教师的行为,从而将教师模型中嵌入的知识迁移到较小的模型中。但是,学生模型的性能状况取决于设计良好的蒸馏损失函数,正是这个函数使得学生模型可以模仿教师的行为。近期关于知识蒸馏的研究甚至利用更复杂的模型特定蒸馏损失函数,以实现更好的性能。

近日,来自微软亚洲研究院自然语言计算组的研究员们提出了一种与显式地利用蒸馏损失函数来最小化教师模型与学生模型距离的知识蒸馏不同的模型压缩新方法。受到著名哲学思想实验“忒修斯之船”的启发(即如果船上的木头逐渐被替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),研究员们在 EMNLP 2020 上发表了 Theseus Compression for BERT (BERT-of-Theseus),该方法逐步将 BERT 的原始模块替换成参数更少的替代模块(点击文末阅读原文,了解论文详情)。研究员们将原始模型叫做“前辈”(predecessor),将压缩后的模型叫做“接替者”(successor),分别对应知识蒸馏中的教师和学生。

该方法的工作流程如下图所示。首先为每个前辈模块指定一个接替者模块,然后在训练阶段中以一定的概率(如抛硬币)决定是否用替代模块随机替换对应的前辈模块,并按照新旧模块组合的方式继续训练。在模型收敛后,将所有接替者模块组合成接替者模型,进而执行推断。这样就可以将大型前辈模型压缩成紧凑的接替者模型了。

举例来说,假设现在有两支篮球队每支各五人,一支是经验老道的全明星球队,另一支则是年轻球员组成的青训队。为了提高青训队的水平,所以随机选派青训队员去替换掉全明星队中的球员,然后让这个混合的球队不断地练习、比赛。通过向前辈学习经验,新加入成员的实力会有所提升,也能学会和其他队员的配合,逐渐的这个混合球队就拥有了接近全明星球队的实力。之后重复这个过程,直到青训队员都被充分训练,最终青训队员也能自己组成一支实力突出的球队。相比之下,如果没有“老司机”来带一带,青训队无论如何训练,水平也不会达到全明星队的实力。

事实上,Theseus 压缩与知识蒸馏的思路有些类似,都是鼓励压缩模型模仿原始模型的行为,但 Theseus 压缩有很多独特的优势。

首先,Theseus 压缩在压缩过程中仅使用任务特定的损失函数。而基于知识蒸馏的方法除了使用任务特定的损失函数外,还需加入繁琐的蒸馏损失函数作为优化目标。

其次,与近期研究 TinyBERT 等不同,Theseus 压缩不使用Transformer 特定特征进行压缩,这就为压缩广泛模型提供了可能性。与知识蒸馏仅使用原始模型执行推断不同,该方法允许前辈模型与压缩后的接替者模型共同训练,从而实现更深层次的梯度级交互,并简化训练过程。

此外,混合了前辈模块和接替者模块的不同模块组合还添加了额外的正则化项(类似于 Dropout)。该方法基于课程学习(Curriculum Learning)方法来驱动模块替换,将模块替换概率从低到高逐渐增加,从而实现优异的 BERT 压缩性能。利用Theseus 压缩方法压缩得到的 BERT 模型运算速度是之前的1.94 倍,并且保留了原始模型超过98% 的性能,优于其它基于知识蒸馏的压缩的基线方法。

通过在预训练语言模型 BERT 上的成功实验,微软亚洲研究院的研究员们希望可以为模型压缩打开一种全新的思路,并希望看到这一方法在计算机视觉等领域的更广泛应用。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107320
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106768
  • 函数
    +关注

    关注

    3

    文章

    4406

    浏览量

    66812

原文标题:【EMNLP2020】忒修斯之船启发下的知识蒸馏新思路 - 微软研究院

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广电计量与长沙三大研究院达成战略合作

    11月26-27日,广电计量与长沙北斗产业安全技术研究院集团股份有限公司(简称“长沙北斗研究院”)、长沙量子测量产业技术研究院有限公司(简称“长沙量子研究院”)、湖南大学长沙半导体技术
    的头像 发表于 12-04 14:36 106次阅读

    AI资讯:前DeepSeek研究员罗福莉已加入小米 英伟达夜蒸发超万亿元

    给大家带来些最新的AI业界新闻: 前DeepSeek研究员罗福莉已加入小米 此前直传言称雷军以千万年薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之
    的头像 发表于 11-12 17:02 908次阅读

    大化所提出高效等离子体啁啾压缩方法 实现阿秒软X射线激光输出

    近日,我所化学反应动力学全国重点实验室大连光源科学研究室杨学明院士、张未卿研究员团队与深圳先进光源研究院科研团队合作,在超快软X射线自由电子激光(FEL)领域取得新进展。研发团队提出
    的头像 发表于 10-27 07:36 81次阅读
    大化所<b class='flag-5'>提出</b>高效等离子体啁啾<b class='flag-5'>压缩</b>方法 实现阿秒软X射线激光输出

    广电计量携手南山研究院打造大健康产业新生态

    10月19日, “南山研究院南海四周年系列活动”在广东省南山医药创新研究院(简称“南山研究院”)成功举办。期间,南山研究院与广电计量等多家单位联合共建的华南医学健康功效循证评价中心正式
    的头像 发表于 10-23 17:42 887次阅读

    西门子EDA与北京开源芯片研究院达成战略合作

    近日,西门子EDA与北京开源芯片研究院宣布达成战略合作:西门子EDA的Tessent Embedded Analytics解决方案现已全面支持以“昆明湖”为代表的香山RISC-V Core,该解决方案将为选择香山开源处理器的用户提供一种实时监控CPU程序执行的机制。
    的头像 发表于 09-05 17:19 4552次阅读
    西门子EDA与北京开源芯片<b class='flag-5'>研究院</b>达成战略合作

    京东方首个材料研究院项目开工

    2025年8月20日,BOE(京东方)材料研究院项目开工仪式在山东省烟台市黄渤海新区八角片区成功举办。
    的头像 发表于 08-22 09:12 1039次阅读

    今日看点丨亚马逊上海AI研究院解散;索尼拟出售以色列芯片部门

          1、 亚马逊上海AI研究院解散! 据报道,AWS亚马逊云科技上海AI研究院的首席应用科学家王敏捷发朋友圈称,他们收到通知,AWS亚马逊云科技上海AI研究院(也是AWS最后
    发表于 07-24 09:42 1344次阅读
    今日看点丨亚马逊上海AI<b class='flag-5'>研究院</b>解散;索尼拟出售以色列芯片部门

    勇艺达人工智能研究院迎大咖加盟

    近日,深圳勇艺达总部隆重举行 “数智融合 聚贤赋能 —— 勇艺达人工智能研究院高端人才聘任仪式”,正式聘请黄道权先生与吴天准先生加盟,为研究院注入顶尖智慧力量,此举标志着勇艺达在人工智能领域的战略布局迈出关键步,也是践行 “人
    的头像 发表于 07-10 18:04 778次阅读

    导远科技与清华大学无锡应用技术研究院达成合作

    近日,导远科技与清华大学无锡应用技术研究院(以下简称:研究院)达成合作。导远科技将提供高精度定位产品及解决方案,以支持研究院在L4级自动驾驶和人形机器人领域的技术研发及转化落地。
    的头像 发表于 06-12 16:34 797次阅读

    安徽省水利科学研究院携手中科曙光完成DeepSeek大模型部署

    近日,安徽省(水利部淮河水利委员会)水利科学研究院携手中科曙光,成功完成国产大模型DeepSeek、BGE-M3嵌入模型及重排模型的本地化部署与测试,并顺利接入梅山水库运行管理矩阵平台
    的头像 发表于 03-25 11:36 859次阅读

    胡瀚接棒腾讯多模态大模型研发

    近日,前微软亚洲研究院视觉计算组的首席研究员胡瀚宣布加入腾讯,这变动引起了业界的广泛关注。据悉,胡瀚将接替已离职的腾讯混元大
    的头像 发表于 01-09 15:49 983次阅读

    浪潮信息与智源研究院携手共建大模型多元算力生态

    近日,浪潮信息与北京智源人工智能研究院正式签署战略合作协议,双方将紧密合作,共同构建大模型多元算力开源创新生态。 此次合作旨在提升大模型创新研发的算力效率,降低大模型应用开发的算力门槛
    的头像 发表于 12-31 11:49 872次阅读

    胡云华加盟智谱,担任“智谱清言”负责人

    近日,前微软亚洲研究院研究员、阿里巴巴达摩资深技术专家、支付宝中国首席数据官胡云华宣布加入大模型
    的头像 发表于 12-28 14:30 1136次阅读

    安谋科技与智源研究院达成战略合作,共建开源AI“芯”生态

    12月25日,安谋科技(中国)有限公司(以下简称“安谋科技”)与北京智源人工智能研究院(以下简称“智源研究院”)正式签署战略合作协议,双方将面向多元AI芯片领域开展算子库优化与适配、编译器与工具链
    发表于 12-26 17:06 625次阅读
    安谋科技与智源<b class='flag-5'>研究院</b>达成战略合作,共建开源AI“芯”生态

    清新电源研究院荣获深圳市5A级社会组织

    12月18日,2024年度市级社会组织等级评估授牌仪式在深圳市福田区深科技城顺利举行。深圳市清新电源研究院作为2024年度深圳市5A级社会组织接受授牌。深圳市清新电源研究院党支部书记、副院长杨洪青
    的头像 发表于 12-18 19:37 1148次阅读
    清新电源<b class='flag-5'>研究院</b>荣获深圳市5A级社会组织