0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Microsoft开源了零冗余优化器版本2(ZeRO-2)

倩倩 来源:文财网 2020-07-22 15:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Microsoft开源了零冗余优化器版本2(ZeRO-2),这是一种分布式深度学习优化算法,可根据集群大小进行超线性扩展。与以前的分布式学习技术相比,Microsoft使用ZeRO-2培训了10倍的1000亿参数自然语言处理(NLP)模型。

程序经理Rangan Majumder和杰出的工程师Wang Junhua在博客中写道,描述了该算法及其实验。ZeRO-2是Microsoft开源DeepSpeed库的一部分,用于深度学习培训优化。ZeRO-2优化了训练过程中的内存消耗,允许对多达1,700亿个参数的模型进行分布式训练。该算法还减少了分布式集群中工作节点之间的通信,实现了超线性并行加速,从而将培训时间减少了多达10倍。DeepSpeed团队在1,024个GPU的集群上使用ZeRO-2,达到了创纪录的44分钟的时间来训练BERT自然语言模型,比NVIDIA的结果提高了30%以上。

NLP研究的最新趋势表明,通过在较大数据集上训练的较大模型,可以提高准确性。OpenAI提出了一套“缩放定律”,表明模型精度与模型大小具有幂律关系,并且最近通过创建具有1750亿个参数的GPT-3模型对该想法进行了测试。由于这些模型太大而无法容纳单个GPU的内存,因此对其进行训练需要一堆机器和模型并行训练技术,以在整个集群中分配参数。有几种实现有效的模型并行性的开源框架,包括GPipe和NVIDIA的Megatron,但是由于集群节点之间的通信开销,它们具有次线性加速,并且使用框架通常需要模型重构。

ZeRO-2使用以下三种策略来减少训练所需的内存:减少模型状态内存需求,将层激活卸载到CPU以及减少内存碎片。ZeRO-2可以通过在并行进程之间划分梯度和参数,将模型状态内存需求减少多达8倍。层激活值是从前向训练过程中保存的,以便稍后在后向过程中使用,但是ZeRO-2将它们暂时从GPU的内存移动到主机CPU的内存。最后,即使可用内存不连续,即使内存可用,内存分配也可能失败。ZeRO-2通过为连续用途(例如激活和渐变)预先分配连续的内存块来减少碎片。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5615

    浏览量

    124885
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14795
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23414
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    KiCad 跨版本转换工具(向下)开源

    “  一个月前手搓一个 KiCad 版本转换工具,可以将 KiCad 10 的原理图/PCB/Symbol/Footprint 转换为低版本的 KiCad。修复一些网友反馈的问题后
    的头像 发表于 05-25 11:17 1447次阅读
    KiCad 跨<b class='flag-5'>版本</b>转换工具(向下)<b class='flag-5'>开源</b><b class='flag-5'>了</b>!

    开源欧拉社区正式发布openEuler Embedded 26.03版本

    近日,开源欧拉社区正式发布openEuler Embedded 26.03版本。新版本基于开源欧拉社区Intelligence BooM开源
    的头像 发表于 04-22 10:47 596次阅读

    天数智芯DeepSpark开源社区正式发布百大应用开放平台26.03版本

    近日,天数智芯主导的DeepSpark开源社区,正式发布百大应用开放平台26.03版本
    的头像 发表于 04-07 17:36 1838次阅读
    天数智芯DeepSpark<b class='flag-5'>开源</b>社区正式发布百大应用开放平台26.03<b class='flag-5'>版本</b>

    资讯速递 | 具身智能PMC(筹)发布“成本”开源鸿蒙智能机器人系统

    开源鸿蒙具身智能PMC(筹)在元旦发布开发者可使用的机器人开发环境。 “元购” 开源鸿蒙具身智能机器人:开源鸿蒙模拟
    的头像 发表于 01-05 16:24 1078次阅读
    资讯速递 | 具身智能PMC(筹)发布“<b class='flag-5'>零</b>成本”<b class='flag-5'>开源</b>鸿蒙智能机器人系统

    理解传感偏Sensor Bias (offset)

    zero-goffset对于加速度计)和速率偏移(zero-rateoffset对于陀螺仪)。图1-MTManager中惯性数据的屏幕截图(所有3个轴的角速度)图2-Z
    的头像 发表于 11-17 12:02 893次阅读
    理解传感<b class='flag-5'>器</b><b class='flag-5'>零</b>偏Sensor Bias (offset)

    开源鸿蒙6.1和8.1版本定为LTS建议版本,最新OpenHarmony路标发布

    开源项目生态建设中,版本生命周期管理是保障社区项目稳定演进、助力生态伙伴提前规划产品路线、降低开发者适配成本的核心环节。为进一步规范开源鸿蒙版本的发布流程与维护标准,明确技术支持周期
    的头像 发表于 10-30 09:29 1340次阅读
    <b class='flag-5'>开源</b>鸿蒙6.1和8.1<b class='flag-5'>版本</b>定为LTS建议<b class='flag-5'>版本</b>,最新OpenHarmony路标发布

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练框
    的头像 发表于 10-21 11:11 1119次阅读
    NVIDIA<b class='flag-5'>开源</b>Audio<b class='flag-5'>2</b>Face模型及SDK

    开源鸿蒙6.0 Release版本重磅发布

    近日,在长沙国际会议中心举办的开源鸿蒙技术大会2025上,开放原子开源鸿蒙(即OpenAtom OpenHarmony,简称“开源鸿蒙”)项目群正式发布开源鸿蒙6.0 Release
    的头像 发表于 10-10 16:49 3292次阅读

    Microsoft Edge浏览iOS端插件功能上线

    在最新发布的 139 版本中,Microsoft Edge 浏览 iOS 端正式支持插件功能!与此同时,Microsoft Edge 安卓端的插件数量已跃升至近 30 款。广告拦截、
    的头像 发表于 08-19 14:29 2253次阅读

    电流软开关PWM变换

    摘要:提出了一种新型的全桥移相电压电流变换拓扑结构。新的变换通过导通副边辅助电路中的钳位MOSFET,使得滤波电感两端电压被钳位为
    发表于 07-30 16:08

    开源Made with KiCad(134):Icepi Zero - 基于Lattice ECP5的便携FPGA开发板

    =02070198-e0ce-4a9c-9d3b-bf71cef6644d PCB License Solderpad Hardware License v2.1 仓库 & 下载 可以在Github中获取开源仓库: https://github.com/cheyao/icepi-
    的头像 发表于 07-14 11:21 4095次阅读
    <b class='flag-5'>开源</b>Made with KiCad(134):Icepi <b class='flag-5'>Zero</b> - 基于Lattice ECP5的便携FPGA开发板

    开源——STM32F407VET6驱动SHT41温湿度传感完整教程

    ​✔开源是一个真正属于国人自己的开源软硬件平台,在开发效率上超越Arduino平台并且更加容易上手,大大降低了开发难度。
    发表于 07-10 12:01

    开源——STM32F4结合BMP581气压传感实现ST7789中文显示教程

    传感数据采集。通过U8g2库实现高质量中文渲染,混合Adafruit_GFX进行高效数据显示,实时展示温度、压力和高度数据。教程详细介绍硬件连接方案(I2C/SPI接口)、软件架构
    的头像 发表于 07-09 09:21 2423次阅读
    <b class='flag-5'>零</b>知<b class='flag-5'>开源</b>——STM32F4结合BMP581气压传感<b class='flag-5'>器</b>实现ST7789中文显示教程

    开源——基于STM32F407VET6知增强板的四路独立计时

    : 1.4 连接实物图 二、软件环境配置1.开源开发工具(Lingzhi IDE) 2.安装必要的库:Adafruit_GFX Adafruit_ST77893.配置开发板类型
    发表于 07-01 10:31

    树莓派 Zero 2 W 是开启智能家居生活的理想之选!

    想尝试智能家居自动化,又不想花费太多?树莓派Zero2W或许正是你开启智能家居之旅所需的理想设备。小板子大潜力想打造一个智能家居?这想法超棒!一旦掌握技巧,自动化控制灯光、插座、传感等设备,既有
    的头像 发表于 06-24 16:24 1312次阅读
    树莓派 <b class='flag-5'>Zero</b> <b class='flag-5'>2</b> W 是开启智能家居生活的理想之选!