0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Microsoft开源了零冗余优化器版本2(ZeRO-2)

倩倩 来源:文财网 2020-07-22 15:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Microsoft开源了零冗余优化器版本2(ZeRO-2),这是一种分布式深度学习优化算法,可根据集群大小进行超线性扩展。与以前的分布式学习技术相比,Microsoft使用ZeRO-2培训了10倍的1000亿参数自然语言处理(NLP)模型。

程序经理Rangan Majumder和杰出的工程师Wang Junhua在博客中写道,描述了该算法及其实验。ZeRO-2是Microsoft开源DeepSpeed库的一部分,用于深度学习培训优化。ZeRO-2优化了训练过程中的内存消耗,允许对多达1,700亿个参数的模型进行分布式训练。该算法还减少了分布式集群中工作节点之间的通信,实现了超线性并行加速,从而将培训时间减少了多达10倍。DeepSpeed团队在1,024个GPU的集群上使用ZeRO-2,达到了创纪录的44分钟的时间来训练BERT自然语言模型,比NVIDIA的结果提高了30%以上。

NLP研究的最新趋势表明,通过在较大数据集上训练的较大模型,可以提高准确性。OpenAI提出了一套“缩放定律”,表明模型精度与模型大小具有幂律关系,并且最近通过创建具有1750亿个参数的GPT-3模型对该想法进行了测试。由于这些模型太大而无法容纳单个GPU的内存,因此对其进行训练需要一堆机器和模型并行训练技术,以在整个集群中分配参数。有几种实现有效的模型并行性的开源框架,包括GPipe和NVIDIA的Megatron,但是由于集群节点之间的通信开销,它们具有次线性加速,并且使用框架通常需要模型重构。

ZeRO-2使用以下三种策略来减少训练所需的内存:减少模型状态内存需求,将层激活卸载到CPU以及减少内存碎片。ZeRO-2可以通过在并行进程之间划分梯度和参数,将模型状态内存需求减少多达8倍。层激活值是从前向训练过程中保存的,以便稍后在后向过程中使用,但是ZeRO-2将它们暂时从GPU的内存移动到主机CPU的内存。最后,即使可用内存不连续,即使内存可用,内存分配也可能失败。ZeRO-2通过为连续用途(例如激活和渐变)预先分配连续的内存块来减少碎片。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5607

    浏览量

    124618
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14717
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23343
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    开源欧拉社区正式发布openEuler Embedded 26.03版本

    近日,开源欧拉社区正式发布openEuler Embedded 26.03版本。新版本基于开源欧拉社区Intelligence BooM开源
    的头像 发表于 04-22 10:47 300次阅读

    天数智芯DeepSpark开源社区正式发布百大应用开放平台26.03版本

    近日,天数智芯主导的DeepSpark开源社区,正式发布百大应用开放平台26.03版本
    的头像 发表于 04-07 17:36 1618次阅读
    天数智芯DeepSpark<b class='flag-5'>开源</b>社区正式发布百大应用开放平台26.03<b class='flag-5'>版本</b>

    资讯速递 | 具身智能PMC(筹)发布“成本”开源鸿蒙智能机器人系统

    开源鸿蒙具身智能PMC(筹)在元旦发布开发者可使用的机器人开发环境。 “元购” 开源鸿蒙具身智能机器人:开源鸿蒙模拟
    的头像 发表于 01-05 16:24 815次阅读
    资讯速递 | 具身智能PMC(筹)发布“<b class='flag-5'>零</b>成本”<b class='flag-5'>开源</b>鸿蒙智能机器人系统

    理解传感偏Sensor Bias (offset)

    zero-goffset对于加速度计)和速率偏移(zero-rateoffset对于陀螺仪)。图1-MTManager中惯性数据的屏幕截图(所有3个轴的角速度)图2-Z
    的头像 发表于 11-17 12:02 788次阅读
    理解传感<b class='flag-5'>器</b><b class='flag-5'>零</b>偏Sensor Bias (offset)

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练框
    的头像 发表于 10-21 11:11 1013次阅读
    NVIDIA<b class='flag-5'>开源</b>Audio<b class='flag-5'>2</b>Face模型及SDK

    开源鸿蒙6.0 Release版本重磅发布

    近日,在长沙国际会议中心举办的开源鸿蒙技术大会2025上,开放原子开源鸿蒙(即OpenAtom OpenHarmony,简称“开源鸿蒙”)项目群正式发布开源鸿蒙6.0 Release
    的头像 发表于 10-10 16:49 3104次阅读

    电流软开关PWM变换

    摘要:提出了一种新型的全桥移相电压电流变换拓扑结构。新的变换通过导通副边辅助电路中的钳位MOSFET,使得滤波电感两端电压被钳位为
    发表于 07-30 16:08

    开源Made with KiCad(134):Icepi Zero - 基于Lattice ECP5的便携FPGA开发板

    =02070198-e0ce-4a9c-9d3b-bf71cef6644d PCB License Solderpad Hardware License v2.1 仓库 & 下载 可以在Github中获取开源仓库: https://github.com/cheyao/icepi-
    的头像 发表于 07-14 11:21 3907次阅读
    <b class='flag-5'>开源</b>Made with KiCad(134):Icepi <b class='flag-5'>Zero</b> - 基于Lattice ECP5的便携FPGA开发板

    开源——基于STM32F407VET6知增强板的四路独立计时

    : 1.4 连接实物图 二、软件环境配置1.开源开发工具(Lingzhi IDE) 2.安装必要的库:Adafruit_GFX Adafruit_ST77893.配置开发板类型
    发表于 07-01 10:31

    树莓派 Zero 2 W 是开启智能家居生活的理想之选!

    想尝试智能家居自动化,又不想花费太多?树莓派Zero2W或许正是你开启智能家居之旅所需的理想设备。小板子大潜力想打造一个智能家居?这想法超棒!一旦掌握技巧,自动化控制灯光、插座、传感等设备,既有
    的头像 发表于 06-24 16:24 1148次阅读
    树莓派 <b class='flag-5'>Zero</b> <b class='flag-5'>2</b> W 是开启智能家居生活的理想之选!

    开源——STM32F103RBT6驱动 ICM20948 九轴传感及 vofa + 上位机可视化教程

    STM32F1本教程使用知标准板(STM32F103RBT6)通过I2C驱动ICM20948九轴传感,实现姿态解算,并通过串口将数据实时发送至VOFA+上位机进行3D可视化。代码基于开源
    发表于 06-09 14:53

    开源分享】:开源小巧的FPGA开发板——Icepi Zero

    。程序员可以使用它在多种架构上测试他们的代码。 Icepi Zero 还有一个板载 USB 到 JTAG 转换,因此不需要外部编程。此外,Icepi Zero 是完全
    发表于 06-09 14:01

    知经验——STM32F4驱动ICM20948 九轴运动传感 + VOFA上位机可视化验证与抗漂移优化

    ;3cm距离 三、深度优化方案:全链路抗漂策略3.1 传感配置优化(ICM20948.cpp) 在initICM20948函数中优化配置
    发表于 06-06 10:03

    HarmonyOS优化应用包体积大小问题性能优化

    Studio中C++默认库文件为例,压缩前后的文件大小对比如下: (二)解决依赖减少依赖包重复编译 对于ohpm 1.5.0之前的版本,如果hap依赖不同版本的har(如下图中V1版本
    发表于 05-20 14:50

    用 树莓派 Zero 打造的智能漫游车!

    使用PXFMini和树莓派Zero打造您自己的自主漫游车。本项目所用组件硬件组件ErleRoboticsPXFmini×1树莓派Zero×1树莓派2ModelB×1树莓派3ModelB×1软件应用与在线服务APM飞行
    的头像 发表于 05-13 16:39 1297次阅读
    用 树莓派 <b class='flag-5'>Zero</b> 打造的智能漫游车!