0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPipe是什么,效果如何?为什么要对跨加速器的模型进行分区?

DPVg_AI_era 来源:lp 2019-03-06 09:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

加速DNN模型训练速度方法中,数据并行受到单个加速器可支持模型大小的限制;而模型并行因为DNN顺序性导致大量算力浪费。目前Google推出GPipe,将两种方法的优势进行结合,解决了两者的劣势,成功提升训练速度。

深度神经网络(DNN)已经推动了许多机器学习任务,比如语音识别,视觉识别和语言处理。

BigGan、Bert和GPT2.0的最新进展表明,越大的DNN模型,越能带来更好的性能。

而视觉识别任务的过去进展也表明,模型大小和分类准确性之间,存在很强的相关性。

例如2014年ImageNet视觉识别挑战赛中,获胜者GoogleNet使用400万参数,精确度达到了74.8%。

而2017年ImageNet挑战赛的获胜者Squeeze-and-Excitation Networks,使用1.5亿参数,精确度达到了82.7%。

仅仅3年,数据处理能力翻了36番。而在同一时期,GPU内存仅增加了约3倍。

当前最先进的图像模型,已经达到了云TPUv2内存的可用上限。因此,迫切需要一种更高效、可扩展的基础设施,以实现大规模深度学习,并克服当前加速器的内存限制。

ImageNet精度和模型大小之间的强相关性

基于以上目的,Google推出了GPipe。

GPipe是什么,效果如何?

GPipe是一个分布式机器学习、可扩展的管道并行库,可以学习巨型深度神经网络。

使用同步随机梯度下降和管道并行性进行训练,适用于由多个连续层组成的任何DNN。

GPipe允许研究人员轻松部署更多加速器来训练更大的模型,并在不调整超参数的情况下,达到提升性能的效果。

GPipe将跨加速器和管道执行的网络层进行分区,以便实现对硬件更高的利用率,同时利用重新计算来将激活的内存使用降至最低。

例如,使用8个加速器的分区,GPipe就可以训练25倍大神经网络。

而GPipe也几乎实现了线性加速。使用4倍数量的加速器,处理同一个模型的速度提升了3.5倍;16倍加速器速度提升11倍。

同时它也要保证计算的梯度和分区的数量保持一致,从而在不对模型的参数做任何改动的前提下,都能保持线性加速。

目前,核心GPipe库已在Lingvo框架下开源。

为什么要对跨加速器的模型进行分区?

有两种标准方法可以加速DNN模型:

数据并行方法,使用更多的机器并将输入数据分开

模型并行性。将模型移动到如GPU或TPU等具有加速模型训练的特殊硬件

然而加速器的内存、与主机的通信带宽均有限。因此模型并行性就需要将模型进行分割,将不同的分区分配给不通过的加速器。

可是由于由于DNN的顺序性,这种朴素的策略可能导致在计算期间,只有一个加速器处于激活状态,导致大量算力的浪费。

而标准数据并行方法是允许在多个加速器上,同时训练不同输入数据的相同模型,但每个加速器可支持模型大小又有限制。

GPipe的做法是将模型分割,并划分给不同的加速器,自动将小Batch拆分为更小的微Batch,这样就实现了跨多个加速器的高效训练。

此外,因为梯度一直在微批次中累积,所以分区数量不会影响模型质量。

Time部分:由于网络的连续性,幼稚模型并行策略导致严重的未充分利用。 一次只有一个加速器处于活动状态

Bubble部分:GPipe将输入小批量分成较小的微批次,使不同的加速器可以同时在单独的微批次上工作

使用GPipe和不使用,之间的差异有多大?

一个TPUv2有8个加速器核心和64GB内存(每个加速器8GB),由于内存限制,单个加速器可以训练的参数量上限是8200万。

借助反向传播和批量分割中的重新计算,GPipe将中间激活内存从6.26GB减少到3.46GB,将单个加速器参数处理上限提升至3.18亿个。

我们还看到,通过管道并行性,最大模型大小与分区数成正比,如预期的那样。

通过GPipe,AmoebaNet能够在云TPUv2的8个加速器上加入18亿个参数,比没有GPipe的情况下多25倍。

Google测量了GPipe对AmoebaNet-D模型吞吐量的影响。效率和加速器的数量几乎是呈线性加速,8个加速器+8个分区,比2个加速器+2个分区快2.5倍。

TPUv3效果更好。在1024个令牌句子上启用了80亿个参数Transformer语言模型,16个加速器将速度提升了11倍

使用GPipe加速AmoebaNet-D,这种模型不适合一个加速器

基线naive-2是将模型拆分为两个分区时本机分区方法的性能

Pipeline-k指的是GPipe的性能,它将模型分成带有k个加速器的k个分区

GPipe还可以通过使用更多加速器来扩展训练,而无需更改超参数。因此,它可以与数据并行性相结合,以互补的方式使用更多的加速器来扩展神经网络训练。

GPipe精确度能达到多少?

前面我们提到,处理的数据量越大,获得的精度就越高。

Google在ImageNet ILSVRC-2012数据集上,使用Cloud TPUv2训练了一个有5.57亿参数、480 x 480输入图像尺寸的AmoebaNet-B模型。

该网络被分成4个分区,这个巨型模型在多个流行数据集上表现良好,在没有任何外部数据的情况下,精度达到了最先进的84.3% top-1,以及97% top-5的single-crop验证准确度。

大型神经网络不仅适用于ImageNet等数据集,还通过迁移学习,与其他数据集息息相关。

目前我们已知ImageNet模型越好,迁移就越好。Google在CIFAR10和CIFAR100数据集上进行了迁移学习实验,将最佳公布的CIFAR-10精度提高到99%,将CIFAR-100精度提高到91.3%。

哪里能获取到GPipe?

Github:

https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    841

    浏览量

    40244
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108180
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137226

原文标题:谷歌开源效率怪兽GPipe,速度提升25倍,CIFAR-10精度达到99%

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何使用 powerquad 加速器中的一些功能以及 CMSIS 原始实现中的一些功能?

    )。 如何使用 powerquad 加速器中的一些功能以及 CMSIS 原始实现中的一些功能。 Example: I do not want to call arm_mat_trans_q15 powerquad
    发表于 04-03 06:37

    罗氏中国加速器科研坊正式启动

    "罗氏中国加速器科研坊"在上海举办,首批来自三甲医院的二十多位临床科研人员,参加了为期五天的肿瘤临床开发训练营。
    的头像 发表于 03-28 09:55 353次阅读

    后摩智能M50芯片亮相联想集团首届创新加速器开放日

    2月5日,联想集团在京举办首届创新加速器开放日暨“新商业创新生态路演”,本次活动聚焦于AI算力、核心部件及软硬件应用等领域的技术及产品。作为联想创投旗下企业,后摩智能集中展示了如何通过端边大模型AI芯片M50,为AI PC等消费端产品提供强大的本地大
    的头像 发表于 02-09 15:59 649次阅读

    AMD Alveo MA35D加速器:开启大规模交互式流媒体新时代

    AMD Alveo MA35D加速器:开启大规模交互式流媒体新时代 在当今全球视频市场被直播主导的背景下,低延迟应用不断涌现,对基础设施和视频处理技术的成本结构及部署策略产生了深远影响。AMD推出
    的头像 发表于 12-15 14:35 572次阅读

    工业级-专业液晶图形显示加速器RA8889ML3N简介+显示方案选型参考表

    本帖最后由 MTCN2013 于 2025-11-17 15:23 编辑 专业液晶图形显示加速器能够有效减少对MCU运算资源的占用,对于只需普通单片机运算资源的仪器仪表来说,专业图形显示加速器
    发表于 11-14 16:03

    边缘计算中的AI加速器类型与应用

    人工智能正在推动对更快速、更智能、更高效计算的需求。然而,随着每秒产生海量数据,将所有数据发送至云端处理已变得不切实际。这正是边缘计算中AI加速器变得不可或缺的原因。这种专用硬件能够直接在边缘设备上
    的头像 发表于 11-06 13:42 1007次阅读
    边缘计算中的AI<b class='flag-5'>加速器</b>类型与应用

    一些神经网络加速器的设计优化方案

    特征图保留不变,完成和所有相关卷积核点积以后再加载,最多复用 R*R*M 次。 3.不同网络模型效果 如图所示,后者相对于前者,减少了连线资源和复杂度。 4.DNN加速器空间架构片上存储
    发表于 10-31 07:14

    亚马逊云科技第三期创业加速器圆满收官 助力初创释放Agentic AI潜力 加速全球化进程

    北京——2025年10月28日 ,亚马逊云科技第三期创业加速器项目圆满收官。35家入营企业齐聚一堂,分享了各自的业务发展情况,以及参与本期加速器的收获及体验。第三期创业加速器持续聚焦AI,特别是前沿
    的头像 发表于 10-29 15:18 1062次阅读

    SNN加速器内部神经元数据连接方式

    的数量级,而且生物轴突的延迟和神经元的时间常数比数字电路的传播和转换延迟要大得多,AER 的工作方式和神经网络的特点相吻合,所以受生物启发的神经形态处理中的NoC或SNN加速器通常使用AER协议来进行
    发表于 10-24 07:34

    航裕电源以大电流技术为国内外超导加速器项目提供优质方案

    航裕电源:以大电流技术,护航尖端科技 大科学装置建设热潮中,超导加速器作为探索微观世界、推动前沿科研的 “国之重”,对供电系统的稳定性、精度及功率提出极致要求。航裕电源以31.5kA、80kA万安
    的头像 发表于 10-12 15:02 1757次阅读

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型训练的深度突破到推理部署的实时响应,为大模型
    的头像 发表于 08-26 19:18 3311次阅读
    英特尔Gaudi 2E AI<b class='flag-5'>加速器</b>为DeepSeek-V3.1提供<b class='flag-5'>加速</b>支持

    创客总部加入MathWorks加速器计划

    全球领先的数学计算软件开发商 MathWorks 日前宣布,创客总部已加入 MathWorks 加速器计划。作为中关村科创孵化,创客总部致力于为人工智能创业企业、高校院所技术精英搭建推动与实体经济
    的头像 发表于 08-22 10:00 1350次阅读

    高压放大器在粒子加速器研究中的应用

    粒子加速器是现代科学研究中不可或缺的大型实验装置,广泛应用于物理学、化学、材料科学、生物学等多个领域。其核心原理是利用电场和磁场对带电粒子进行加速和约束,使粒子达到极高的能量,从而为研究微观世界
    的头像 发表于 06-19 17:09 714次阅读
    高压放大器在粒子<b class='flag-5'>加速器</b>研究中的应用

    粒子加速器 —— 科技前沿的核心装置

    粒子加速器全称“荷电粒子加速器”,是一种利用电磁场在高真空环境中对带电粒子(如电子、质子、离子)进行加速和控制,使其获得高能量的特种装置。粒子加速器
    的头像 发表于 06-19 12:05 4091次阅读
    粒子<b class='flag-5'>加速器</b> —— 科技前沿的核心装置

    基于双向块浮点量化的大语言模型高效加速器设计

    本文提出双向块浮点(BBFP)量化格式及基于其的LLMs加速器BBAL,通过双向移位与重叠位设计显著降低量化误差,提升非线性计算效率,实现精度、吞吐量和能效的显著优化,相关成果被国际顶级会议 DAC 2025 接收。
    的头像 发表于 05-14 13:40 2528次阅读
    基于双向块浮点量化的大语言<b class='flag-5'>模型</b>高效<b class='flag-5'>加速器</b>设计