0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

和谷歌研究人员一起探索数据并行的边界极限

nlfO_thejiangme 来源:YXQ 2019-03-22 08:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在过去的几年里,神经网络在图像分类、机器翻译和语音识别等领域获得了长足的进步,取得了十分优异的结果。这样的成绩离不开软件和硬件的对训练过程的加速和改进。更快速的训练使得模型质量飞速提升,不仅在相同的时间内可以处理更多的数据,也使得研究人员得以迅速尝试更多的想法,研究出更好的模型。

随着软硬件和数据中心云计算的迅速发展,支撑神经网络的算力大幅提升,让模型训练地又好又快。但该如何利用这前所未有的算力来得到更好的结果是摆在所有研究人员面前的一个问题,我们是否应该用更大的算力来实现更快的训练呢?

并行计算

分布式计算是使用大规模算力最常用的方法,可以同时使用不同平台和不同架构的处理器。在训练神经网络的时候,一般会使用模型并行和数据并行两种方式。其中模型并行会将模型分别置于不同的计算单元上,使得大规模的模型训练成为可能,但通常需要对网络架构进行裁剪以适应不同的处理器。而数据并行着是将训练样本分散在多个计算单元上,并将训练结果进行同步。

数据并行几乎可以用于任何模型的训练加速,它是目前使用最为广泛也最为简单的神经网络并行训练手段。对于想SGD等常见的训练优化算法来说,数据并行的规模与训练样本的批量大小息息相关。我们需要探索对于数据并行方法的局限性,以及如何充分利用数据并行方法来加速训练。

实验中使用的模型、数据集和优化器。

谷歌的研究人员在先前的研究中评测了数据并行对于神经网络训练的影响,深入探索了批次(batch)的大小与训练时间的关系,并在六种不同的神经网络/数据集上利用三种不同的优化方法进行了测试。在实验中研究人员在约450个负载上训练了超过100k个模型并发现了训练时间与批量大小的关系。

研究人员分别从数据集、网络架构、优化器等角度探索了这一关系的变化,发现在不同的负载上训练时间和批量大小的关系发生了剧烈的变化。研究结果中包含了71M个模型的测评结果,完整的描绘了100k个模型的训练曲线,并在论文中的24个图中充分体现了出来。

训练时间与批量大小间的普遍联系

在理想的数据并行系统中,模型间的同步时间可忽略不计,训练时间可以使用训练的步数(steps)来测定。在这一假设下,研究人员从实验的结果中发现了三个区间的关系:在完美区间内训练时间随着批量大小线性减小,随之而来的是递减拐点,最后将达到最大数据并行的极限,无论如何增大批量的大小即使不考虑硬件,模型的训练时间也不会明显减小。

尽管上述的基本关系在不同测试中成立,但研究人员发现上述过程中的拐点在不同数据集和神经网络架构中的表现十分不同。这意味着简单的数据并行可以再当今硬件极限的基础上为某些工作提供加速,但除此之外有些工作也许还需要其他方法来充分利用大规模算力。

在上面的例子中可以看到,ResNet-8在CIFAR-10并不能从超过1024的批大小中获得明显的加速,而ResNet-50在ImageNet上则可以一直将批大小提升到65536以上来减小训练时间。

优化任务

如果可以预测出哪一种负载最适合于数据并行训练,我们就可以针对性的修改任务负载以充分利用硬件算力。但遗憾的是实验结果并没有给出一个明确的计算最大有效批次的方法。拐点与网络架构、数据集、优化器都有着密切的关系。例如在相同的数据集和优化器上,不同的架构可能会有截然不同的最大可用批次数量。

研究人员认为这主要来源于网络宽度和深度的不同,但对于某些网络来说甚至没有深度和宽度的概念,所以无法得到一个较为清晰的关系来计算最大可用批次数量。甚至当我们发现有的网络架构可以接受更大的批次,但在不同数据集上的表现又无法得到统一的结论,有时小数据集上大批次的表现甚至要好于大数据上的结果。

fig 4图中显示了迁移模型和LSTM模型在相同数据集上最大批次的不同,右图则显示了较大的数据集与最大batch也没有绝对的相关性,LM1B规模较小但可以达到较大的batch。但毋庸置疑的是,在优化算法上的微小改动都会使得训练结果在增加批量大小的过程中发生极大的变化。这意味着我们可以通过设计新的优化器来最大化的利用数据并行的能力。

未来的工作

虽然利用通过增加批量大小来提高数据并行能力是提速的有效手段,但由于衰减效应的存在无法达到硬件的极限能力。研究表明优化算法也许可以指导我们找到充分利用硬件算力的解决方案。研究人员未来的工作将集中于对于不同优化器的测评,探索恩能够加速数据并行能力的新方法,尽可能的延伸批量大小对应训练时间的加速范围。

如果想探索研究人员们在千百个模型上训练出的数据,可以直接访问colab:https://colab.research.google.com/github/google-research/google-research/blob/master/batch_science/reproduce_paper_plots.ipynb详细过程见论文包含了24个丰富完整的测评图,描绘了神经网络训练过程各种参数随批量变化的完整过程:https://arxiv.org/pdf/1811.03600.pdf

ref:https://ai.googleblog.com/2019/03/measuring-limits-of-data-parallel.html

Paper:https://arxiv.org/pdf/1811.03600.pdf

代码:https://colab.research.google.com/github/google-research/google-research/blob/master/batch_science/reproduce_paper_plots.ipynb

https://blog.skymind.ai/distributed-deep-learning-part-1-an-introduction-to-distributed-training-of-neural-networks/https://blog.inten.to/hardware-for-deep-learning-part-3-gpu-8906c1644664?gi=bdd1e2e4331ehttps://ai.googleblog.com/2019/03/measuring-limits-of-data-parallel.htmlhttps://blog.csdn.net/xbinworld/article/details/74781605

Headpic from: https://dribbble.com/shots/4038074-Data-Center

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6246

    浏览量

    110335
  • 并行计算
    +关注

    关注

    0

    文章

    30

    浏览量

    9699
  • 分布式计算
    +关注

    关注

    0

    文章

    28

    浏览量

    4655

原文标题:和谷歌研究人员一起,探索数据并行的边界极限

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    研究人员复兴针孔相机技术以推动下代红外成像发展

    研究人员运用具有数百年历史的针孔成像原理,开发出种无需透镜的高性能中红外成像系统。这种新型相机能够在大范围距离内和弱光条件下拍摄极其清晰的照片,使其在传统相机难以应对的场景中发挥重要作用。 研究
    的头像 发表于 11-17 07:40 71次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    理论、实验及仿真统一起来,催生了数据密集型科学,这就是第四范式。它利用大量的计算和数据处理来研究复杂的问题和现象。特点如下: 第四范式带来的质变: 第五范式: 科学范式的演变:二、科学
    发表于 09-17 11:45

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    到AGI,一起探索AI芯片 本书从创新视角出发,系统梳理了AI芯片的前沿技术与未来方向,串联从算法到系统的实现路径,全景式展现AI芯片的技术原理与应用场景。 书中核心内容可分为算法创新、工艺创新、材料
    发表于 07-28 13:54

    光纤能与电线一起走吗

    光纤与电线在特定条件下可以一起布线,但需严格遵守安全规范和物理隔离要求,以下是详细分析: 、光纤与电线的物理特性差异 光纤 传输介质:以光信号传输数据,不导电,因此不受电磁干扰(EMI
    的头像 发表于 07-14 10:40 5278次阅读

    研究人员开发出基于NVIDIA技术的AI模型用于检测疟疾

    疟疾曾度在委内瑞拉销声匿迹,但如今正卷土重来。研究人员已经训练出个模型来帮助检测这种传染病。
    的头像 发表于 04-25 09:58 763次阅读

    屏蔽网线可以和电线一起

    屏蔽网线与电线不建议一起走线,原因主要有以下几点: 电磁干扰:电源线在传输电能时会产生电磁场,而屏蔽网线中的导线可能会受到这个电磁场的干扰。这种干扰可能导致屏蔽网线的信号质量下降、速度变慢,甚至无法
    的头像 发表于 03-07 10:47 1573次阅读

    NVIDIA GPU助力科研人员探索外星世界

    NVIDIA GPU 驱动的深度学习在短短几秒内解读出了卡西尼号土星探测器多年来收集的海量数据,为科研人员探索外星世界提供了更加智能的方式。
    的头像 发表于 02-27 10:37 859次阅读

    TeleAI提出COPO对齐方法:8B模型超越Llama3-70B的表现

    新大陆。 正如人类在面对未知时展现出的探索行为,在人工智能领域,尤其在大型语言模型(LLMs)理解语言和知识中,研究人员正尝试赋予 LLM 类似的探索能力,从而突破其在给定数据集中学习
    的头像 发表于 02-17 17:31 681次阅读
    TeleAI提出COPO对齐方法:8B模型超越Llama3-70B的表现

    把3片的16位总线全部并联了,3片的16位总线直接黏在一起可以吗?

    我的板子上3片ADS8556采用的是16bit并行数据总线与FPGA相连。我把3片的16位总线全部并联了,电路图如下: 看不清请见pdf附件。 唯问题就是3片的16位总线直接黏在一起可以吗
    发表于 02-08 06:13

    AN-166:与Linduino一起飞行中更新

    电子发烧友网站提供《AN-166:与Linduino一起飞行中更新.pdf》资料免费下载
    发表于 01-12 10:09 0次下载
    AN-166:与Linduino<b class='flag-5'>一起</b>飞行中更新

    和Dr Peter一起学KiCad 4.8:设计规则检查(DRC)

    和Dr Peter一起学KiCad 4.8:设计规则检查(DRC)
    的头像 发表于 12-25 14:55 2854次阅读
    和Dr Peter<b class='flag-5'>一起</b>学KiCad 4.8:设计规则检查(DRC)

    快来“一起鸿蒙吧”!体验更出色,智慧再升级

    当鸿蒙遇上脱口秀,会擦出什么样的火花?“一起鸿蒙吧”给出了答案。华为邀请了呼兰、贾耗、漫才兄弟、庞博、小鹿等艺人,用脱口秀独有的风趣幽默方式,将原生鸿蒙带入观众的视野。从真实的应用场景出发,脱口秀
    的头像 发表于 12-25 14:45 643次阅读
    快来“<b class='flag-5'>一起</b>鸿蒙吧”!体验更出色,智慧再升级

    视觉AI之旅:一起探索 FiftyOne ——第二部分 入门指南

    /journey-into-visual-ai-exploring-fiftyone-together-part-ii-getting-started-14cca5adfcd3     ,前言 上次我们介绍了《视觉AI之旅:一起探索
    的头像 发表于 12-24 17:00 738次阅读
    视觉AI之旅:<b class='flag-5'>一起</b><b class='flag-5'>探索</b> FiftyOne ——第二部分  入门指南

    将UCC39002与3个PT4484模块一起使用

    电子发烧友网站提供《将UCC39002与3个PT4484模块一起使用.pdf》资料免费下载
    发表于 12-21 10:23 2次下载
    将UCC39002与3个PT4484模块<b class='flag-5'>一起</b>使用

    研究人员利用激光束开创量子计算新局面

    演示设备 威特沃特斯兰德大学(Wits)的物理学家利用激光束和日常显示技术开发出了种创新的计算系统,标志着在寻求更强大的量子计算解决方案方面取得了重大飞跃。 该大学结构光实验室的研究人员取得的这
    的头像 发表于 12-18 06:24 596次阅读
    <b class='flag-5'>研究人员</b>利用激光束开创量子计算新局面