和谷歌研究人员一起探索数据并行的边界极限-电子发烧友网

在过去的几年里，神经网络在图像分类、机器翻译和语音识别等领域获得了长足的进步，取得了十分优异的结果。这样的成绩离不开软件和硬件的对训练过程的加速和改进。更快速的训练使得模型质量飞速提升，不仅在相同的时间内可以处理更多的数据，也使得研究人员得以迅速尝试更多的想法，研究出更好的模型。

随着软硬件和数据中心云计算的迅速发展，支撑神经网络的算力大幅提升，让模型训练地又好又快。但该如何利用这前所未有的算力来得到更好的结果是摆在所有研究人员面前的一个问题，我们是否应该用更大的算力来实现更快的训练呢？

并行计算

分布式计算是使用大规模算力最常用的方法，可以同时使用不同平台和不同架构的处理器。在训练神经网络的时候，一般会使用模型并行和数据并行两种方式。其中模型并行会将模型分别置于不同的计算单元上，使得大规模的模型训练成为可能，但通常需要对网络架构进行裁剪以适应不同的处理器。而数据并行着是将训练样本分散在多个计算单元上，并将训练结果进行同步。

数据并行几乎可以用于任何模型的训练加速，它是目前使用最为广泛也最为简单的神经网络并行训练手段。对于想SGD等常见的训练优化算法来说，数据并行的规模与训练样本的批量大小息息相关。我们需要探索对于数据并行方法的局限性，以及如何充分利用数据并行方法来加速训练。

实验中使用的模型、数据集和优化器。

谷歌的研究人员在先前的研究中评测了数据并行对于神经网络训练的影响，深入探索了批次(batch)的大小与训练时间的关系，并在六种不同的神经网络/数据集上利用三种不同的优化方法进行了测试。在实验中研究人员在约450个负载上训练了超过100k个模型并发现了训练时间与批量大小的关系。

研究人员分别从数据集、网络架构、优化器等角度探索了这一关系的变化，发现在不同的负载上训练时间和批量大小的关系发生了剧烈的变化。研究结果中包含了71M个模型的测评结果，完整的描绘了100k个模型的训练曲线，并在论文中的24个图中充分体现了出来。

训练时间与批量大小间的普遍联系

在理想的数据并行系统中，模型间的同步时间可忽略不计，训练时间可以使用训练的步数(steps)来测定。在这一假设下，研究人员从实验的结果中发现了三个区间的关系：在完美区间内训练时间随着批量大小线性减小，随之而来的是递减拐点，最后将达到最大数据并行的极限，无论如何增大批量的大小即使不考虑硬件，模型的训练时间也不会明显减小。

尽管上述的基本关系在不同测试中成立，但研究人员发现上述过程中的拐点在不同数据集和神经网络架构中的表现十分不同。这意味着简单的数据并行可以再当今硬件极限的基础上为某些工作提供加速，但除此之外有些工作也许还需要其他方法来充分利用大规模算力。

在上面的例子中可以看到，ResNet-8在CIFAR-10并不能从超过1024的批大小中获得明显的加速，而ResNet-50在ImageNet上则可以一直将批大小提升到65536以上来减小训练时间。

优化任务

如果可以预测出哪一种负载最适合于数据并行训练，我们就可以针对性的修改任务负载以充分利用硬件算力。但遗憾的是实验结果并没有给出一个明确的计算最大有效批次的方法。拐点与网络架构、数据集、优化器都有着密切的关系。例如在相同的数据集和优化器上，不同的架构可能会有截然不同的最大可用批次数量。

研究人员认为这主要来源于网络宽度和深度的不同，但对于某些网络来说甚至没有深度和宽度的概念，所以无法得到一个较为清晰的关系来计算最大可用批次数量。甚至当我们发现有的网络架构可以接受更大的批次，但在不同数据集上的表现又无法得到统一的结论，有时小数据集上大批次的表现甚至要好于大数据上的结果。

fig 4图中显示了迁移模型和LSTM模型在相同数据集上最大批次的不同，右图则显示了较大的数据集与最大batch也没有绝对的相关性，LM1B规模较小但可以达到较大的batch。但毋庸置疑的是，在优化算法上的微小改动都会使得训练结果在增加批量大小的过程中发生极大的变化。这意味着我们可以通过设计新的优化器来最大化的利用数据并行的能力。

未来的工作

虽然利用通过增加批量大小来提高数据并行能力是提速的有效手段，但由于衰减效应的存在无法达到硬件的极限能力。研究表明优化算法也许可以指导我们找到充分利用硬件算力的解决方案。研究人员未来的工作将集中于对于不同优化器的测评，探索恩能够加速数据并行能力的新方法，尽可能的延伸批量大小对应训练时间的加速范围。

如果想探索研究人员们在千百个模型上训练出的数据，可以直接访问colab：https://colab.research.google.com/github/google-research/google-research/blob/master/batch_science/reproduce_paper_plots.ipynb详细过程见论文包含了24个丰富完整的测评图，描绘了神经网络训练过程各种参数随批量变化的完整过程：https://arxiv.org/pdf/1811.03600.pdf

ref:https://ai.googleblog.com/2019/03/measuring-limits-of-data-parallel.html

Paper:https://arxiv.org/pdf/1811.03600.pdf

代码：https://colab.research.google.com/github/google-research/google-research/blob/master/batch_science/reproduce_paper_plots.ipynb

https://blog.skymind.ai/distributed-deep-learning-part-1-an-introduction-to-distributed-training-of-neural-networks/https://blog.inten.to/hardware-for-deep-learning-part-3-gpu-8906c1644664?gi=bdd1e2e4331ehttps://ai.googleblog.com/2019/03/measuring-limits-of-data-parallel.htmlhttps://blog.csdn.net/xbinworld/article/details/74781605

Head pic from: https://dribbble.com/shots/4038074-Data-Center

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5838

浏览量
103228
并行计算

并行计算

+关注

关注
0

文章
27

浏览量
9368
分布式计算

分布式计算

+关注

关注
0

文章
27

浏览量
4430

原文标题：和谷歌研究人员一起，探索数据并行的边界极限

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

研究人员发现提高激光加工分辨率的新方法

通过透明玻璃聚焦定制激光束可以在材料内部形成一个小光斑。东北大学的研究人员研发了一种利用这种小光斑改进激光材料加工、提高加工分辨率的方法。他们的研究成果发表在《光学通讯》(Optics

发表于 04-18 06:30 •55次阅读

<b class='flag-5'>研究人员</b>发现提高激光加工分辨率的新方法

边界矢量数据是什么格式

边界矢量数据是一种用于描述地理空间边界的格式。它包含了一系列的数据点，这些点按照一定的顺序连接起来，形成了一条封闭的线，来表示地理区域的边界

发表于 02-25 15:16 •293次阅读

LabVIEW进行癌症预测模型研究

效果。 LabVIEW在此研究中的应用展示了其在处理复杂医学数据和开发高效预测模型方面的独特优势，特别是在癌症早期诊断和治疗策略的研究中。通过使用LabVIEW，研究人员可以更快、更准

发表于 12-13 19:04

研究人员创造一种六角形心电图贴片实现遥感与数据传输功能

干电极进行心电图信号传导的优势，研究人员创造了一种紧凑、轻便、无凝胶的六角形心电图贴片，并集成了无线蓝牙模块，以实现遥感与数据传输功能。心血管疾病是全球主要的死亡原因之一，每年至少有两千万人经历非致命性心脏病发作或中风。心电图在心血管疾病的

发表于 12-13 16:44 •227次阅读

谷歌研究人员利用现有的耳机来测量心率

谷歌的研究人员还发现，当音乐播放时，超声波方法效果很好，但它在嘈杂的环境中还可能存在问题，“APG信号有时会非常嘈杂，或可受到身体运动的严重干扰。”然而，他们发现，他们可以通过使用多个频率并找出其中最准确的信号来克服运动问题。

发表于 11-09 16:32 •334次阅读

NUC120RE3AN和Flash一起烧录提示空间不足如何解决？

各位工程你们好，请问下NUC120RE3AN在烧录时，只能烧录LDROM和APROM进去，而数据Flash一起烧录时，提示空间不足，但从参考的样品读取，别人是LDROM、APROM数据Flash都有显示，请问怎样才可以把

发表于 08-30 07:00

如何将Arm Neon C#内部函数与Unity Burst编译器一起使用

如何通过并行操作数据来帮助提高性能。 •编写编译器可以根据Neon指令自动优化的代码的最佳实践。 •当编译器错过Neon优化机会时，如何使用Arm Neon内部函数。 •如何将Arm Neon内部函数与Unity Burst编译器一起

发表于 08-10 07:11

研究人员展示了首个可见波长飞秒光纤激光器

研究人员已经开发出第一种能够在电磁波谱可见范围内产生飞秒脉冲的光纤激光器。光纤激光器产生超短、明亮的可见波长脉冲，可用于各种生物医学应用以及材料加工等其他领域。

发表于 07-08 09:15 •522次阅读

研究人员展示FeverPhone软件，利用手机温度传感器测量人体温度

传感新品【华盛顿大学：研究人员展示FeverPhone软件，利用手机温度传感器测量人体温度】 6 月 24 日消息，华盛顿大学的研究人员开发出了一款名为 FeverPhone 的软件，这个软件可以

发表于 06-26 08:39 •897次阅读

NVIDIA Cambridge-1 AI 超级计算机通过云让更多研究人员能够访问

继成功打造 Cambridge-1 之后，NVIDIA 将该超级计算机连入 NVIDIA DGX Cloud，实现更多领域、更广泛的访问。科学研究人员需要海量计算资源来支持各个领域的研究。无论是

发表于 06-19 19:05 •294次阅读

基于边界点优化和多步路径规划的机器人自主探索策略

机器人对未知环境的自主探索是机器人智能化的关键技术。为了提高搜索效率，作者提出了一种基于边界点优化和多步路径规划的搜索策略。他们主要对边界点优化、边界点选择、路径规划三个方面对路径规划

发表于 06-19 10:19 •963次阅读

基于边界点优化和多步路径规划的机器人自主探索

目标边界点的选择是有效探索的关键。以边界为基础的战略是由Yamauchi首先提出的。所使用的探索策略是识别当前地图中的所有边界区域，然后驱动

发表于 06-19 10:15 •289次阅读

昆虫的耳朵激发研究人员打造微型3D打印麦克风的设计灵感

研究人员表示，昆虫的耳朵激发了研究人员打造微型3D打印麦克风的设计灵感，这种麦克风可以精确定位声音的方向，取代目前用于这种目的所需的体积更大、能量更大的设备。

发表于 05-24 10:27 •456次阅读

esp可以与wifi连接一起使用吗？

，因为速度非常快且能量低，但经过研究后我对 esp now 有一些疑问： 1- esp现在可以与 wifi 连接一起使用吗？我读到 esp 的频道现在应该和 wifi 一样，但我听说

发表于 05-08 06:48

研究人员开发新型时间晶体，改善激光器并实现6G无线通信

研究人员开发了一种制造光子时间晶体的方法，并表明这些奇异的人造材料可以放大照射在它们身上的光，有可能产生更好的激光器和下一代无线通信。

发表于 04-24 10:25 •154次阅读