攀登深度学习之巅对AI领域会产生什么深远影响-电子发烧友网

2018 年，由美国国家能源研究科学计算中心 (NERSC) 与 NVIDIA组成的联合团队取得了一项突破性成就。他们成功将一种科学严谨的深度学习应用扩展至 27000 多个NVIDIA V100Tensor 核心 GPU，攻克了此过程中百亿亿次运算的难关。凭借该项成就，研究团队由此斩获高性能计算领域的最高奖项ACM 戈登贝尔奖。除 2018 年的技术论文与新闻稿之外，我们还将在本文中探讨这项成就对 AI 领域产生的深远影响，以及未来面临的开放性挑战。

由伯克利实验室与橡树岭国家实验室各自领导的两个研究团队共享 2018 年 ACM 戈登贝尔奖

深度学习软件：性能与生产力

低级工具能为开发者带来精确度，高级工具则可提高工作效率，这二者之间总存在一个折衷点。我们已为此找到解决方案。在本次项目中，我们用高效的 Python 和 TensorFlow 表示网络架构与整体的应用工作流。TensorFlow 反过来会利用在 C 和 C++ 环境中实施的例程来实现高性能，提供精确度，并解放开发者以提高其工作效率。因此，在 8 个月的时间里，我们的团队从头开始构建网络原型，并在全球最大的高性能计算 (HPC) 系统 Summit 上对其性能与扩展作出了优化。

我们相信，此项目能够展示出研究人员长期推测的 HPC 与 AI 软件堆栈的实际融合效果，即以 C/C++ 编写的高性能库 (CuDNN) 和框架 (TensorFlow)，以及通过 Python 公开的高效接口。同理，我们还在 NCCL 和 MPI 中实施经高度优化且基于拓扑感知的通信集合，但通过简单高效的 Horovod 接口实现公开。展望未来，我们相信，在助力科学家及更广泛的研究社区探索更复杂架构的过程中，为混合并行模式（数据、模型、流水线）提供透明支持将至关重要。

深度学习硬件：GPU 和混合精度

本次项目利用 NVIDIA Volta GPU 来训练 DeepLabv3+ 分割网络。在混合精度模式下，Volta 上可达到的峰值性能为 125 万亿次浮点运算。该模式由 NVIDIA 通过 Tensor 核心 GPU 架构推出，可执行 FP16 精度计算并能以 FP32 精度模式累积结果。在本项目开展之前，该领域存在一个仍待解决的问题，即现实的科学应用能否利用 FP16（不损失精确度）并获得较高的峰值性能。我们的研究最终证明，对于科学领域的模式识别问题，16 位精度可能足以满足相关需求。此外，对于拥有 4000 多个计算核心的复杂应用而言，极高的峰值亦有可能实现：在规模庞大的 GPU 集群上，我们的应用实现了每块 GPU 大约 40 万亿次浮点运算的峰值性能。

我们相信，这些结果为科学应用打开了通往低精度加速器的一扇大门。虽然原始数据集可能具有高精度（64 位或 32 位），但我们或许仍可以在不损失收敛或稳定性的前提下，以低精度模式执行模式识别任务。

开放性挑战

如要在当代的 HPC 系统上实现百亿亿级的性能，我们需对所有组件仔细调优，包括硬件（CPU、GPU、NVLink、文件系统、网络互连）和软件。虽然我们的项目成功实现了大幅调优、优化和扩展，但我们想指出两项挑战，以便向行业及研究社区征求更多意见。

大规模数据管理

得益于 GPU 架构在加快计算方面取得的进展，我们现已能在单个硅处理器上畅享高于 100 万亿次浮点运算级的性能。随着 GPU 速度越来越快，向其输送数据的能力会逐渐限制性能。本次项目中，我们对 20 太字节的数据集展开分析，这实际上需要整个 Summit 系统保持每秒大约 4 太字节的 I/O 速率。Summit 上的 GPFS 文件系统根本无法胜任该项任务，在 NERSC Cori 系统的 Lustre 文件系统上执行的类似实验也以彻底失败而告终。对于这两种情况，在节点本地 NVMe上暂存数据和突发缓冲区技术便显得至关重要。

传统的 HPC 文件系统主要用于支持以写入为主的工作负载；而深度学习工作负载则属于读取密集型负载，对数据带宽和元数据操作速率要求颇高。如要支持大规模深度学习工作负载，我们可能必须先对缓存分层、分片和混编操作提供透明支持。

大规模收敛

提供深度学习解决方案的时间由两部分构成：计算扩展效率和统计扩展效率。我们的研究已经展示出卓越的计算扩展性能，并且提供了许多有关系统级注意事项的建议。一个未解决的问题是，如何使用 SGD（随机梯度下降）的其中一个收敛属性取代大批量（在本项目中，批量大小高于 27000）。

在 HPC 资源上提供高度并行性具有正反两方面作用。如要以超高并发级别在大规模资源上运行，我们需在短时间内对超参数进行调优。有关收敛算法行为的启发式方法可能会或不会继承自较小规模的运行。尽管目前对于选择各类超参数所产生效果的实证评估都很合理，但我们预计，科学界将需要更好的指导原则，以及用于解决新问题的收敛保证。

我们相信，在解决收敛问题的过程中，进一步开发 LARS 与 LARC 等新算法和潜在的高阶优化方法将是至关重要的一环。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
27

文章
4400

浏览量
126539
人工智能

人工智能

+关注

关注
1775

文章
43688

浏览量
230469
深度学习

深度学习

+关注

关注
73

文章
5219

浏览量
119860

原文标题：攀登百亿亿级深度学习之巅

文章出处：【微信号：tensorflowers，微信公众号：Tensorflowers】欢迎添加关注！文章转载请注明出处。

FPGA在深度学习应用中或将取代GPU

基础设施，人们仍然没有定论。如果 Mipsology 成功完成了研究实验，许多正受 GPU 折磨的 AI 开发者将从中受益。 GPU 深度学习面临的挑战三维图形是 GPU 拥有如此大的内存和计算能力

发表于 03-21 15:19

FPGA的力量：2024年AI计算领域的黑马？

、效率和可扩展性等方面的挑战。在这一背景下，现场可编程门阵列（FPGA）以其独特的优势逐渐崭露头角，并有望在2024年对AI领域产生深远影响。

发表于 03-07 09:37 •418次阅读

FPGA的力量：2024年<b class='flag-5'>AI</b>计算<b class='flag-5'>领域</b>的黑马？

揭秘AI与半导体深度融合背后的创新力量

随着科技的飞速发展，人工智能（AI）与半导体产业正以前所未有的速度深度融合。这一融合不仅推动了半导体技术的进步，更为AI的广泛应用和商业化提供了坚实的基础。本文旨在探讨这种深度融合将如

发表于 02-22 10:09 •488次阅读

揭秘<b class='flag-5'>AI</b>与半导体<b class='flag-5'>深度</b>融合背后的创新力量

深度学习在人工智能中的 8 种常见应用

深度学习简介深度学习是人工智能（AI）的一个分支，它教神经网络学习和推理。近年来，它解决复杂问题

发表于 12-01 08:27 •874次阅读

<b class='flag-5'>深度</b><b class='flag-5'>学习</b>在人工智能中的 8 种常见应用

Neuro-T：零代码自动深度学习训练平台

友思特 Neuro-T为传统的深度学习视觉检测方案提供了“自动深度学习”的解决方案，结合自动标注功能，一键生成高性能视觉检测模型，无需AI

发表于 11-24 17:58 •276次阅读

Neuro-T：零代码自动<b class='flag-5'>深度</b><b class='flag-5'>学习</b>训练平台

深度学习技术与边缘学习技术的不同之处

如今，AI技术的广泛应用已经成为推动制造和物流领域自动化的核心驱动力。康耐视所推出的深度学习和边缘学习技术，这两种基于

发表于 11-17 10:44 •275次阅读

美国出台新规对全球芯片业产生深远影响

提高中国发展人工智能领域的成本和时间，对中国的AI应用产生深远的影响。据伯恩斯坦研究（Bernstein Research）的估计，这一规定将使中国训练

发表于 11-09 10:04 •150次阅读

深度学习框架和深度学习算法教程

深度学习框架和深度学习算法教程深度学习是机器学习

发表于 08-17 16:11 •695次阅读

什么是深度学习算法？深度学习算法的应用

。在深度学习中，使用了一些快速的算法，比如卷积神经网络以及深度神经网络，这些算法在大量数据处理和图像识别上面有着非常重要的作用。深度学习

发表于 08-17 16:03 •1434次阅读

深度学习是什么领域

深度学习是什么领域深度学习是机器学习的一种子集，由多层神经网络组成。它是一种自动

发表于 08-17 16:02 •1162次阅读

深度学习算法简介深度学习算法是什么深度学习算法有哪些

深度学习算法简介深度学习算法是什么?深度学习算法有哪些? 作为一种现代化、前沿化的技术，

发表于 08-17 16:02 •6640次阅读

深度学习基本概念

深度学习基本概念深度学习是人工智能（AI）领域的一个重要分支，它模仿人类神经系统的工作方式，

发表于 08-17 16:02 •1106次阅读

AI、机器学习和深度学习的区别及应用

深度学习和神经网络的区别在于隐藏层的深度。一般来说，神经网络的隐藏层要比实现深度学习的系统浅得多，而深度

发表于 07-28 10:44 •318次阅读

AI视觉检测在工业领域的应用

的产品图像。 2.图像处理：系统将采集到的图像数据进行预处理、过滤、降噪等操作，以便更好地提取特征信息。 3.特征提取：系统采用深度学习等技术，对图像数据进行深度学习训练，提取出产品的

发表于 06-15 16:21

深度Q学习网络：弥合从虚拟游戏到实际应用的差距

人工智能（AI）和机器学习（ML）对从医疗保健和金融到能源和运输的广泛行业产生了深远的影响。在各种人工智能技术中，强化学习（RL）—

发表于 06-15 09:45 •211次阅读

搜索历史

攀登深度学习之巅对AI领域会产生什么深远影响

评论