Google Brain和DeepMind联手发布可以分布式训练模型的框架-电子发烧友网

【导读】AI模型进入大数据时代，单机早已不能满足训练模型的要求，最近Google Brain和DeepMind联手发布了一个可以分布式训练模型的框架Launchpad，堪称AI界的MapReduce。

正如吴恩达所言，当代机器学习算法的成功很大程度上是由于模型和数据集大小的增加，在大规模数据下进行分布式训练也逐渐变得普遍，而如何在大规模数据、大模型的情况下进行计算，还是一个挑战。

分布式学习过程也会使实现过程复杂化，这对于许多不熟悉分布式系统机制的机器学习从业者来说是个问题，尤其是那些具有复杂通信拓扑结构的机器学习从业者。

在arxiv上一篇新论文中，来自 DeepMind 和 Google Brain 的研究团队用 Launchpad 解决了这个问题，Launchpad 是一种编程模型，它简化了定义和启动分布式计算实例的过程。

论文的第一作者是来自DeepMind的华人Yang Fan，毕业于香港中文大学。

Launchpad 将分布式系统的拓扑描述为一个图形数据结构，这样图中的每个节点都代表一个服务，即研究人员正在运行的基本计算单元。

将句柄构造为节点的引用，将客户端表示为尚未构造的服务。

图的边表示两个服务之间的通信，并在构建时将与一个节点相关联的句柄给予另一个节点时创建。

通过这种方式，Launchpad 可以通过传递节点句柄来定义跨服务通信。Launchpad 的计算构建块由不同的服务类型表示，每种服务类型由特定于该类型的节点和句柄类表示。

论文中提出的 Launchpad 的生命周期可以分为三个阶段：设置、启动和执行。设置阶段构造程序数据结构; 在启动阶段，处理这个数据结构以分配资源、地址等，并启动指定服务; 然后执行阶段运行服务，例如为服务通信创建客户端。

Launchpad 是用流行的编程语言 Python 实现的，它简化了定义程序和节点数据结构以及为单个平台启动的过程。Launchpad 框架还可以很容易地用任何其他宿主语言实现，包括 c/c + + 等低级编程语言。

Launchpad 编程模型非常丰富，足以容纳各种各样的分布式系统，包括参数服务器、 MapReduce和 Evolution Strategies。

研究人员用简洁的代码详细描述了如何将 Launchpad 应用到这些常见的分布式系统范例中，并说明了该框架在简化本研究领域常用机器学习算法和组件的设计过程方面的能力。

总的来说，Launchpad 是一个实用的、用户友好的、表达性强的框架，用于机器学习研究人员和实践者详细说明分布式系统，作者表示，这个框架能够处理日益复杂的机器学习模型。其他框架

2020年，DeepMind 发布过一个强化学习优化框架Acme，可以让AI驱动的智能体在不同的执行规模上运行，从而简化强化学习算法的开发过程。

强化学习可以让智能体与环境互动，生成他们自己的训练数据，这在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。

随着所使用的训练数据量的增加，这促使设计了一个系统，使智能体与环境实例相互作用，迅速积累经验。DeepMind 断言，将算法的单进程原型扩展到分布式系统通常需要重新实现相关的智能体，这就是 Acme 框架的用武之地。

DeepMind研究员写道，「Acme 是一个用于构建可读、高效、面向研究的 RL 算法的框架。Acme 的核心是设计用于简单描述 RL 智能体，这些智能体可以在不同规模的执行中运行，包括分布式智能体。」

Determined AI也是一个深度学习神器。Determined使深度学习工程师可以集中精力大规模构建和训练模型，而无需担心DevOps，或者为常见任务（如容错或实验跟踪）编写代码。更快的分布式训练，智能的超参优化，实验跟踪和可视化。

一万亿模型要来了？谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

Determined主要运用了Horovod，以Horovod为起点，研究人员运用了多年的专业知识和经验，使得整个训练过程比库存配置要快得多。

Horovod 是一套面向TensorFlow 的分布式训练框架，由Uber 构建并开源，目前已经运行于Uber 的Michelangelo 机器学习即服务平台上。Horovod 能够简化并加速分布式深度学习项目的启动与运行。当数据较多或者模型较大时，为提高机器学习模型训练效率，一般采用多 GPU 的分布式训练。TensorFlow 集群存在诸多缺点，如概念太多、学习曲线陡峭、修改的代码量大、性能损失较大等，而 Horovod 则让深度学习变得更加美好，随着规模增大，Horovod 性能基本是线性增加的，损失远小于 TensorFlow。

2019年，字节跳动AI lab开源了一款高性能分布式框架BytePS，在性能上颠覆了过去几年allreduce流派一直占据上风的局面，超出目前其他所有分布式训练框架一倍以上的性能，且同时能够支持Tensorflow、PyTorch、MXNet等开源库。

BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及Keras的插件，用户只要在代码中引用BytePS的插件，就可以获得高性能的分布式训练。BytePS的核心逻辑，则实现在BytePS core里。具体的通信细节，完全由BytePS完成，用户完全不需要操心。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
27

文章
4537

浏览量
127730
开源

开源

+关注

关注
3

文章
3084

浏览量
41870
分布式

分布式

+关注

关注
1

文章
798

浏览量
74330
机器学习

机器学习

+关注

关注
66

文章
8282

浏览量
131404
pytorch

pytorch

+关注

关注
2

文章
787

浏览量
12922

摩尔线程携手憨猴集团，深化AI算力战略合作，成功实现大模型分布式训练

摩尔线程与憨猴科技集团日前宣布，采用搭载摩尔线程的夸娥（KUAE）千卡智算集群，已成功完成了多个大模型的分布式训练，涵盖7B、34B以及70B三个不同的计算规模等级。

发表于 05-17 17:24 •446次阅读

大语言模型：原理与工程时间+小白初识大语言模型

的分布式表示，基于预训练的词嵌入表示。独热表示就是在一个大的向量空间中，其中一个位1，其余都为0，这样就会变成单独的。词的分布式表示：根据上下文进行推断语义。基于预训练的词嵌入表

发表于 05-12 23:57

为大模型专门优化浪潮信息发布分布式全闪存储AS13000G7-N系列

北京2024年5月10日 /美通社/ -- 近日，浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息自研分布式文件系统，搭载新一代数据加速引擎

发表于 05-10 16:37 •293次阅读

为大<b class='flag-5'>模型</b>专门优化浪潮信息<b class='flag-5'>发布</b><b class='flag-5'>分布式</b>全闪存储AS13000G7-N系列

浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列

近日，浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息自研分布式文件系统，搭载新一代数据加速引擎DataTurbo，

发表于 05-08 09:38 •313次阅读

浪潮信息<b class='flag-5'>发布</b>为大<b class='flag-5'>模型</b>专门优化的<b class='flag-5'>分布式</b>全闪存储AS13000G7-N系列

【大语言模型：原理与工程实践】大语言模型的基础技术

概率推断，利用共现矩阵学习每个词的主题分布，进而将其作为词的表示向量。在大规模语料库中进行模型训练，使语义相似的词具有相似的主题分布。然而，这类方法存在一个问题，即

发表于 05-05 12:17

分布式系统硬件资源池原理和接入实践

启动，表明相机外设已经纳入资源池管理，成为分布式相机。从下述截图也可以看到分布式硬件其他相关进程，dhardware 就是分布式硬件资源池管理框架

发表于 12-06 10:02

zookeeper分布式原理

Zookeeper是一个开源的分布式协调服务，可以用于构建高可用、高性能的分布式系统。它提供了一个简单且高效的层次命名空间，可以用来存储配置信息、状态信息、命名服务等。Zookeepe

发表于 12-03 16:33 •449次阅读

分布式通信是什么 分布式网络搭建

上的任务分配。 分布式通信什么叫分布式？机器人功能是由各种节点组成的，这些节点可能位于不同的计算机中，这种结构可以将原本资源消耗较多的任务，分配到不同的平台上，减轻计算压力，这就是分布式

发表于 11-27 15:49 •514次阅读

springcloud如何实现分布式

，我们可以快速搭建分布式系统，并且灵活地进行伸缩和扩展。要实现分布式系统，我们可以按照以下步骤来使用Spring Cloud：服务注册与发现：

发表于 11-16 11:01 •494次阅读

springclould分布式教程

Spring Cloud是一个基于Spring Boot的分布式系统开发工具，它提供了一系列的分布式系统解决方案，可以帮助开发者快速构建和部署分布式应用程序。本文将介绍Spring C

发表于 11-16 10:59 •331次阅读

spring分布式框架有哪些

Spring分布式框架是一套基于Spring框架的解决方案，用于构建分布式系统。它提供了一系列的组件和模块，可以帮助开发人员轻松地构建可扩展

发表于 11-16 10:58 •500次阅读

基于PyTorch的模型并行分布式训练Megatron解析

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数

发表于 10-23 11:01 •1666次阅读

分布式无纸化交互系统的实现原理

，将各个会议节点进行分布式部署，实现负载均衡和高可用性。系统采用无纸化技术，所有的会议材料和信息都存储在云端或服务器上，可以通过移动设备或电脑进行浏览和操作。系统通过会议智慧屏实现会议过程的智能化管理，可以进行电

发表于 09-04 16:11 •439次阅读

OpenHarmony 分布式硬件关键技术

应用使用，应用开发者只需要调用上层服务的API就可以使用，达到软件定义硬件的效果。 分布式硬件池化架构第二，分布式硬件平台还提供了统一的设备发现和认证框架。支持设备间通过碰、扫、靠

发表于 08-24 17:25

大模型分布式训练并行技术（一）-概述

数据并行是最常见的并行形式，因为它很简单。在数据并行训练中，数据集被分割成几个碎片，每个碎片被分配到一个设备上。这相当于沿批次（Batch）维度对训练过程进行并行化。每个设备将持有一个完整的模型副本，并在分配的数据集碎片上进行

发表于 08-24 15:17 •941次阅读

搜索历史

Google Brain和DeepMind联手发布可以分布式训练模型的框架

评论

摩尔线程携手憨猴集团，深化AI算力战略合作，成功实现大模型分布式训练

大语言模型：原理与工程时间+小白初识大语言模型

为大模型专门优化浪潮信息发布分布式全闪存储AS13000G7-N系列

浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列

【大语言模型：原理与工程实践】大语言模型的基础技术

分布式系统硬件资源池原理和接入实践

zookeeper分布式原理

分布式通信是什么分布式网络搭建

springcloud如何实现分布式

springclould分布式教程

spring分布式框架有哪些

基于PyTorch的模型并行分布式训练Megatron解析

分布式无纸化交互系统的实现原理

OpenHarmony 分布式硬件关键技术

大模型分布式训练并行技术（一）-概述