0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌大脑和DeepMind联合发布堪称AI界的MapReduce

中科院长春光机所 来源:新智元、reddit 作者:新智元、reddit 2021-06-26 15:32 次阅读

【新智元导读】AI模型进入大数据时代,单机早已不能满足训练模型的要求,最近Google Brain和DeepMind联手发布了一个可以分布式训练模型的框架Launchpad,堪称AI界的MapReduce。

正如吴恩达所言,当代机器学习算法的成功很大程度上是由于模型和数据集大小的增加,在大规模数据下进行分布式训练也逐渐变得普遍,而如何在大规模数据、大模型的情况下进行计算,还是一个挑战。

分布式学习过程也会使实现过程复杂化,这对于许多不熟悉分布式系统机制的机器学习从业者来说是个问题,尤其是那些具有复杂通信拓扑结构的机器学习从业者。

在arxiv上一篇新论文中,来自 DeepMind 和 Google Brain 的研究团队用 Launchpad 解决了这个问题,Launchpad 是一种编程模型,它简化了定义和启动分布式计算实例的过程。

论文的第一作者是来自DeepMind的华人Yang Fan,毕业于香港中文大学。

Launchpad 将分布式系统的拓扑描述为一个图形数据结构,这样图中的每个节点都代表一个服务,即研究人员正在运行的基本计算单元。

将句柄构造为节点的引用,将客户端表示为尚未构造的服务。

图的边表示两个服务之间的通信,并在构建时将与一个节点相关联的句柄给予另一个节点时创建。

通过这种方式,Launchpad 可以通过传递节点句柄来定义跨服务通信。Launchpad 的计算构建块由不同的服务类型表示,每种服务类型由特定于该类型的节点和句柄类表示。

论文中提出的 Launchpad 的生命周期可以分为三个阶段: 设置、启动和执行。设置阶段构造程序数据结构; 在启动阶段,处理这个数据结构以分配资源、地址等,并启动指定服务; 然后执行阶段运行服务,例如为服务通信创建客户端。

Launchpad 是用流行的编程语言 Python 实现的,它简化了定义程序和节点数据结构以及为单个平台启动的过程。Launchpad 框架还可以很容易地用任何其他宿主语言实现,包括 c/c + + 等低级编程语言。

Launchpad 编程模型非常丰富,足以容纳各种各样的分布式系统,包括参数服务器、 MapReduce和 Evolution Strategies。

研究人员用简洁的代码详细描述了如何将 Launchpad 应用到这些常见的分布式系统范例中,并说明了该框架在简化本研究领域常用机器学习算法和组件的设计过程方面的能力。

总的来说,Launchpad 是一个实用的、用户友好的、表达性强的框架,用于机器学习研究人员和实践者详细说明分布式系统,作者表示,这个框架能够处理日益复杂的机器学习模型。其他框架

2020年,DeepMind 发布过一个强化学习优化框架Acme,可以让AI驱动的智能体在不同的执行规模上运行,从而简化强化学习算法的开发过程。

强化学习可以让智能体与环境互动,生成他们自己的训练数据,这在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。

随着所使用的训练数据量的增加,这促使设计了一个系统,使智能体与环境实例相互作用,迅速积累经验。DeepMind 断言,将算法的单进程原型扩展到分布式系统通常需要重新实现相关的智能体,这就是 Acme 框架的用武之地。

DeepMind研究员写道,「Acme 是一个用于构建可读、高效、面向研究的 RL 算法的框架。Acme 的核心是设计用于简单描述 RL 智能体,这些智能体可以在不同规模的执行中运行,包括分布式智能体。」

Determined AI也是一个深度学习神器。Determined使深度学习工程师可以集中精力大规模构建和训练模型,而无需担心DevOps,或者为常见任务(如容错或实验跟踪)编写代码。更快的分布式训练,智能的超参优化,实验跟踪和可视化。

一万亿模型要来了?谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

Determined主要运用了Horovod,以Horovod为起点,研究人员运用了多年的专业知识和经验,使得整个训练过程比库存配置要快得多。

Horovod 是一套面向TensorFlow 的分布式训练框架,由Uber 构建并开源,目前已经运行于Uber 的Michelangelo 机器学习即服务平台上。Horovod 能够简化并加速分布式深度学习项目的启动与运行。当数据较多或者模型较大时,为提高机器学习模型训练效率,一般采用多 GPU 的分布式训练。TensorFlow 集群存在诸多缺点,如概念太多、学习曲线陡峭、修改的代码量大、性能损失较大等,而 Horovod 则让深度学习变得更加美好,随着规模增大,Horovod 性能基本是线性增加的,损失远小于 TensorFlow。

2019年,字节跳动AI lab开源了一款高性能分布式框架BytePS,在性能上颠覆了过去几年allreduce流派一直占据上风的局面,超出目前其他所有分布式训练框架一倍以上的性能,且同时能够支持Tensorflow、PyTorch、MXNet等开源库。

BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及Keras的插件,用户只要在代码中引用BytePS的插件,就可以获得高性能的分布式训练。BytePS的核心逻辑,则实现在BytePS core里。具体的通信细节,完全由BytePS完成,用户完全不需要操心。

来源:reddit

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5851

    浏览量

    103246
  • AI
    AI
    +关注

    关注

    87

    文章

    26415

    浏览量

    264022
  • 机器学习
    +关注

    关注

    66

    文章

    8116

    浏览量

    130546

原文标题:一万亿模型要来了?谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

文章出处:【微信号:cas-ciomp,微信公众号:中科院长春光机所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    润和软件与新财富联合发布金融AI对话式搜索引擎“金融搜一搜”产品

    3月29日,新财富投顾嘉年华活动中,江苏润和软件股份有限公司(以下简称“润和软件”)与深圳市新财富数字科技有限责任公司(以下简称“新财富”)联合发布了金融AI对话式搜索引擎——“金融搜一搜”产品,助力金融投资场景智能化升级。
    的头像 发表于 04-02 10:15 111次阅读
    润和软件与新财富<b class='flag-5'>联合发布</b>金融<b class='flag-5'>AI</b>对话式搜索引擎“金融搜一搜”产品

    谷歌DeepMind推出SIMI通用AI智能体

    近日,谷歌DeepMind团队发布了其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),这是一个通用人工智能智能体,能够在多种3D虚拟环境
    的头像 发表于 03-18 11:39 365次阅读

    谷歌发布开源AI大模型Gemma

    近日,谷歌发布了全新AI大模型Gemma,这款模型为各种规模的组织提供了前所未有的机会,以负责任的方式在商业应用中进行分发。
    的头像 发表于 02-28 17:38 402次阅读

    谷歌DeepMind推新AI模型Genie,能生成2D游戏平台

    据报道,谷歌公司的DeepMind团队近期发布AI模型Genie,此模型拥有多达110亿个参数,能够依据用户提供的图片及提示词创建出相当完整的2D游戏场景。
    的头像 发表于 02-27 14:53 344次阅读

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾
    的头像 发表于 02-04 10:02 367次阅读

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 197次阅读

    谷歌发布全新AI SDK,简化安卓应用集成

    谷歌破茧而出,全新发布 Google AI SDK,引领 Android 应用迈向高性能 AI 集成新时代。这次发布的 SDK,专门为 An
    的头像 发表于 01-03 14:18 317次阅读

    山东省大力发展元宇宙产业,DeepMind创始人访谈:AI像把双刃剑

    风险。接下来,我们将转到山东,看看该省是如何计划加速元宇宙产业的创新发展,以及他们的宏伟目标。 DeepMind创始人:AI技术的双刃剑效应 近日,DeepMind联合创始人Musta
    的头像 发表于 09-08 21:00 346次阅读
    山东省大力发展元宇宙产业,<b class='flag-5'>DeepMind</b>创始人访谈:<b class='flag-5'>AI</b>像把双刃剑

    眸瑞科技与沐曦集成电路联合发布首个AI模型“贴图超分”技术

    近日,长沙眸瑞网络科技有限公司(下称“眸瑞科技”)与沐曦集成电路(上海)有限公司(下称“沐曦”)联合发布首个AI模型“贴图超分”技术。
    发表于 09-06 14:08 253次阅读

    GPT-5正秘密训练!DeepMind联创爆料,这模型比GPT-4大100倍

    另外,采访中,Suleyman还爆出了很多自己在DeepMind和Inflection AI工作时的内部信息,包括了谷歌当时收购DeepMind和之后的抓马,某种程度上解释了为什么
    的头像 发表于 09-04 16:28 462次阅读
    GPT-5正秘密训练!<b class='flag-5'>DeepMind</b>联创爆料,这模型比GPT-4大100倍

    谷歌DeepMind发布机器人大模型RT-2,提高泛化与涌现能力

    7月28日,谷歌DeepMind推出了一款新的机器人模型Robotics Transformer 2(RT-2)。
    发表于 08-02 14:22 270次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>DeepMind</b><b class='flag-5'>发布</b>机器人大模型RT-2,提高泛化与涌现能力

    OpenAI联合创始人:自动驾驶和VR都是“歧途” AI智能体才是未来

    谷歌旗下AI团队DeepMind的最新论文介绍了一种能够进行自我改进的AI智能体——RoboCat,本质上是由AI赋能的软件程序,相当于机器
    的头像 发表于 07-07 16:03 375次阅读

    MWCS 2023丨5G-Advanced产业创新联合发布会 我们上海见!

    原文标题:MWCS 2023丨5G-Advanced产业创新联合发布会 我们上海见! 文章出处:【微信公众号:中兴通讯】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 06-27 18:45 272次阅读
    MWCS 2023丨5G-Advanced产业创新<b class='flag-5'>联合发布</b>会 我们上海见!

    谷歌DeepMindAI改进数据排序

      人工智能研究所谷歌Google DeepMind推出了三种ai工具AlphaZero、MuZero、AlphaDev,这些工具提高数据中心的资源利用率,提高视频压缩效率,更快的算法发现,整个计算优化生态系统。
    的头像 发表于 06-09 10:30 677次阅读

    谷歌合并Brain和DeepMind,加速人工智能技术研究

    电子发烧友网报道(文/李弯弯)日前,谷歌母公司Alphabet表示合并旗下两个主要的人工智能研究部门——Google Brain(谷歌大脑)和DeepMind。新部门名为Google
    的头像 发表于 04-26 01:10 1485次阅读