0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌大脑和DeepMind联合发布堪称AI界的MapReduce

中科院长春光机所 来源:新智元、reddit 作者:新智元、reddit 2021-06-26 15:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【新智元导读】AI模型进入大数据时代,单机早已不能满足训练模型的要求,最近Google Brain和DeepMind联手发布了一个可以分布式训练模型的框架Launchpad,堪称AI界的MapReduce。

正如吴恩达所言,当代机器学习算法的成功很大程度上是由于模型和数据集大小的增加,在大规模数据下进行分布式训练也逐渐变得普遍,而如何在大规模数据、大模型的情况下进行计算,还是一个挑战。

分布式学习过程也会使实现过程复杂化,这对于许多不熟悉分布式系统机制的机器学习从业者来说是个问题,尤其是那些具有复杂通信拓扑结构的机器学习从业者。

在arxiv上一篇新论文中,来自 DeepMind 和 Google Brain 的研究团队用 Launchpad 解决了这个问题,Launchpad 是一种编程模型,它简化了定义和启动分布式计算实例的过程。

论文的第一作者是来自DeepMind的华人Yang Fan,毕业于香港中文大学。

Launchpad 将分布式系统的拓扑描述为一个图形数据结构,这样图中的每个节点都代表一个服务,即研究人员正在运行的基本计算单元。

将句柄构造为节点的引用,将客户端表示为尚未构造的服务。

图的边表示两个服务之间的通信,并在构建时将与一个节点相关联的句柄给予另一个节点时创建。

通过这种方式,Launchpad 可以通过传递节点句柄来定义跨服务通信。Launchpad 的计算构建块由不同的服务类型表示,每种服务类型由特定于该类型的节点和句柄类表示。

论文中提出的 Launchpad 的生命周期可以分为三个阶段: 设置、启动和执行。设置阶段构造程序数据结构; 在启动阶段,处理这个数据结构以分配资源、地址等,并启动指定服务; 然后执行阶段运行服务,例如为服务通信创建客户端。

Launchpad 是用流行的编程语言 Python 实现的,它简化了定义程序和节点数据结构以及为单个平台启动的过程。Launchpad 框架还可以很容易地用任何其他宿主语言实现,包括 c/c + + 等低级编程语言。

Launchpad 编程模型非常丰富,足以容纳各种各样的分布式系统,包括参数服务器、 MapReduce和 Evolution Strategies。

研究人员用简洁的代码详细描述了如何将 Launchpad 应用到这些常见的分布式系统范例中,并说明了该框架在简化本研究领域常用机器学习算法和组件的设计过程方面的能力。

总的来说,Launchpad 是一个实用的、用户友好的、表达性强的框架,用于机器学习研究人员和实践者详细说明分布式系统,作者表示,这个框架能够处理日益复杂的机器学习模型。其他框架

2020年,DeepMind 发布过一个强化学习优化框架Acme,可以让AI驱动的智能体在不同的执行规模上运行,从而简化强化学习算法的开发过程。

强化学习可以让智能体与环境互动,生成他们自己的训练数据,这在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。

随着所使用的训练数据量的增加,这促使设计了一个系统,使智能体与环境实例相互作用,迅速积累经验。DeepMind 断言,将算法的单进程原型扩展到分布式系统通常需要重新实现相关的智能体,这就是 Acme 框架的用武之地。

DeepMind研究员写道,「Acme 是一个用于构建可读、高效、面向研究的 RL 算法的框架。Acme 的核心是设计用于简单描述 RL 智能体,这些智能体可以在不同规模的执行中运行,包括分布式智能体。」

Determined AI也是一个深度学习神器。Determined使深度学习工程师可以集中精力大规模构建和训练模型,而无需担心DevOps,或者为常见任务(如容错或实验跟踪)编写代码。更快的分布式训练,智能的超参优化,实验跟踪和可视化。

一万亿模型要来了?谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

Determined主要运用了Horovod,以Horovod为起点,研究人员运用了多年的专业知识和经验,使得整个训练过程比库存配置要快得多。

Horovod 是一套面向TensorFlow 的分布式训练框架,由Uber 构建并开源,目前已经运行于Uber 的Michelangelo 机器学习即服务平台上。Horovod 能够简化并加速分布式深度学习项目的启动与运行。当数据较多或者模型较大时,为提高机器学习模型训练效率,一般采用多 GPU 的分布式训练。TensorFlow 集群存在诸多缺点,如概念太多、学习曲线陡峭、修改的代码量大、性能损失较大等,而 Horovod 则让深度学习变得更加美好,随着规模增大,Horovod 性能基本是线性增加的,损失远小于 TensorFlow。

2019年,字节跳动AI lab开源了一款高性能分布式框架BytePS,在性能上颠覆了过去几年allreduce流派一直占据上风的局面,超出目前其他所有分布式训练框架一倍以上的性能,且同时能够支持Tensorflow、PyTorch、MXNet等开源库。

BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及Keras的插件,用户只要在代码中引用BytePS的插件,就可以获得高性能的分布式训练。BytePS的核心逻辑,则实现在BytePS core里。具体的通信细节,完全由BytePS完成,用户完全不需要操心。

来源:reddit

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6257

    浏览量

    111942
  • AI
    AI
    +关注

    关注

    91

    文章

    40941

    浏览量

    302520
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208

原文标题:一万亿模型要来了?谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

文章出处:【微信号:cas-ciomp,微信公众号:中科院长春光机所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    震有科技联合发布首款168桨智能飞行器

    在深圳市盐田区人民政府“先飞起来——湾区东部低空经济高质量发展暨低空融合飞行示范区建设重大项目发布大会”上,震有科技旗下鹏有(深圳)飞行科技有限公司与反重力科技有限公司联合发布首款168桨智能飞行器。
    的头像 发表于 03-27 11:10 1637次阅读

    没有AI大脑,别叫全屋智能

    打破伪智能困境,美的为家装上AI大脑MevoX
    的头像 发表于 03-16 09:13 1129次阅读
    没有<b class='flag-5'>AI</b><b class='flag-5'>大脑</b>,别叫全屋智能

    汇川技术携手中国联通联合发布Universe生态开放平台

    在2026年世移动通信大会(MWC 2026)期间,汇川技术与中国联通联合发布“Universe生态开放平台”,标志着双方战略合作进入全新阶段。
    的头像 发表于 03-09 09:31 638次阅读

    中国联通与GSMA联合发布AI+eSIM”云智终端合作方案

    3月3日,巴塞罗那世界移动通信大会(MWC26)期间,中国联通与GSMA联合发布AI+eSIM”云智终端合作联通方案。紫光同芯以核心行业伙伴的身份,受邀出席并见证这一重要时刻。
    的头像 发表于 03-06 11:02 578次阅读

    华为和中国移动联合发布2025年度高阶示范区AI+网络实践成果

    3月2日,在MWC26 巴塞罗那期间的移动AI产业峰会上,华为与中国移动联合发布了2025年度高阶示范区AI+网络的卓越实践成果。2025年,华为与中国移动联合创新,全球首个规模部署了
    的头像 发表于 03-05 14:20 940次阅读

    沐曦股份联合清华大学发布磁性材料AI原子基座模型

    2月27日,沐曦股份联合清华大学等多家研究机构联合发布了磁性材料AI原子基座模型。该模型是首个覆盖宽温压域的磁性材料AI原子模型,经权威专家鉴定,整体技术水平达到国际领先。
    的头像 发表于 03-03 15:25 563次阅读
    沐曦股份<b class='flag-5'>联合</b>清华大学<b class='flag-5'>发布</b>磁性材料<b class='flag-5'>AI</b>原子基座模型

    Gemini AI 再进化:谷歌联合XREAL发布Project Aura, 打开“看见世界”的新能力

    被定位为迄今为止最完整、最接近 Android XR 理想形态的硬件样本。作为谷歌官方认可的系统级参考硬件,Project Aura 标志着 Gemini AI 第一次真正拥有“看见世界”的能力
    发表于 12-09 11:06 1401次阅读
    Gemini <b class='flag-5'>AI</b> 再进化:<b class='flag-5'>谷歌</b><b class='flag-5'>联合</b>XREAL<b class='flag-5'>发布</b>Project Aura, 打开“看见世界”的新能力

    华为亮相2025世计算大会并联合发布重要报告

    21日上午举行。活动现场,长沙市数据局、中国信息通信研究院云计算与大数据研究所、华为云三方联合发布《长沙市智慧视觉体系和视频产业体系建设情况发展报告》(以下简称“《报告》”),系统梳理了长沙以智慧视觉驱动全域数字化转型的“双链融合”模式,为全国城市数字化转型提供了可复制、可推广的“长沙样板”。
    的头像 发表于 12-01 14:04 800次阅读

    华为联合发布工业与AI融合应用指南

    11月20日,华为、中国信通院、清华大学人工智能研究院、罗兰贝格管理咨询公司联合编写的《工业与AI融合应用指南》(以下简称《指南》)全文发布,提出“新六化”工业发展趋势和“三层五阶八步”实施方法,为工业企业应用人工智能提供可落地
    的头像 发表于 11-25 15:37 799次阅读

    华为联合发布智能算网研究报告

    华为全联接大会2025期间,以“引领AI DC创新,共赢智能未来”为主题的首届数据中心创新峰会上,华为联合中国信通院、泰国KBTG、尼日利亚Fidelity共同发布《智能算网(AI F
    的头像 发表于 09-25 09:37 859次阅读

    中科创达与吉利汽车、NVIDIA联合发布创新产品AIBOX

    2025年9月9日,在2025德国国际汽车及智慧出行博览会(IAA MOBILITY)上,中科创达(ThunderSoft,股票代码:300496)携手吉利汽车集团联合发布基于NVIDIA的创新
    的头像 发表于 09-10 09:05 1451次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一个由无数神经元通过突触连接而成的复杂网络,是极其复杂和精密的。
    发表于 09-06 19:12

    IBM联合NASA发布开源AI模型重要突破

    近日,IBM(纽交所代码:IBM)与美国国家航空航天局 (NASA) 联合发布了一款开创性的开源基础模型,可理解高分辨率的太阳观测数据,从而预测太阳活动对地球和太空技术的影响。该模型名为“Surya
    的头像 发表于 09-02 09:16 1020次阅读

    华为联合发布AI CITY城市智能体前瞻研究报告

    在第十一届中国国际大数据产业博览会“数字政府”交流活动上,国家数据发展研究院携手华为技术有限公司(以下简称“华为”)联合发布AI CITY城市智能体前瞻研究报告》,旨在探索人工智能新时代下的AI CITY智能体应用和架构,为城
    的头像 发表于 09-01 10:37 1365次阅读

    商汤科技与新华医院联合发布AI儿童全科医生”

    近日,知名三级甲等医院上海交通大学医学院附属新华医院奉贤院区正式起航。 在开业仪式上,新华医院联合商汤医疗重磅发布基于商汤“深思考”日日新大医·医疗大模型的AI 儿童全科医生,为基层儿科医生诊疗
    的头像 发表于 07-01 15:05 4556次阅读
    商汤科技与新华医院<b class='flag-5'>联合发布</b>“<b class='flag-5'>AI</b>儿童全科医生”