0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

奇虎360团队与人工智能研究院联合开发了深度学习调度平台XLearning

8g3K_AI_Thinker 2018-01-02 15:24 次阅读

近两年人工智能技术发展迅速,以Google开源的TensorFlow为代表的各种深度学习框架层出不穷。为了方便算法工程师使用各类深度学习技术,减少繁杂的诸如运行环境部署运维等工作,提升GPU硬件资源利用率,节省硬件投入成本,奇虎360系统部大数据团队与人工智能研究院联合开发了深度学习调度平台——XLearning。

XLearning平台将大数据与深度学习相融合,基于Hadoop Yarn完成了对TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost等常用深度学习框架的集成,是典型的“AI on Hadoop”的实现。XLearning从今年(2017)4月份正式开发上线运行,经多次版本迭代更新,为各学习框架的使用者提供了统一、稳定的调度平台,实现了资源共享,极大的提高了资源利用率,并且具有良好的扩展性和兼容性。目前已经在公司搜索、人工智能研究院、商业化、数据中心等业务部门广泛使用。

XLearning架构

奇虎360团队与人工智能研究院联合开发了深度学习调度平台XLearning

Client:XLearning客户端,负责启动作业及获取作业执行状态;

ApplicationMaster(AM):负责输入数据分片、启动及管理Container、执行日志保存等;

Container:作业的实际执行者,负责启动Worker或PS(Parameter Server)进程,监控并向AM汇报进程状态,上传作业的输出等。对于TensorFlow类型作业,还负责启动TensorBoard服务。

XLearning功能特性

XLearning虽然架构简洁,但具有丰富的功能方便用户进行模型训练,并依托于Yarn提供有作业资源的统一管理。

支持多种深度学习框架

XLearning支持TensorFlow、MXNet分布式和单机模式,支持所有的单机模式的深度学习框架,如Caffe、Theano、PyTorch等。对于同一个深度学习框架支持多版本和自定义版本,满足用户个性化需求,不受限于集群机器上各学习框架的安装版本。

基于HDFS的统一数据管理

XLearning提供多种模式用于数据的输入、输出,包括数据的流式读写、直接HDFS读写等,可根据作业处理的数据量与集群机器硬盘容量,视情况决定所采用的读写方式。

可视化界面

为方便用户查看作业信息,XLearning提供可视化界面用于展示作业执行进度和输出日志等内容。作业执行完毕后,亦可查看日志内容,便于分析训练过程进展。对于TensorFlow类型作业,支持TensorBoard服务。作业运行界面大致分为三部分(如下图所示):

All Containers:显示当前作业所含Container列表及各Container对应信息,如Contianer ID、所在机器(Container Host)、所属类型(Container Role)、当前执行状态(Container Status)、开始时间(Start Time)、结束时间(Finish Time)、执行进度(Reporter Progress);

View TensorBoard:当作业类型为TensorFlow时,可点击该链接直接跳转至TensorBoard页面;

Save Model:用户可在作业执行过程中,可以将当前训练模型的输出结果上传至HDFS,并显示目前已上传的模型列表。

奇虎360团队与人工智能研究院联合开发了深度学习调度平台XLearning

原生代码兼容

XLearning支持TensorFlow分布式模式的ClusterSpec自动分配构建,单机模式和其他深度学习框架代码不用做任何修改即可迁移到XLearning上,便于用户快速使用。

Checkpoint功能

利用深度学习框架本身的Checkpoint机制和直接读写HDFS数据功能,XLearning方便用户实现训练恢复继续执行。

XLearning开源版本环境依赖简单,可直接运行于社区Hadoop版本,使用方便,入门学习成本极低。公司的Yarn版本是我们在社区版本上做了不少增强,比如支持GPU的资源调度、GPU通信亲和性的感知、DockerContainer支持等。依赖于这些特性公司在用的版本多出了GPU资源调度支持、作业Docker化、临时GPU虚拟机、Container Metrics可视化图表展示等功能。这些功能我们后续会通过提供Yarn Patch或者开源自用Yarn版本来分享给大家,也欢迎大家随时跟我们沟通。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43837

    浏览量

    230589
  • 奇虎360
    +关注

    关注

    0

    文章

    12

    浏览量

    8083
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119903

原文标题:奇虎360开源深度学习调度平台XLearning

文章出处:【微信号:AI_Thinker,微信公众号:人工智能头条】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    天津大学与中科视拓共建“人工智能联合实验室”

    大数据平台人工智能教学科研实验平台开发等方面展开深度合作,共同推动天津大学人工智能高层次人才的
    发表于 05-25 10:19

    百度深度学习研究院科学家深度讲解人工智能

    的研发经验。在过去的工作中,他发表过论文十余篇,申请中国专利超过100项,其中已经授权的有95项。他曾任职百度深度学习研究院,负责人脸识别方向,曾经多次带领团队在主流的人脸检测、人脸识
    发表于 07-19 10:01

    前百度深度学习研究院科学家分享:机器视觉开发实战经验

    其实就是计算机科学的一个分支,将来也是会成为人类社会基础设施的一部分。现在我们邀请来百度深度学习研究院科学家,为大家分享人工智能视觉开发的经
    发表于 07-20 11:06

    人工智能和机器学习的前世今生

    摘要: 阅读本文以了解更多关于人工智能、机器学习深度学习方面的知识,以及它们对商业化意味着什么。如果正确的利用模式识别进行商业预测和决策,那么会为企业带来巨大的利益。机器
    发表于 08-27 10:16

    【免费名额30个】手把手教你快速学习和应用人工智能技术

    专业领域研究方向和产品化设计,将暂时不对在校学生开放技术亮点:MATLAB 与人工智能面向工程实现的 MATLAB 深度学习开发流程使用 M
    发表于 09-12 11:21

    人工智能医生未来或上线,人工智能医疗市场规模持续增长

    +医疗市场规模持续增长   由广州市妇女儿童医疗中心教授夏慧敏、加州大学圣地亚哥分校教授张康等专家领衔的医疗数据智能化应用团队联合人工智能研究
    发表于 02-24 09:29

    5G与人工智能的关系

    `  谁来阐述一下5G与人工智能的关系?手把手教你设计人工智能芯片及系统(全阶设计教程+AI芯片FPGA实现+开发板)详情链接:http://url.elecfans.com/u/c422a4bd15`
    发表于 11-22 17:08

    人工智能、数据挖掘、机器学习深度学习的关系

    人工智能、数据挖掘、机器学习深度学习之间,主要有什么关系?
    发表于 03-16 11:35

    RPA与人工智能的相连

    RPA与人工智能
    发表于 04-13 09:23

    延迟和指令呈现百度人工智能交互设计的最新研究

    有屏智能设备的多维对话:延迟和指令呈现百度人工智能交互设计最新研究
    发表于 05-25 09:46

    嵌入式与人工智能关系是什么

    嵌入式与人工智能关系_嵌入式人工智能的发展趋势  所谓嵌入式人工智能,就是设备无须联网通过云端数据中心进行大规模计算去实现人工智能,而是在本地计算,在不联网的情况下就可以做实时的环境感
    发表于 10-27 07:41

    什么叫嵌入式,以及与人工智能的关系

    以下均采集于网上资料和个人总结纲要一、什么叫嵌入式,以及与人工智能的关系?二、嵌入式岗位三、浅谈嵌入式开发优缺点四、与互联网(CS相关的,如平台服务器,前端/APP/软件)对比五、能力要求和薪资
    发表于 11-08 08:49

    嵌入式与人工智能关系是什么?

    嵌入式与人工智能关系是什么?嵌入式人工智能的发展趋势是什么?
    发表于 12-27 07:13

    基于RK3399ProD的人工智能开发深度学习课程分享

    基于RK3399ProD的人工智能开发深度学习课程分享
    发表于 02-11 08:54

    什么是人工智能、机器学习深度学习和自然语言处理?

    领域,包括机器学习深度学习、数据挖掘、计算机视觉、自然语言处理和其他几个学科。首先,人工智能涉及使计算机具有自我意识,利用计算机视觉、自然语言理解和模仿其他感官。其次,
    发表于 03-22 11:19