0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为Volcano项目为构建云原生批量计算平台奠定基础

牵手一起梦 来源:华为云 作者:佚名 2020-04-17 14:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

4月10日,CNCF(云原生计算基金会)正式接纳由华为云捐赠的容器批量计算项目Volcano, 迎来CNCF首个容器批量计算项目。Volcano项目的加入,将CNCF的云原生版图进一步扩展至AI、大数据、基因等批量计算领域,为构建“云原生批量计算平台”奠定了基础。

华为云CTO张宇昕表示:“ 华为云多年来一直致力于云原生技术推广,不仅在国内最早推出了Kubernetes云原生容器技术的商业化产品云容器引擎CCE和云容器实例CCI,而且在开源社区发起并领导了多个生态项目,帮助各行业更快地落地并实践云原生技术。Volcano是基于Kubernetes的云原生批量计算引擎,基于华为云在AI、大数据领域的深厚业务积累,补齐了Kubernetes在面向AI、大数据、高性能计算等批量计算任务调度、编排等场景下的短板,向下支持鲲鹏、昇腾、X86等多元算力,向上使能TensorFlow、Spark、华为MindSpore等主流行业计算框架,让数据科学家和算法工程师充分享受到云原生技术所带来的高效计算与极致体验。”

Volcano介绍

随着Kubernetes的成熟,越来越多的企业把Kubernetes作为AI、大数据以及高性能批量计算的下一代基础设施,得益于Kubernetes在应用一致性、跨云迁移便利性、灵活任务调度等方面的优势,使得Kubernetes在大数据、AI、以及高性能批量计算领域快速得到广泛应用。

然而,Kubernetes作为普适的容器化解决方案,应用到大数据、AI、高性能批量计算等专业领域时,仍与业务诉求存在一些差距,主要体现在:

▸K8s的原生调度功能无法满足计算要求

▸K8s作业管理能力无法满足AI训练的复杂诉求

▸数据管理方面,缺少计算侧数据缓存能力,数据位置感知等功能

▸资源管理方面缺少分时共享,利用率低

▸硬件异构能力弱

华为云容器团队针对以上问题,推出高性能容器批量计算解决方案。

同时,为加快云原生技术在各行业的快速普及,于2019年将解决方案的核心引擎Volcano开源,Volcano在调度、作业管理、数据管理、资源管理四个方面进行了重点优化。

✎ 增强了任务调度能力,如公平的调度(fair-share),组调度(gang-scheduling)

✎ 进一步优化了作业管理能力,如multiple pod template能力, 更灵活的error handling机制

✎ 增加计算侧数据缓存,提升数据的传输与读取效率

✎ 引入多维度的综合评分机制,实现资源更高效的管理和分配

✎ 多元算力支持:支持x86、鲲鹏和昇腾等算力

生态合作

针对不同应用场景,Volcano已与多个主流计算框架社区完成官方合作集成,包括Kubeflow、Spark、PaddlePaddle、Horovod (MPI)、Cromwell 、MindSpore等。

Volcano弥补了Kubernetes在AI场景下的不足,为飞桨分布式深度学习对接Kubernetes提供了更好支持,PaddlePaddle on Volcano方案显著简化了飞桨推荐系统解决方案 ElasticCTR的部署落地,我们非常期待Kubernetes+Volcano+PaddlePaddle的整套开源部署方案更加成熟完善,给AI开发者带来更大便利”。

—飞桨(PaddlePaddle)总架构师于佃海

MindSpore是华为开源的一款支持端边云全场景的深度学习训练推理框架,当前主要应用于计算机视觉、自然语言处理等AI领域,旨在为数据科学家和算法工程师提供设计友好、运行高效的开发体验,提供昇腾AI处理器原生支持及软硬件协同优化。Volcano开源项目将有助于提升Kubernetes对AI任务的调度能力支持,有利于MindSpore等深度学习框架更加有效的部署,为AI和云原生两大领域的携手共创繁荣开源生态打下了坚实的基础。

—MindSpore社区技术委员会主席、华为MindSpore首席科学家陈雷教授

Volcano自2019年6月宣布开源以来,受到了广泛的关注和支持,来自15家大企业/机构的80+核心开发者参与了社区开发及贡献。

商业应用

目前,Volcano已在华为云容器批量计算解决方案商用,并支撑多家国内外头部企业应用于AI、大数据、基因等计算场景。Volcano支持批量任务与容器的快速发放,最快每秒可发放1000容器,并提供公平调度、队列调度等高级功能,同时与华为鲲鹏、昇腾处理器深度融合,打造更高性能、更高性价比的容器批量计算解决方案。

未来可期

此次CNCF正式将Volcano接纳为云原生领域唯一容器批量计算项目,将极大促进Volcano上下游社区生态构建及合作,吸引广大云原生企业用户深度参与,Volcano将在企业数字化、云原生转型过程中发挥越来越重要的作用,华为云也将在云原生领域持续耕耘、持续引领创新、繁荣生态,助力各行业走向快速智能发展之路。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    36163

    浏览量

    262637
  • AI
    AI
    +关注

    关注

    91

    文章

    40922

    浏览量

    302511
  • 大数据
    +关注

    关注

    64

    文章

    9091

    浏览量

    144042
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瀚高数据库深度参编国家标准《信息技术 云原生关系数据库管理系统技术要求》正式发布

    基础软件领域的重要技术标准,该标准云原生数据库产品质量提升与市场规范化运作提供了坚实支撑,有力推动数据库技术向敏捷、弹性、低成本方向加速转型,对促进产业升级与数字经济高质量发展具有深远意义。 云原生数据库是专为云环境设计,充分
    的头像 发表于 04-15 16:41 311次阅读

    什么是低代码:低代码开发平台详解 5个优质低代码平台工具

    开发中的“编码实现”转化为“图形化配置”,让业务人员也能参与应用构建,实现“全民开发”的愿景。 根据《低代码发展白皮书》的定义,低代码开发平台是指运用低代码技术将底层架构和基础设施等抽象图形界面,以
    发表于 04-07 16:03

    云原生全球广域网架构深度科普:从单点集中到全域互联

    用与资源分散部署在不同地域的虚拟私有云、线下数据中心等多个节点时,如何将这些分散的资源整合成一个逻辑统一的整体,成为企业数字化进程中的核心命题。而云原生网络架构,正
    的头像 发表于 03-10 13:40 480次阅读
    <b class='flag-5'>云原生</b>全球广域网架构深度科普:从单点集中到全域互联

    NVIDIA携手合作伙伴基于AI-RAN平台构建未来AI原生无线网络

    实地试验、新的性能基准测试、日益增长的运营商采纳率,以及合作伙伴基于 NVIDIA 平台构建的创新成果,共同印证了行业正加速迈向 AI 原生 5G 与 6G 网络。
    的头像 发表于 03-09 16:36 1060次阅读

    炎核开源开放平台上架推出OpenSparseBlas高性能稀疏计算

    在科学计算与工程仿真领域,高效处理大规模稀疏矩阵运算是提升整体计算效能的关键。为此,我们在炎核开源开放平台上架推出 OpenSparseBlas——一个专为稀疏矩阵/向量计算而打造的高
    的头像 发表于 12-15 15:18 957次阅读

    华为林伟亮相NetworkX 2025并发表主题演讲

    在电信网络盛会 Network X 2025 期间,华为云核心网智能电信云领域总裁林伟发表了题为 《从电信云原生到AI原生:加速电信业务AI创新》 的主题演讲,系统阐述了移动AI时代对电信基础设施提出的新挑战,并分享了
    的头像 发表于 10-17 11:45 880次阅读

    绝缘子漏电起痕试验仪泄漏电流信号的小波变换分析及电弧能量计算

    手段;而基于该分析结果的电弧能量计算,则能量化电弧对绝缘子性能的影响,两者共同为试验结果的精准解读与绝缘子耐痕性能评估提供科学依据。​ 泄漏电流信号的小波变换分析,核心在于对信号的“分层解析与特征提取”。试
    的头像 发表于 10-15 09:43 505次阅读
    绝缘子漏电起痕试验仪泄漏电流信号的小波变换分析及电弧能<b class='flag-5'>量计算</b>

    华为携手产业伙伴荣获杰出电信云应用案例奖

    近日,第21届 Leading Lights Awards揭晓,中国移动网络事业部、河南移动网络管理中心与华为凭借“基于TICC云原生平台的下一代电信运营实践”创新项目,荣获“杰出电信云应用案例奖
    的头像 发表于 09-25 11:07 921次阅读

    如何构建高可用Prometheus监控体系

    云原生时代,传统监控工具已经无法满足微服务架构的复杂需求。Prometheus凭借其Pull模式、多维数据模型和强大的查询语言PromQL,成为了CNCF毕业项目中的监控标杆。
    的头像 发表于 08-01 09:10 998次阅读

    如何计算孔板流量计和平衡流量计的流量?计算公式一样吗?

    平衡流量计与孔板流量计作为差压式流量计的典型代表,虽均基于压力差与流量的数学关系进行计算,但是平衡流量计
    的头像 发表于 07-09 13:54 1119次阅读
    如何<b class='flag-5'>计算</b>孔板流<b class='flag-5'>量计</b>和平衡流<b class='flag-5'>量计</b>的流量?<b class='flag-5'>计算</b>公式一样吗?

    ArkUI-X跨平台技术落地-华为运动健康(二)

    :内存与原生持平(或略高),具体表格数据如下所示: 整体实现效果 总结 通过引入ArkUI-X技术,使得华为运动健康应用三端平台复用健康模块代码,从而在三端交互一致的前提下提升开发效率以及代码复用
    发表于 06-18 23:04

    ArkUI-X跨平台技术落地-华为运动健康(一)

    现状与诉求 目前,华为运动健康App在Android 和 iOS均有独立的客户端工程,在原生页面部分,两个客户端独立开发,代码各自维护和演进,会带来各自独立的开发工作量,并且两个端之间的交互体验也无
    发表于 06-18 22:53

    云原生环境里Nginx的故障排查思路

    本文聚焦于云原生环境下Nginx的故障排查思路。随着云原生技术的广泛应用,Nginx作为常用的高性能Web服务器和反向代理服务器,在容器化和编排的环境中面临着新的故障场景和挑战。
    的头像 发表于 06-17 13:53 1133次阅读
    <b class='flag-5'>云原生</b>环境里Nginx的故障排查思路

    从 Java 到 Go:面向对象的巨人与云原生的轻骑兵

    (Goroutine/Channel) 在 云原生基础设施领域 占据主导地位,它也是 Java 开发者探索云原生技术栈的关键补
    的头像 发表于 04-25 11:13 736次阅读

    常见传动机构负载惯量计算方法及实例

    传动机构负载惯量计算方法 1. 丝杆传动机构 丝杆传动机构广泛应用于精密定位系统中。其负载惯量的计算需要考虑负载质量、丝杆导程、丝杆直径以及摩擦系数等因素。 假设负载质量m,丝杆导程
    的头像 发表于 04-23 17:38 5166次阅读
    常见传动机构负载惯<b class='flag-5'>量计算</b>方法及实例