0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从GPU资源的虚拟化实现路径看

SSDFans 来源:ssdfans 作者:ssdfans 2020-12-14 16:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

GPU小常识:

GPU(Graphics Processing Unit),中文名:图形处理器,曾用名:显卡。

1999年,Nvidia(英伟达)公司“ZAO”了GPU,这玩意除了极大的推动了基于PC的游戏市场发展,还彻底改变了并行计算。

没想到二十年后,Nvidia摇身一变成了高大上的AI计算公司,还用GPU绑架了整个人工智能圈子。

我有个客户,几年前新建了一个数据中心,通过P2V技术淘汰了大量X86物理服务器,直接在IT基础设施上成功完成了服务器虚拟化转型,之后就马不停蹄的向云计算转型,而当下,又开始了人工智能转型。

随着智能商业时代的到来,一些大公司对于AI技术的关注和使用也快速增加,这些企业都非常注重自身科技能力的构建。其中,搭建自有AI平台,赋能业务成了这些有实力企业的首选。我这个客户自然也不能免俗,采购了大量的GPU服务器进行部署。

在落地AI场景的同时,客户也希望对建立GPU资源池做一个评估。针对客户需求,做了一些功课。对于AI,我依然只是知道一点皮毛,要说什么算法和模型,我是没戏的,但是可以把交流的学习心得分享一下。

GPU当前主要应用于计算、图形和人工智能领域。从GPU资源的虚拟化实现路径看,主要有三种技术方案。

VSGA(Virtual Shared Graphics Acceleration),把物理GPU分享给多个桌面用户,每个VDI通过SVGA驱动调用虚拟化的GPU驱动程序,再来调用GPU的运算能力,这个属于典型的桌面虚拟化场景。

VDGA(Virtual Dedicated Graphics Acceleration),把物理GPU分配给一个指定的VM,资源专用,这种模式也称为直通(PassThrough)模式,该方案具有比较高的性能优势,但成本相对较高。

vGPU(Virtualized GPU),把一块物理GPU虚拟成多块vGPU卡,每个VM都独占一块vGPU,每个vGPU直接跟物理GPU对接。

现实世界的应用状况又是怎样的呢?通过技术交流,发现传统行业大多数的GPU资源池案例都是VDI的桌面虚拟化应用场景,针对后台服务器虚拟化的案例几乎没有。在互联网行业,像百度这样在AI领域比较强的,用的都是自研的GPU服务器和资源调度平台。真正的商业案例中,大量客户使用的还是基于X86物理服务器搭配GPU卡的方式来部署AI应用。

之后,对这个客户也有做了相应的调研。客户现状:针对AI技术部署了独立的语音分析、OCR和人脸识别等多个平台,支撑整个公司对于AI场景的需求。(目前有GPU服务器:50台+,GPU卡:180+,后续还有200+的GPU卡扩容计划)。针对调研情况,也做个简要分析。

应用场景:

目前AI技术主要为两种场景,训练(Training)和推理(Inference),从我这个客户的使用情况看,几乎都是推理场景,相对训练而言,对于GPU的算力的要求不是很高,这一点从用户的性能数据上也有体现。客户模型训练都是在供应商端进行的。

技术方案:

GPU资源池只是一种概念,对于资源的形态来说,GPU是物理的还是虚拟的不是最重要的。从资源管理角度看,主要是考虑利用效率、访问性能、安全隔离等因素。

如果是物理服务器方案,上层最佳的部署形式的直接基于容器,但是现实情况是大多数用户的应用部署还是基于PM和VM的。另外,也可以考虑基于服务器虚拟化+多GPU卡的方案,一个VM对应一个GPU卡的直通模式,但是应用密度显然受制于GPU卡的数量,如果这时再追加使用vGPU技术,似乎方案在VM技术平台上就更完美了,当然容器嵌套VM的方案也是一种好的形式。

商务成本:

成熟的商业虚拟化软件是有软件许可费的,而Nvidia的vGPU技术也需要支付相应的软件许可费,这样每个GPU卡可以根据显存的不同配置,被切分为固定数量的vGPU,在相同数据物理GPU卡配置情况下,提升VM的部署密度。

其他因素:

当然,目前的“AI芯片”也不是只有Nvidia一家,国内的寒武纪和华为也都用相应的产品支撑AI应用,对于主流的TensorFlow,Cafee框架可能还可以,但对于其他框架和模型在支持上略显不足,还需要加强生态建设。毕竟连英伟达都声称自己是一家软件研发公司。在这个Software Define Anything的时代,软实力才是真正贴近用户的硬实力。

关于建立后台支撑AI算力的GPU资源池这件事,技术本身并不存在限制,是个具有规模效应的事情。如果规模大了,也许百度的“孔明”平台就是一个需要达到的高度。至于其他公有云服务商,现在也都提供了相应的GPU服务,等有机会再去调研一下。

啥叫Deep Learning?就是这种不断学习更新,还要用输出倒逼输入的方式!

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136069
  • 服务器
    +关注

    关注

    14

    文章

    10358

    浏览量

    91754
  • 虚拟化
    +关注

    关注

    1

    文章

    405

    浏览量

    30980

原文标题:GPU虚拟化,看这一篇就够了!

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    虚拟电厂聚合:让红区分布式光伏成为可调资源

    破解红区分布式光伏困局的关键,早已不是单一的设备改造,而是依托虚拟电厂聚合技术,将分散的红区光伏资源“聚沙成塔”,通过智能调度与协同管控,把原本“被动受限”的红区光伏,转化为电网可调度、可调控的柔性可调
    的头像 发表于 04-14 11:43 196次阅读
    <b class='flag-5'>虚拟</b>电厂聚合:让红区分布式光伏成为可调<b class='flag-5'>资源</b>

    企业级KVM虚拟平台搭建实战

    企业IT基础设施经历了物理机时代到虚拟化时代的演进。传统数据中心中,每台物理服务器运行单一应用,资源利用率普遍不足20%。硬件采购周期长、扩容慢、运维成本高,难以满足业务快速发展的需求。虚拟
    的头像 发表于 03-11 09:38 708次阅读

    Windows平台EtherCAT实时控制:抖动抑制到虚拟架构解析

    Windows平台EtherCAT实时控制:抖动抑制到虚拟架构解析
    的头像 发表于 01-29 15:26 421次阅读
    Windows平台EtherCAT实时控制:<b class='flag-5'>从</b>抖动抑制到<b class='flag-5'>虚拟</b><b class='flag-5'>化</b>架构解析

    虚拟电厂的虚实共生:聚合资源实现系统价值的跃迁之路

    ,而是数字技术与能源系统深度融合的新型能源枢纽。在新能源规模发展的今天,它正以“聚合分散资源、优化能源配置”的能力,成为电力系统的核心参与者。本文将从核心定义、“虚拟”本质、实体价值到边界划分,带您一站式读懂
    的头像 发表于 11-11 14:01 1400次阅读
    <b class='flag-5'>虚拟</b>电厂的虚实共生:<b class='flag-5'>从</b>聚合<b class='flag-5'>资源</b>到<b class='flag-5'>实现</b>系统价值的跃迁之路

    车载软件vECU虚拟测试解决方案

    虚拟测试:利用虚拟技术,实现将真实域控制器转化为虚拟域控制器,运行在PC或服务器环境中运行,
    的头像 发表于 10-30 09:34 1812次阅读
    车载软件vECU<b class='flag-5'>虚拟</b><b class='flag-5'>化</b>测试解决方案

    什么是服务器虚拟?一文读懂原理、优势与实战部署

    什么是服务器虚拟?当企业服务器CPU利用率长期低于15%,却仍需不断采购新硬件应对业务增长时,一场基础设施领域的革命早已悄然发生——服务器虚拟。这项技术通过将物理服务器划分为多个独
    的头像 发表于 08-25 10:52 1416次阅读
    什么是服务器<b class='flag-5'>虚拟</b><b class='flag-5'>化</b>?一文读懂原理、优势与实战部署

    上海虚拟电厂的发展逻辑:资源禀赋到技术落地的路径探索

    安科瑞 吕梦怡 187+0616=2527 作为典型的人口聚集、负荷密集区域,上海市具有外来电比例高、本地资源禀赋不足的特点。发电侧角度来看,近年来上海风、光等新能源发电装机比例逐年提升,传统
    的头像 发表于 08-12 10:59 680次阅读
    上海<b class='flag-5'>虚拟</b>电厂的发展逻辑:<b class='flag-5'>从</b><b class='flag-5'>资源</b>禀赋到技术落地的<b class='flag-5'>路径</b>探索

    车机交互测试自动实现路径与案例分析

    测试设备是车机交互测试自动实现的核心支撑,通过合理选型、部署和应用北京沃华慧通测控技术有限公司汽车测试设备,结合科学的实现路径和丰富的案例经验,能够有效提高车机交互测试的效率和质量,
    的头像 发表于 07-10 09:24 1552次阅读
    车机交互测试自动<b class='flag-5'>化</b><b class='flag-5'>实现</b><b class='flag-5'>路径</b>与案例分析

    车用虚拟技术:域控融合的必经之路

    本文阐述了汽车电子架构分布式向集中演进的趋势,黑芝麻智能分析了集中带来的安全隔离、实时性等关键挑战,并指出车用虚拟技术是
    的头像 发表于 07-05 16:14 1423次阅读

    通信设备EMC整改:救火到防火的体系转型路径

    深圳南柯电子|通信设备EMC整改:救火到防火的体系转型路径
    的头像 发表于 06-25 11:14 762次阅读

    硅谷GPU云服务器是什么意思?使用指南详解

    硅谷GPU云服务器本质上是一种IaaS(基础设施即服务)产品,它将物理服务器上的GPU资源通过虚拟技术分割成可弹性调配的云服务。与普通CP
    的头像 发表于 06-16 09:41 730次阅读

    如何破解GPU集群集合通信路径的“黑盒”难题?

    集合通信库(如NCCL、HCCL)的运行细节用户完全无感知,形成“黑盒”状态。EPS通过实时解析集合通信库的底层运行状态,将隐蔽的通信路径GPU与网卡状态等信息可视,并提供智能路由推荐,帮助用户快速优化集群性能。
    的头像 发表于 05-22 10:13 1055次阅读
    如何破解<b class='flag-5'>GPU</b>集群集合通信<b class='flag-5'>路径</b>的“黑盒”难题?

    云电竞服务器 工作原理

    云电竞服务器工作原理详解 一、核心架构原理 虚拟资源池‌ 通过 ‌KVM/VMware‌ 等虚拟技术将物理服务器(含NVIDIA
    的头像 发表于 05-14 07:44 766次阅读
    云电竞服务器 工作原理

    基于云端虚拟技术云手机解决方案

    云手机解决方案基于云端虚拟技术,通过整合软硬件资源实现多设备集群化管理与智能操作,以下是针对不同应用场景的核心要素与技术架构解析: 一、
    的头像 发表于 05-09 08:04 981次阅读
    基于云端<b class='flag-5'>虚拟</b><b class='flag-5'>化</b>技术云手机解决方案

    提升AI训练性能:GPU资源优化的12个实战技巧

    在人工智能与机器学习技术迅速发展的背景下,GPU计算资源的高效利用已成为关键技术指标。优化的GPU资源分配不仅能显著提升模型训练速度,还能实现
    的头像 发表于 05-06 11:17 1679次阅读
    提升AI训练性能:<b class='flag-5'>GPU</b><b class='flag-5'>资源</b>优化的12个实战技巧