0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从GPU资源的虚拟化实现路径看

SSDFans 来源:ssdfans 作者:ssdfans 2020-12-14 16:27 次阅读

GPU小常识:

GPU(Graphics Processing Unit),中文名:图形处理器,曾用名:显卡。

1999年,Nvidia(英伟达公司“ZAO”了GPU,这玩意除了极大的推动了基于PC的游戏市场发展,还彻底改变了并行计算。

没想到二十年后,Nvidia摇身一变成了高大上的AI计算公司,还用GPU绑架了整个人工智能圈子。

我有个客户,几年前新建了一个数据中心,通过P2V技术淘汰了大量X86物理服务器,直接在IT基础设施上成功完成了服务器虚拟化转型,之后就马不停蹄的向云计算转型,而当下,又开始了人工智能转型。

随着智能商业时代的到来,一些大公司对于AI技术的关注和使用也快速增加,这些企业都非常注重自身科技能力的构建。其中,搭建自有AI平台,赋能业务成了这些有实力企业的首选。我这个客户自然也不能免俗,采购了大量的GPU服务器进行部署。

在落地AI场景的同时,客户也希望对建立GPU资源池做一个评估。针对客户需求,做了一些功课。对于AI,我依然只是知道一点皮毛,要说什么算法和模型,我是没戏的,但是可以把交流的学习心得分享一下。

GPU当前主要应用于计算、图形和人工智能领域。从GPU资源的虚拟化实现路径看,主要有三种技术方案。

VSGA(Virtual Shared Graphics Acceleration),把物理GPU分享给多个桌面用户,每个VDI通过SVGA驱动调用虚拟化的GPU驱动程序,再来调用GPU的运算能力,这个属于典型的桌面虚拟化场景。

VDGA(Virtual Dedicated Graphics Acceleration),把物理GPU分配给一个指定的VM,资源专用,这种模式也称为直通(PassThrough)模式,该方案具有比较高的性能优势,但成本相对较高。

vGPU(Virtualized GPU),把一块物理GPU虚拟成多块vGPU卡,每个VM都独占一块vGPU,每个vGPU直接跟物理GPU对接。

现实世界的应用状况又是怎样的呢?通过技术交流,发现传统行业大多数的GPU资源池案例都是VDI的桌面虚拟化应用场景,针对后台服务器虚拟化的案例几乎没有。在互联网行业,像百度这样在AI领域比较强的,用的都是自研的GPU服务器和资源调度平台。真正的商业案例中,大量客户使用的还是基于X86物理服务器搭配GPU卡的方式来部署AI应用。

之后,对这个客户也有做了相应的调研。客户现状:针对AI技术部署了独立的语音分析、OCR和人脸识别等多个平台,支撑整个公司对于AI场景的需求。(目前有GPU服务器:50台+,GPU卡:180+,后续还有200+的GPU卡扩容计划)。针对调研情况,也做个简要分析。

应用场景:

目前AI技术主要为两种场景,训练(Training)和推理(Inference),从我这个客户的使用情况看,几乎都是推理场景,相对训练而言,对于GPU的算力的要求不是很高,这一点从用户的性能数据上也有体现。客户模型训练都是在供应商端进行的。

技术方案:

GPU资源池只是一种概念,对于资源的形态来说,GPU是物理的还是虚拟的不是最重要的。从资源管理角度看,主要是考虑利用效率、访问性能、安全隔离等因素。

如果是物理服务器方案,上层最佳的部署形式的直接基于容器,但是现实情况是大多数用户的应用部署还是基于PM和VM的。另外,也可以考虑基于服务器虚拟化+多GPU卡的方案,一个VM对应一个GPU卡的直通模式,但是应用密度显然受制于GPU卡的数量,如果这时再追加使用vGPU技术,似乎方案在VM技术平台上就更完美了,当然容器嵌套VM的方案也是一种好的形式。

商务成本:

成熟的商业虚拟化软件是有软件许可费的,而Nvidia的vGPU技术也需要支付相应的软件许可费,这样每个GPU卡可以根据显存的不同配置,被切分为固定数量的vGPU,在相同数据物理GPU卡配置情况下,提升VM的部署密度。

其他因素:

当然,目前的“AI芯片”也不是只有Nvidia一家,国内的寒武纪和华为也都用相应的产品支撑AI应用,对于主流的TensorFlow,Cafee框架可能还可以,但对于其他框架和模型在支持上略显不足,还需要加强生态建设。毕竟连英伟达都声称自己是一家软件研发公司。在这个Software Define Anything的时代,软实力才是真正贴近用户的硬实力。

关于建立后台支撑AI算力的GPU资源池这件事,技术本身并不存在限制,是个具有规模效应的事情。如果规模大了,也许百度的“孔明”平台就是一个需要达到的高度。至于其他公有云服务商,现在也都提供了相应的GPU服务,等有机会再去调研一下。

啥叫Deep Learning?就是这种不断学习更新,还要用输出倒逼输入的方式!

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4410

    浏览量

    126635
  • 服务器
    +关注

    关注

    12

    文章

    8099

    浏览量

    82485
  • 虚拟化
    +关注

    关注

    1

    文章

    349

    浏览量

    29555

原文标题:GPU虚拟化,看这一篇就够了!

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    虚拟电厂如何实现源荷互动?

    虚拟电厂是基于先进的计量、通信、控制等技术,聚集分布式电源、柔性负荷等资源,打破地理位置分散和不同层级的电网的束缚,通过云边协同、优化控制参与电力市场交易,同时优化资源利用、提高大电网稳定性和供电
    的头像 发表于 04-23 08:35 149次阅读
    <b class='flag-5'>虚拟</b>电厂如何<b class='flag-5'>实现</b>源荷互动?

    如何选择NVIDIA GPU虚拟化软件的组合方案呢?

    NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地方工作的创意和技术专业人员能够访问虚拟化工作空间。
    的头像 发表于 01-12 09:26 258次阅读
    如何选择NVIDIA <b class='flag-5'>GPU</b>和<b class='flag-5'>虚拟</b>化软件的组合方案呢?

    OpenHarmony开源GPU库Mesa3D适配说明

    Dislay HDI的GFX合成->调用KMS完成数据转换->LCD硬件完成显示 2.2 适配前提条件 适配框架图可以看出,GPU适配,需要建立在Dislay HDI、DRM
    发表于 12-25 11:38

    Xen双系统GPU资源分配过程

    分配一个 GPU 的方式目前 NXP 给出的系统已经实现,为了让大家熟悉 GPU 的分配过程,我们分配两个 GPU 给 Android 系统。
    的头像 发表于 12-04 13:53 305次阅读
    Xen双系统<b class='flag-5'>GPU</b><b class='flag-5'>资源</b>分配过程

    Docker与虚拟机的区别

    Docker和虚拟机是两种不同的虚拟化技术,它们在实现方式、资源消耗、运行性能等方面存在许多差异。本文将会详细介绍它们的区别。 一、实现方式
    的头像 发表于 11-23 09:37 2231次阅读

    什么是虚拟GPU虚拟GPU的优势有哪些?

    虚拟 GPU,也称为 vGPU,是通过将数据中心 GPU 进行虚拟化,用户可在多个虚拟机中共享该 GPU
    的头像 发表于 11-10 09:48 690次阅读
    什么是<b class='flag-5'>虚拟</b><b class='flag-5'>GPU</b>?<b class='flag-5'>虚拟</b><b class='flag-5'>GPU</b>的优势有哪些?

    虚拟机洞察:实现应用感知型基础架构的关键路径

    电子发烧友网站提供《虚拟机洞察:实现应用感知型基础架构的关键路径.pdf》资料免费下载
    发表于 08-29 11:07 0次下载
    <b class='flag-5'>虚拟</b>机洞察:<b class='flag-5'>实现</b>应用感知型基础架构的关键<b class='flag-5'>路径</b>

    本机NVMe/FC支持提供性能增长路径虚拟基础架构

    电子发烧友网站提供《本机NVMe/FC支持提供性能增长路径虚拟基础架构.pdf》资料免费下载
    发表于 08-28 09:23 0次下载
    本机NVMe/FC支持提供性能增长<b class='flag-5'>路径</b><b class='flag-5'>虚拟</b>基础架构

    GPU发起的Rowhammer攻击常见问题

    任意虚拟内存位置的指针。 该方法使用来自远程JavaScript的侧通道和所谓的“Rowhammer”攻击。 所谓的“Rowhammer”攻击已经存在了几年,但最近的研究表明,这种攻击可能是GPU发起的。
    发表于 08-25 06:41

    本机NVMe/FC支持为虚拟基础架构提供了性能增长路径

    电子发烧友网站提供《本机NVMe/FC支持为虚拟基础架构提供了性能增长路径.pdf》资料免费下载
    发表于 08-23 10:59 0次下载
    本机NVMe/FC支持为<b class='flag-5'>虚拟</b>基础架构提供了性能增长<b class='flag-5'>路径</b>

    深入了解AArch64虚拟

    。无论分类如何,a的功能作用 Hypervisor保持不变,即仲裁平台资源,并无缝运行 以最小的移植工作和运行时牺牲实现单个客户机操作系统。 下图中,对于类型1的裸金属虚拟环境,每个
    发表于 08-02 12:52

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗
    的头像 发表于 08-01 14:46 293次阅读

    虚拟化技术是什么 虚拟化技术介绍

    利用率的思路,从而实现简化管理,优化资源等目的的解决方案,就叫做虚拟化技术。  以下是一些业界标准组织对虚拟化的定义。  “虚拟化是以某种用
    发表于 07-19 11:26 1次下载

    OrionX AI芯片计算资源池化技术

    AI 应用与物理 GPU 服务器分离部署,允许通过高性能网络远程调用 GPU资源。这样可以实现 AI 应用与物理 GPU
    的头像 发表于 07-10 14:48 2185次阅读
    OrionX AI芯片计算<b class='flag-5'>资源</b>池化技术

    AI开发测试关于CPU和GPU资源配比

    GPU服务器相对CPU服务器来说是非常昂贵的,大约是美金和人民币汇率的差距(以8卡GPU服务器为例),而且在芯片紧缺的年代,GPU到货周期还比较长!面对资源昂贵、算力又是AI的发动机、
    发表于 06-25 11:31 1157次阅读
    AI开发测试关于CPU和<b class='flag-5'>GPU</b>的<b class='flag-5'>资源</b>配比