0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云计算三大神器CPU、GPU、DPU!

SSDFans 来源:ssdfans 作者:ssdfans 2020-11-13 14:53 次阅读

最近又读了阿里巴巴的技术委员会的新书《弹性计算》,从序上看的确很新,2020年7月。在疫情这个年代,短时间内出版再次证明了中国人民的伟大。关于书中的内容,不想再多说。俺几个小时读下来,挑了几个错别字,以后找各位大佬领赏了。

其中印象深刻的是,为什么有神龙裸金属服务器,对RDMA的支持是一个关键的场景。在云计算中引入RDMA,目的也很明确-HPC。HPC是老黄的老巢,也是老黄现在整合网络,计算和存储的试验田。有了Mellanox,ARM加持,老黄提出了自己的口号:

CPU,做业务的编排,框架

GPU,做计算

DPU,数据的搬运和服务

不得不讲,老黄的市场部很强大,DPU就这样横空出世了。对比我司万能的P2P[1]的功能,我们就是简单说P2P,不知道的人以为我们就是个金融片子,悲催的我司没赶上匹凸匹的好时光。人家老黄不对称的P2P实现就有一个响亮的名字,GPUDirect。同样,老黄的Tensor Core也有一个土鳖的名字,DSP

这里就来谈谈这个RDMA,RDMA的优势和劣势都很清楚。在过去的10几年中,mellanox作为另类的以色列公司持续投入了很多年。(大部分以色列公司的套路是第一代产品创新,卖公司。公司卖不掉,第二代产品就SoSo了,如果有第三代产品,可以真接pass了)。

在Flash刚刚进入数据中心的时候,大家都在考虑DAS到SANder问题,什么样的网络最合适。

其中试过PCIE 外接,AMD的HT,等等。就像一位做HPC出身的朋友讲的一样:“没几年就会冒出了一堆硬件公司,然后大家就上一把,然后大部分公司都死掉了”

因此,可以看到IB versb在2010年成为主流,在HPC中目前已经已有疲态了,正是把这个HPC的专用技术用到hyperscale数据中心的好时机。

第一个规模使用IB而成功的案例是Oracle 的Exadata[1]

之后就是大量的SDS存储的公司起来了。Flash+RDMA是大家的标配。直到Microsoft在数据中心中规模部署。其实之前的RoCE本质上还是一个channel的协议,和之前的FCOE类似,只是在RoCEv2的时候,因为Microsoft的加持,从真正成就了Mellanox,同时把原来最擅长存储的Iwarp打进了小众市场,但是目前IBM和Netapp依然在坚守。

原来一个Intel的网卡大佬就很不服气,“我们做网卡快20年了,Mellanox的ethernet 网卡到现在都有很多功能不支持,但是他们咋就成了先进技术了,成了Smartnic呢?”。这样的话,当年EMC也说过Fusion-io这样的startup。

不管结果如何,Microsoft和Mellanox在Data Center Network的深度合作,让Mellanox在25G成功上位。取代了Intel和Broadcom在高端网卡的江湖地位。

当年在见识了Annapuna的EBS性能之后,我在加入新公司时就对大佬说要做RDMA,要做RoCEv2。但是大佬就是大佬,他们认为lossless的网络一直就是一个传说。而且,那个时候AI正在风口上。总之,这个事情也让我看清了一个事实,就是Hyperscale用RDMA,只会有两种配置:Mellanox的RDMA,以及他们自己的RDMA。

这个微软是最先这么考虑的,他们就是认为RDMA只有两种。微软内部实现的RDMA的细节很少有透露,知道的大佬欢迎分享。

但是另一个大佬的AWS的RDMA就有很多细节。拿另一个常常教育我的大佬的话:" 他们想做什么都在EFA的驱动里写着!!!“。在火焰图流行的这个时代,静态分析的确有点反人类。

比较好的是,作为HPC RDMA权威的熊猫教授率先被AWS的EFA招安,他们在SC19以及今年发表很多关于EFA的详细信息[2]。当然还有Annapurna CTO Nafea 同学的软文[3]

熊猫教授的一个学生做了Azure和AWS的RDMA性能的分析,因为过于敏感,自己关心的人可以去了解。但是以后估计每家大厂炫耀的资本里面会很快有一个:“我的RDMA是自研的,是XXXCloud特色的RDMA!”

--"老黄你怎么办呢?"

"DPU,DPU+GPU,DPU+GPU+CPU。。。。。。。"

--"Chiplets 要不要考虑一下?"

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10417

    浏览量

    206476
  • 云计算
    +关注

    关注

    38

    文章

    7337

    浏览量

    135652
  • DAS
    DAS
    +关注

    关注

    0

    文章

    101

    浏览量

    30972

原文标题:云计算三大神器来了!CPU、GPU、DPU!

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    为什么GPUCPU更快?

    GPUCPU更快的原因并行处理能力:GPU可以同时处理多个任务和数据,而CPU通常只能一次处理一项任务。这是因为GPU的架构使得它可以同时
    的头像 发表于 01-26 08:30 609次阅读
    为什么<b class='flag-5'>GPU</b>比<b class='flag-5'>CPU</b>更快?

    《数据处理器:DPU编程入门》DPU计算入门书籍测评

    一、DPU计算框架 通过一周多的时间翻阅这本书,基本上这本书是一本比较全面的,面向架构的新手指导数据。它在书中详尽介绍了关于DPU计算机架构中的应用。 对于
    发表于 12-24 10:54

    《数据处理器:DPU编程入门》读书笔记

    首先感谢电子发烧友论坛提供的试读机会。 第一周先阅读了DPU的技术发展背景,了解到DPU是结合了高性能及软件可编程的多核CPU、高性能网络接口,以及各种灵活和可编程的加速引擎。DPU
    发表于 12-21 10:47

    浅谈DPUCPUGPU的关系

    CPU的一大部分算力卸载给GPU之后,人们发现可以把很多其他功能也外包出去,于是又有了智能网卡,或者叫做DPU
    发表于 12-14 11:44 354次阅读
    浅谈<b class='flag-5'>DPU</b>和<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>的关系

    《数据处理器:DPU编程入门》+初步熟悉这本书的结构和主要内容

    之一。随着人们对计算和大数据处理需求的增加,数据中心的计算负载也不断增加。传统的中央处理器(CPU)在处理这些工作负载时可能会遇到瓶颈,难以提供足够的性能和效率。
    发表于 12-08 18:03

    什么是DPU

    什么是DPU? 相信很多人对于CPU(中央处理器)已经非常熟悉了。灵活、响应迅速的CPU多年来一直是大多数计算机中唯一的可编程元件。 近年来,GPU
    发表于 11-03 10:55

    【书籍评测活动NO.23】数据处理器:DPU编程入门

    资格! “DPU将是未来计算大支柱之一。CPU用于通用计算GPU用于加速
    发表于 10-24 15:21

    大神手工自制CPU的过程

    为了深入理解这个问题,大神耗时整整半年,“逐点”焊接,自制了一个CPU,杰作如下图所示。
    的头像 发表于 09-27 09:41 566次阅读
    <b class='flag-5'>大神</b>手工自制<b class='flag-5'>CPU</b>的过程

    什么是GPUCPUGPUCPU的区别及联系

    GPUCPU计算机系统中最重要的两种处理器,它们在不同的应用中发挥不同的作用。
    发表于 08-09 18:24 2669次阅读

    在不同应用场景下DPU不同的性能要求阐述

    DPU本质上是通过DPU卡上资源,解耦计算、控制、存储,利用CPUGPU、FPGA加速器等异构处理单元,通过以智能卡为接口的网络实现高效的
    的头像 发表于 08-09 16:40 1643次阅读
    在不同应用场景下<b class='flag-5'>DPU</b>不同的性能要求阐述

    gpucpu有什么区别?

    gpucpu有什么区别? GPUCPU是电脑中两个重要的计算器件。如果想要了解这两个设备的区别,需要从它们的含义和工作原理入手。 首先,
    的头像 发表于 08-09 16:15 1w次阅读

    gpucpu哪个更重要?

    gpucpu哪个更重要? 当我们谈到计算机的性能时,CPU(中央处理器)和GPU(图形处理器)都是非常重要的组件。然而,在某些情况下,
    的头像 发表于 08-09 15:51 4735次阅读

    为什么现有网络设施需要集成SmartNIC / DPU

    长期以来,CPU一直被视为计算处理设备的支柱,GPU则用于处理实时图形。然而,近来备受瞩目的是数据处理单元——DPU
    发表于 07-27 16:16 249次阅读
    为什么现有网络设施需要集成SmartNIC / <b class='flag-5'>DPU</b>?

    什么是CPUGPU、TPU、DPU、NPU、BPU?有什么区别?

    技术日新月异,物联网、人工智能、深度学习等遍地开花,各类芯片名词GPU, TPU, NPU,DPU层出不穷…它们都是什么鬼?又有什么不一样? 01 CPU CPU,作为机器的“大脑”,
    的头像 发表于 06-30 08:48 1.2w次阅读
    什么是<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>、TPU、<b class='flag-5'>DPU</b>、NPU、BPU?有什么区别?

    恒讯科技分析:GPU是什么和CPU的区别?

    GPU是什么和CPU的区别?CPU计算机的中央处理单元,可以以最小的延迟执行算术和逻辑运算。相比之下,GPU是一种嵌入式或外部图形处理单元
    的头像 发表于 05-25 17:23 1889次阅读