0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云计算三大神器来了!

工程师 来源:SSDFans 作者:SSDFans 2020-10-28 10:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近又读了阿里巴巴的技术委员会的新书《弹性计算》,从序上看的确很新,2020年7月。在疫情这个年代,短时间内出版再次证明了中国人民的伟大。关于书中的内容,不想再多说。俺几个小时读下来,挑了几个错别字,以后找各位大佬领赏了。

其中印象深刻的是,为什么有神龙裸金属服务器,对RDMA的支持是一个关键的场景。在云计算中引入RDMA,目的也很明确-HPC。HPC是老黄的老巢,也是老黄现在整合网络,计算和存储的试验田。有了Mellanox,ARM加持,老黄提出了自己的口号:

CPU,做业务的编排,框架

GPU,做计算

DPU,数据的搬运和服务

不得不讲,老黄的市场部很强大,DPU就这样横空出世了。对比我司万能的P2P[1]的功能,我们就是简单说P2P,不知道的人以为我们就是个金融片子,悲催的我司没赶上匹凸匹的好时光。人家老黄不对称的P2P实现就有一个响亮的名字,GPUDirect。同样,老黄的Tensor Core也有一个土鳖的名字,DSP

这里就来谈谈这个RDMA,RDMA的优势和劣势都很清楚。在过去的10几年中,mellanox作为另类的以色列公司持续投入了很多年。(大部分以色列公司的套路是第一代产品创新,卖公司。公司卖不掉,第二代产品就SoSo了,如果有第三代产品,可以真接pass了)。

在Flash刚刚进入数据中心的时候,大家都在考虑DAS到SANder问题,什么样的网络最合适。

其中试过PCIE 外接,AMD的HT,等等。就像一位做HPC出身的朋友讲的一样:“没几年就会冒出了一堆硬件公司,然后大家就上一把,然后大部分公司都死掉了”

因此,可以看到IB versb在2010年成为主流,在HPC中目前已经已有疲态了,正是把这个HPC的专用技术用到hyperscale数据中心的好时机。

第一个规模使用IB而成功的案例是Oracle 的Exadata[1]

之后就是大量的SDS存储的公司起来了。Flash+RDMA是大家的标配。直到Microsoft在数据中心中规模部署。其实之前的RoCE本质上还是一个channel的协议,和之前的FCOE类似,只是在RoCEv2的时候,因为Microsoft的加持,从真正成就了Mellanox,同时把原来最擅长存储的Iwarp打进了小众市场,但是目前IBM和Netapp依然在坚守。

原来一个Intel的网卡大佬就很不服气,“我们做网卡快20年了,Mellanox的ethernet 网卡到现在都有很多功能不支持,但是他们咋就成了先进技术了,成了Smartnic呢?”。这样的话,当年EMC也说过Fusion-io这样的startup。

不管结果如何,Microsoft和Mellanox在Data Center Network的深度合作,让Mellanox在25G成功上位。取代了Intel和Broadcom在高端网卡的江湖地位。

当年在见识了Annapuna的EBS性能之后,我在加入新公司时就对大佬说要做RDMA,要做RoCEv2。但是大佬就是大佬,他们认为lossless的网络一直就是一个传说。而且,那个时候AI正在风口上。总之,这个事情也让我看清了一个事实,就是Hyperscale用RDMA,只会有两种配置:Mellanox的RDMA,以及他们自己的RDMA。

这个微软是最先这么考虑的,他们就是认为RDMA只有两种。微软内部实现的RDMA的细节很少有透露,知道的大佬欢迎分享。

但是另一个大佬的AWS的RDMA就有很多细节。拿另一个常常教育我的大佬的话:“ 他们想做什么都在EFA的驱动里写着!!!“。在火焰图流行的这个时代,静态分析的确有点反人类。

比较好的是,作为HPC RDMA权威的熊猫教授率先被AWS的EFA招安,他们在SC19以及今年发表很多关于EFA的详细信息[2]。当然还有Annapurna CTO Nafea 同学的软文[3]

熊猫教授的一个学生做了Azure和AWS的RDMA性能的分析,因为过于敏感,自己关心的人可以去了解。但是以后估计每家大厂炫耀的资本里面会很快有一个:“我的RDMA是自研的,是XXXCloud特色的RDMA!”

--”老黄你怎么办呢?“

”DPU,DPU+GPU,DPU+GPU+CPU。。。。。。。“

--”Chiplets 要不要考虑一下?“

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11223

    浏览量

    223022
  • 云计算
    +关注

    关注

    39

    文章

    8004

    浏览量

    143154
  • DPU
    DPU
    +关注

    关注

    0

    文章

    408

    浏览量

    26237
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    (ST大赛等奖作品)超声波自拍神器实例项目

    (ST大赛等奖作品)超声波自拍神器电路图:
    发表于 05-28 21:04

    揭秘计算架构的分层奥秘

    在数字化浪潮席卷全球的今天,计算作为新一代信息技术的核心,正以前所未有的速度改变着我们的生活方式和工作模式。计算以其强大的计算能力、灵活
    的头像 发表于 02-26 17:41 996次阅读

    边缘计算计算在预测性维护中的作用

    随着科技的迅猛发展,边缘计算计算正逐渐大规模应用到生产和生活中。具体到工业领域,我们可以如何利用边缘计算
    的头像 发表于 02-26 14:17 991次阅读

    计算开发工具包的功能

    随着计算技术的不断成熟,越来越多的企业开始将应用和服务迁移到云端,以享受弹性计算资源、高可用性和成本效益等优势。为了加速这一进程,计算
    的头像 发表于 02-21 11:02 556次阅读

    大数据与计算是干嘛的?

    大数据与计算是支撑现代数字化技术的两大核心。大数据专注于海量数据的采集、存储、分析与价值挖掘;计算通过虚拟化资源池提供弹性计算、存储及服
    的头像 发表于 02-20 14:48 1282次阅读

    人工智能、计算、区块链者区别对比

    AI人工智能基于算法和数据,擅长处理复杂数据;计算依赖虚拟化和网络,提供高效计算;区块链利用密码学,保证数据安全透明。者在数据处理、安全性和应用场景上各有特色,AI人工智能适用于智
    的头像 发表于 02-20 14:45 1203次阅读

    GPU计算服务怎么样

    在当今数字化快速发展的时代,高性能计算需求日益增长。为满足这些需求,GPU计算服务应运而生。那么,GPU计算服务怎么样呢?接下来,AI部
    的头像 发表于 02-05 15:01 685次阅读

    HPC计算的技术架构

    HPC计算结合了HPC的强大计算能力和计算的弹性、可扩展性,为用户提供了按需获取高性能计算
    的头像 发表于 02-05 14:51 704次阅读

    遥遥领先的华为 Flexus 服务器 X 它来了~~~~

    ❀前言 随着计算时代的进一步深入,越来越多的中小企业企业与开发者需要一款简单易用、高能高效的计算基础设施产品来支撑自身业务。服务器相较
    的头像 发表于 01-23 17:53 730次阅读
    遥遥领先的华为<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服务器 X 它<b class='flag-5'>来了</b>~~~~

    什么是计算平台?搭建计算平台需要什么条件

    计算平台是一种以计算技术为基础的计算服务平台,用于提供灵活、可扩展、可共享的计算资源和系统服
    的头像 发表于 01-09 10:43 852次阅读

    科技报到:从大模型到云端,“AI+计算”还能讲出什么新故事

    科技报到:从大模型到云端,“AI+计算”还能讲出什么新故事
    的头像 发表于 01-07 13:27 615次阅读

    阿里携手总台春晚,开创计算AI合作新篇章

    近日,中央广播电视总台传来了一则令人瞩目的消息。12月26日,总台正式对外宣布,阿里已成功成为总台春晚计算AI的独家合作伙伴。这一合作标志着总台春晚在技术创新方面迈出了重要一步,为
    的头像 发表于 12-27 10:13 886次阅读

    计算环境下的IP地址分配方式

    之前我们聊过在计算机环境下IP地址的分配方式,但在计算环境下,IP地址的分配方式更加灵活,可以根据实际需求进行配置,用来满足不同企业和应用的需求。 在
    的头像 发表于 12-19 14:02 855次阅读

    计算HPC软件关键技术

    计算HPC软件关键技术涉及系统架构、处理器技术、操作系统、计算加速、网络技术以及软件优化等多个方面。下面,AI部落小编带您探讨计算HPC
    的头像 发表于 12-18 11:23 814次阅读

    计算和HPC的关系

    尽管计算和HPC在架构、应用场景和成本效益等方面存在显著差异,但计算和HPC之间并非孤立存在,而是相互补充、协同发展的关系。下面,AI部落小编带您探讨
    的头像 发表于 12-14 10:35 671次阅读