0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云计算三大神器来了!

工程师 来源:SSDFans 作者:SSDFans 2020-10-28 10:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近又读了阿里巴巴的技术委员会的新书《弹性计算》,从序上看的确很新,2020年7月。在疫情这个年代,短时间内出版再次证明了中国人民的伟大。关于书中的内容,不想再多说。俺几个小时读下来,挑了几个错别字,以后找各位大佬领赏了。

其中印象深刻的是,为什么有神龙裸金属服务器,对RDMA的支持是一个关键的场景。在云计算中引入RDMA,目的也很明确-HPC。HPC是老黄的老巢,也是老黄现在整合网络,计算和存储的试验田。有了Mellanox,ARM加持,老黄提出了自己的口号:

CPU,做业务的编排,框架

GPU,做计算

DPU,数据的搬运和服务

不得不讲,老黄的市场部很强大,DPU就这样横空出世了。对比我司万能的P2P[1]的功能,我们就是简单说P2P,不知道的人以为我们就是个金融片子,悲催的我司没赶上匹凸匹的好时光。人家老黄不对称的P2P实现就有一个响亮的名字,GPUDirect。同样,老黄的Tensor Core也有一个土鳖的名字,DSP

这里就来谈谈这个RDMA,RDMA的优势和劣势都很清楚。在过去的10几年中,mellanox作为另类的以色列公司持续投入了很多年。(大部分以色列公司的套路是第一代产品创新,卖公司。公司卖不掉,第二代产品就SoSo了,如果有第三代产品,可以真接pass了)。

在Flash刚刚进入数据中心的时候,大家都在考虑DAS到SANder问题,什么样的网络最合适。

其中试过PCIE 外接,AMD的HT,等等。就像一位做HPC出身的朋友讲的一样:“没几年就会冒出了一堆硬件公司,然后大家就上一把,然后大部分公司都死掉了”

因此,可以看到IB versb在2010年成为主流,在HPC中目前已经已有疲态了,正是把这个HPC的专用技术用到hyperscale数据中心的好时机。

第一个规模使用IB而成功的案例是Oracle 的Exadata[1]

之后就是大量的SDS存储的公司起来了。Flash+RDMA是大家的标配。直到Microsoft在数据中心中规模部署。其实之前的RoCE本质上还是一个channel的协议,和之前的FCOE类似,只是在RoCEv2的时候,因为Microsoft的加持,从真正成就了Mellanox,同时把原来最擅长存储的Iwarp打进了小众市场,但是目前IBM和Netapp依然在坚守。

原来一个Intel的网卡大佬就很不服气,“我们做网卡快20年了,Mellanox的ethernet 网卡到现在都有很多功能不支持,但是他们咋就成了先进技术了,成了Smartnic呢?”。这样的话,当年EMC也说过Fusion-io这样的startup。

不管结果如何,Microsoft和Mellanox在Data Center Network的深度合作,让Mellanox在25G成功上位。取代了Intel和Broadcom在高端网卡的江湖地位。

当年在见识了Annapuna的EBS性能之后,我在加入新公司时就对大佬说要做RDMA,要做RoCEv2。但是大佬就是大佬,他们认为lossless的网络一直就是一个传说。而且,那个时候AI正在风口上。总之,这个事情也让我看清了一个事实,就是Hyperscale用RDMA,只会有两种配置:Mellanox的RDMA,以及他们自己的RDMA。

这个微软是最先这么考虑的,他们就是认为RDMA只有两种。微软内部实现的RDMA的细节很少有透露,知道的大佬欢迎分享。

但是另一个大佬的AWS的RDMA就有很多细节。拿另一个常常教育我的大佬的话:“ 他们想做什么都在EFA的驱动里写着!!!“。在火焰图流行的这个时代,静态分析的确有点反人类。

比较好的是,作为HPC RDMA权威的熊猫教授率先被AWS的EFA招安,他们在SC19以及今年发表很多关于EFA的详细信息[2]。当然还有Annapurna CTO Nafea 同学的软文[3]

熊猫教授的一个学生做了Azure和AWS的RDMA性能的分析,因为过于敏感,自己关心的人可以去了解。但是以后估计每家大厂炫耀的资本里面会很快有一个:“我的RDMA是自研的,是XXXCloud特色的RDMA!”

--”老黄你怎么办呢?“

”DPU,DPU+GPU,DPU+GPU+CPU。。。。。。。“

--”Chiplets 要不要考虑一下?“

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11326

    浏览量

    225876
  • 云计算
    +关注

    关注

    39

    文章

    8042

    浏览量

    144758
  • DPU
    DPU
    +关注

    关注

    0

    文章

    417

    浏览量

    27147
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    边缘计算vs计算,关键差异一文分清

    边缘这个词在物联网的世界里被赋予了新的定义,特指在设备端的附近,所以根据字面定义,边缘计算即在设备端附近产生的计算。边缘计算是相对计算而言
    的头像 发表于 04-17 14:29 298次阅读
    边缘<b class='flag-5'>计算</b>vs<b class='flag-5'>云</b><b class='flag-5'>计算</b>,关键差异一文分清

    科技报到:AI算力革命,终结计算20年降价史

    跟进,AI算力、高端存储等核心产品价格大幅上调,一场由人工智能驱动的算力定价革命,正在彻底重塑计算产业的底层逻辑与商业格局。 这场涨价并非偶然的市场波动,而是AI时代算力供需、产业成本、商业模式重变革叠加的必然结果。 当
    的头像 发表于 04-03 17:05 2976次阅读

    计算行业科普:从基础概念到未来趋势全解析

    前言在数字经济高速发展的今天,计算早已从前沿技术概念,变成了支撑数字世界运行的核心基础设施。无论是日常使用的线上应用,还是企业的数字化转型,亦或是人工智能技术的爆发式发展,背后都离不开计算
    的头像 发表于 03-11 14:28 654次阅读
    <b class='flag-5'>云</b><b class='flag-5'>计算</b>行业科普:从基础概念到未来趋势全解析

    什么是企业服务器-计算

    企业服务器是指为企业提供的基于计算技术的服务器解决方案。华纳是一家计算服务提供商,为企业
    的头像 发表于 12-29 17:57 1061次阅读

    融合:创新计算架构的全面解析与应用

    私有、公有与边缘计算结合,形成一个集成、统一的计算平台,旨在为企业提供更加灵活、高效、安全的
    的头像 发表于 12-23 14:17 475次阅读

    CORDIC模块——提高计算能力的性价比神器

    单片机进行复杂的数学函数计算特别是控制系统中常用的角函数计算,在有精度要求的情况下,我们经验上往往会选用带有DSP模块的MCU或者专用的DSP芯片去实现。但由于带有DSP模块的芯片往往内核等级较高
    的头像 发表于 12-22 12:39 3613次阅读
    CORDIC模块——提高<b class='flag-5'>计算</b>能力的性价比<b class='flag-5'>神器</b>

    为什么要网融合?

    信息技术的持续进步和创新推动了全球计算领域的变革。政策支持下,企业开始广泛采用计算技术,以支持数字化转型。互联网技术的快速发展和信息内容的复杂化要求企业应对多系统、多场景、多业务的
    的头像 发表于 12-03 09:59 602次阅读

    AI 驱动维逆向:点降噪算法工具与机器学习建模能力的前沿应用

    维逆向工程领域,传统方法在处理复杂数据和构建高精度模型时面临诸多挑战。随着人工智能(AI)技术的发展,点降噪算法工具与机器学习建模能力的应用,为维逆向工程带来了创新性解决方案,
    的头像 发表于 08-20 10:00 857次阅读
    AI 驱动<b class='flag-5'>三</b>维逆向:点<b class='flag-5'>云</b>降噪算法工具与机器学习建模能力的前沿应用

    中国信通院发布“2025计算十大关键词”

    日前,中国信通院正式发布“2025计算十大关键词”,中国信通院计算与大数据研究所所长何宝宏对“2025
    的头像 发表于 07-30 10:53 3340次阅读
    中国信通院发布“2025<b class='flag-5'>云</b><b class='flag-5'>计算</b>十大关键词”

    中软国际上迁移服务充分释放计算价值

    华为生态的核心合作伙伴,中软国际凭借深厚的行业积累、成熟的迁移方法论及专业化工具链,为企业提供端到端上服务,助力客户实现业务无缝迁移,充分释放计算价值。
    的头像 发表于 07-25 14:32 1077次阅读
    中软国际上<b class='flag-5'>云</b>迁移服务充分释放<b class='flag-5'>云</b><b class='flag-5'>计算</b>价值

    手持台马达驱动:提升摄影稳定性与观感的秘密武器

    在摄影的世界里,稳定性一直是影响作品质量的关键因素。无论是专业摄影师捕捉精彩瞬间,还是普通爱好者记录生活点滴,画面的稳定与流畅都至关重要。而手持台马达驱动的出现,如同给摄影设备装上了“稳定神器”,为提升摄影稳定性与观感带来了
    的头像 发表于 07-22 16:51 889次阅读

    (ST大赛等奖作品)超声波自拍神器实例项目

    (ST大赛等奖作品)超声波自拍神器电路图:
    发表于 05-28 21:04

    CCLINKIE转PROFINET:电机的“网络冲浪神器”!

    ;PROFINET则是PI组织开发的工业以太网标准,在欧美市场那是相当“吃香”。可问题来了,电机就像个“愣头青”,在CCLINKIE的“地盘”待惯了,想去PROFINET的“场子”里玩玩,却发现语言不通,这可
    发表于 05-28 15:21

    HarmonyOS5服务技术分享--存储指南

    完整代码示例) 一、存储功能速览 HarmonyOS存储就像个随身U盘,能帮咱们把应用数据安全存到云端。特别适合处理用户头像、游戏存档、音视频文件等场景。它的大优势: 自动同步:数据在设备和云端
    发表于 05-22 19:17

    HarmonyOS5服务技术分享--ArkTS开发Node环境

    ? 性能优化 ​​冷启动优化​​:保持函数轻量(建议代码包<10MB),使用require按需加载模块。 ​​缓存机制​​:利用数据库存储高频访问数据,减少重复计算。 ⚠️ 常见问题
    发表于 05-22 17:21