最近又读了阿里巴巴的技术委员会的新书《弹性计算》,从序上看的确很新,2020年7月。在疫情这个年代,短时间内出版再次证明了中国人民的伟大。关于书中的内容,不想再多说。俺几个小时读下来,挑了几个错别字,以后找各位大佬领赏了。
其中印象深刻的是,为什么有神龙裸金属服务器,对RDMA的支持是一个关键的场景。在云计算中引入RDMA,目的也很明确-HPC。HPC是老黄的老巢,也是老黄现在整合网络,计算和存储的试验田。有了Mellanox,ARM加持,老黄提出了自己的口号:
CPU,做业务的编排,框架
GPU,做计算
DPU,数据的搬运和服务
不得不讲,老黄的市场部很强大,DPU就这样横空出世了。对比我司万能的P2P[1]的功能,我们就是简单说P2P,不知道的人以为我们就是个金融片子,悲催的我司没赶上匹凸匹的好时光。人家老黄不对称的P2P实现就有一个响亮的名字,GPUDirect。同样,老黄的TensorCore也有一个土鳖的名字,DSP。
这里就来谈谈这个RDMA,RDMA的优势和劣势都很清楚。在过去的10几年中,mellanox作为另类的以色列公司持续投入了很多年。(大部分以色列公司的套路是第一代产品创新,卖公司。公司卖不掉,第二代产品就SoSo了,如果有第三代产品,可以真接pass了)。
在Flash刚刚进入数据中心的时候,大家都在考虑DAS到SANder问题,什么样的网络最合适。

其中试过PCIE外接,AMD的HT,等等。就像一位做HPC出身的朋友讲的一样:“没几年就会冒出了一堆硬件公司,然后大家就上一把,然后大部分公司都死掉了”

因此,可以看到IBversb在2010年成为主流,在HPC中目前已经已有疲态了,正是把这个HPC的专用技术用到hyperscale数据中心的好时机。
第一个规模使用IB而成功的案例是Oracle的Exadata[1]

之后就是大量的SDS存储的公司起来了。Flash+RDMA是大家的标配。直到Microsoft在数据中心中规模部署。其实之前的RoCE本质上还是一个channel的协议,和之前的FCOE类似,只是在RoCEv2的时候,因为Microsoft的加持,从真正成就了Mellanox,同时把原来最擅长存储的Iwarp打进了小众市场,但是目前IBM和Netapp依然在坚守。
原来一个Intel的网卡大佬就很不服气,“我们做网卡快20年了,Mellanox的ethernet网卡到现在都有很多功能不支持,但是他们咋就成了先进技术了,成了Smartnic呢?”。这样的话,当年EMC也说过Fusion-io这样的startup。

不管结果如何,Microsoft和Mellanox在DataCenterNetwork的深度合作,让Mellanox在25G成功上位。取代了Intel和Broadcom在高端网卡的江湖地位。
当年在见识了Annapuna的EBS性能之后,我在加入新公司时就对大佬说要做RDMA,要做RoCEv2。但是大佬就是大佬,他们认为lossless的网络一直就是一个传说。而且,那个时候AI正在风口上。总之,这个事情也让我看清了一个事实,就是Hyperscale用RDMA,只会有两种配置:Mellanox的RDMA,以及他们自己的RDMA。
这个微软是最先这么考虑的,他们就是认为RDMA只有两种。微软内部实现的RDMA的细节很少有透露,知道的大佬欢迎分享。
但是另一个大佬的AWS的RDMA就有很多细节。拿另一个常常教育我的大佬的话:"他们想做什么都在EFA的驱动里写着!!!“。在火焰图流行的这个时代,静态分析的确有点反人类。

比较好的是,作为HPCRDMA权威的熊猫教授率先被AWS的EFA招安,他们在SC19以及今年发表很多关于EFA的详细信息[2]。当然还有AnnapurnaCTONafea同学的软文[3]



熊猫教授的一个学生做了Azure和AWS的RDMA性能的分析,因为过于敏感,自己关心的人可以去了解。但是以后估计每家大厂炫耀的资本里面会很快有一个:“我的RDMA是自研的,是XXXCloud特色的RDMA!”
--"老黄你怎么办呢?"
"DPU,DPU+GPU,DPU+GPU+CPU。。。。。。。"
--"Chiplets要不要考虑一下?"
责任编辑:lq
原文标题:云计算三大神器来了!CPU、GPU、DPU!
文章出处:【微信号:SSDFans,微信公众号:ssdfans】欢迎添加关注!文章转载请注明出处。
相关推荐
如何避免人工配置和维护云计算资源的繁琐工作并降低成本?对于组织来说,需要采用自动化技术。
如意 发表于 03-02 16:43
•
166次
阅读
当今智能行业最为热门的话题无非就是云计算、大数据与人工智能。它们之间好像互相有关系,一般谈云计算的时....
如意 发表于 03-02 16:38
•
256次
阅读
在该循环中,过程映像分区 0 将自动更新。通过“自动更新” (Automatic update)....
两个通信伙伴都调用FB 65 "TCON"来设置和建立通信连接。在这些参数中,您要指定哪个伙伴是主动....
电力安全事关生产之基、民生之本,对于国家经济、人民生活都至关重要。疫情之下,2020年,全国全社会用....
我快闭嘴 发表于 03-02 15:23
•
156次
阅读
在删除和重新加载块后,可能会在用户存储器(装入和工作存储器)中产生间隔,从而减少可使用的存储器区域。....
创建F-CALL :使用编程语言“F-CALL”,用户可以完成运行组的“F-CALL”的插入操....
与真实的 CPU 一样,仿真软件可以改变 CPU 的操作模式(RUN, RUN-P 和 STOP)。....
单击某对象的“操作”(Action) 列,在删除对象、不执行任何操作或将该对象下载到设备这三项中进行....
使用设备配置的“网络视图”(Network view) 在项目中的各个设备之间创建网络连接。创建网络....
将清空非保持性存储器中的内容,同时将非保持性 DB 的内容复位为装载存储器的初始值。同时保留保持性存....
据AnandTech报道,在运行了在实施了9年之后,英特尔即日起不再提供性能调试保护计划服务(Per....
电子魔法师 发表于 03-02 13:52
•
139次
阅读
如果 CPU 和集中存在的模块已组态,并且需要在新项目中加载当前的组态和参数,则建议使用“上传设备作....
从这篇开始将会开启高性能、高并发系列,本篇是该系列的开篇,主要关注多线程以及线程池。 一切要从CPU....
玩转单片机 发表于 03-02 13:48
•
67次
阅读
BL5372能够产生多种周期性中断脉冲(最长周期可长达1个月),还具有两套报时系统。BL5372内部....
发表于 03-02 11:34 •
6次
阅读
在“设备和网络”(Devices & networks) 编辑器中,右键单击所需的 PROFINET....
用于在三种语言之间切换消息视图(数据库视图)和消息归档(数据库归档)中的消息文本。在数据库视图和数据....
AMD已经发布了Zen 3架构处理器,在单线程性能上要比Zen 2强得多,因此在游戏表现上也更加出色....
我快闭嘴 发表于 03-02 10:56
•
333次
阅读
Intel在其官网上表示,即日起会停止为消费者提供新的超频保险服务PTPP(Performance ....
我快闭嘴 发表于 03-02 10:34
•
330次
阅读
相比几十亿出货量,市场规模千亿美元的CPU和GPU,市场规模还未超百亿美元的FPGA并非大众关注的焦....
发表于 03-02 09:53 •
182次
阅读
近段时间,各手机厂商都在准备发布自家的骁龙888旗舰,游戏手机厂商也不例外,接下来两周之内将有腾讯R....
去年7月,下一代视频编解码标准H.266/VVC公布。简单来说,H.266进一步优化了压缩,大约可以....
3月1日,微软公司宣布,出生于中国沈阳的侯阳将接替法国人柯睿杰担任微软大中华区董事长兼首席执行官,领....
2020年对于云计算领域来说是具有标志性的一年。这一年,混合多云领域的发展势头最为迅猛。很多企业都在....
如意 发表于 03-01 16:30
•
255次
阅读
在过去的一年中,云计算已经成为组织应对冠状病毒疫情对其业务不利影响的关键技术。实际上,组织在2020....
如意 发表于 03-01 15:47
•
140次
阅读
realme 2021年开年旗舰真我GT的新品发布会定在3月4日,目前,官方已经公布了不少新机的配置....
人们常说,云计算是一个资金投入密集型和技术密集型的规模产业,经过十余年的发展,市场格局已定,新玩家很....
璟琰乀 发表于 03-01 14:16
•
170次
阅读
最近受虚拟货币市场火热的影响,游戏玩家都买不到显卡了。”2月27日,玩家阿奇(化名)很是无奈,“即使....
我快闭嘴 发表于 03-01 11:35
•
239次
阅读
近年来,移动互联网、云计算、人工智能、物联网、5G等技术日益成熟,并广泛应用于各行各业的方方面面,在....
电子魔法师 发表于 03-01 11:25
•
310次
阅读
众所周知,企业数字化转型是一个复杂的系统工程,其中顶层设计更是起着把方向、定目标、绘蓝图、指路径的重....
华为 发表于 03-01 10:36
•
70次
阅读
2月28日消息,备受消费者期待的魅族开年旗舰——魅族18系列即将于3月3日登台亮相。
红魔6、红魔6 Pro两款新机获得入网许可,其型号分别为NX669J和NX669J-P。
信息是推动世界发展、科技进步的不竭动力。而作为信息时代的产物――大数据,逐渐成为大家讨论的话题。下面....
发表于 02-28 11:22 •
51次
阅读
云计算的发展,使IT资源利用效率提升,使用云服务帮助企业节约成本,专注于核心竞争力的提升,受欢迎程度....
牵手一起梦 发表于 02-28 10:57
•
1292次
阅读
录音笔是一种主要功能为录音的数码设备,其中录音是通过对模拟信号的采样、编码将模拟信号通过数模转换器转....
牵手一起梦 发表于 02-28 10:24
•
740次
阅读
近日,华为心声社区发表任正非在“GTS云与终端云合作与融合进展”汇报会上的讲话文件。任正非表示,未来....
如意 发表于 02-27 11:15
•
519次
阅读
对于不少关注Intel 11代酷睿桌面处理器价格的用户来说(Intel计划3月16日正式宣布,并于3....
如意 发表于 02-27 11:10
•
1086次
阅读
最近对于 PC 玩家来说,无疑是一段噩梦般的日子。想要买新电脑或者升级配置的朋友突然发现,零件买不全....
如意 发表于 02-27 09:25
•
584次
阅读
最近对于 PC 玩家来说,无疑是一段噩梦般的日子。想要买新电脑或者升级配置的朋友突然发现,零件买不全....
工程师邓生 发表于 02-27 09:07
•
1670次
阅读
如今云计算是全球应对新冠疫情危机的核心技术。的确,几大领先的公有云提供商在2020这个最不同寻常的年....
如意 发表于 02-26 15:45
•
364次
阅读
组织将其业务迁移到云端之前,需要了解可能面临的云安全挑战,以及如何应对这些挑战。
如意 发表于 02-26 15:42
•
753次
阅读
数据和知识是新一代信息技术与智能制造深度融合的基础。然而,当前产品设计、制造、装配和服务等过程中,数....
发表于 02-26 15:01 •
163次
阅读
公有云提供商们将巩固其主导地位,而企业界会把目光投向混合云、PaaS、开放合作伙伴生态系统以及增强现....
我快闭嘴 发表于 02-26 10:49
•
580次
阅读
今天,realme副总裁徐起为realme GT预热。
Redmi K40系列于2月25日晚正式发布,其中Redmi K40起售价1999元,Redmi K....
K40系列发布会上,Redmi产品总监王腾率先公布了K40的的性能:全球首批搭载骁龙870,安兔兔跑....
数字经济时代,全球运营商一方面利用数字化技术降本增效,一方面利用自身网络优势大力发展ToB业务。运营....
发表于 02-26 09:12 •
639次
阅读
在Arduino最小系统设计中,微处理器将选用 ATMEGA8 芯片,该芯片是一款基于 AVR—RI....
发表于 02-26 08:00 •
71次
阅读
CPU上的晶体管有多少个?
发表于 02-26 07:14 •
0次
阅读
为什么尽管所有的趋势都朝高端软件开发和抽象级发展,而不重视底层的CPU与GPU指令集架构(ISA)。但是当设计CPU、GP...
发表于 02-26 07:06 •
0次
阅读
“动力”―电源电路
“总指挥”―振荡电路「闹钟」―复位电路
CPU的复位操作
...
发表于 02-26 06:09 •
0次
阅读
据台媒报道,联发科在2020年营收暴涨至100亿美元(约合645亿元人民币),同比增长30.8%。
我快闭嘴 发表于 02-25 17:13
•
303次
阅读
2月25日一早,realme副总裁、中国区总裁、全球营销总裁徐起就公布了一个劲爆的的消息:realm....
我快闭嘴 发表于 02-25 15:44
•
385次
阅读
CPU时钟频率在过去5年里没有增加是很多不同类别的原因导致的。当设计一个CPU的微架构时,其中一个关键的设计决策就是如何实...
发表于 02-24 07:47 •
0次
阅读
当我们在选购电脑、手机的时候,销售人员都会告诉我们电脑、手机的配置,都会提到CPU,朋友也会提醒注意下CPU。那么CPU...
发表于 02-22 07:05 •
0次
阅读
CPU优化深度学习框架和函数库
机器学习加速器
...
发表于 02-22 06:01 •
0次
阅读
如何制作一个简单的16位CPU
发表于 02-04 06:58 •
0次
阅读
ARM概念
单片机和嵌入式的区别
CPU设计原理和总线
...
发表于 02-04 06:49 •
0次
阅读
解析HSA----CPU+GPU异构系统架构
发表于 02-03 07:07 •
0次
阅读
Intel第六代处理器 Skylake CPU、GPU、主板完全解析...
发表于 02-02 07:23 •
0次
阅读
TMS320VC5501(5501)定点数字信号处理器(DSP)基于TMS320C55x™DSP生成CPU处理器内核。 C55x™DSP架构通过增加并行性和全面关注降低功耗来实现高性能和低功耗。 CPU支持内部总线结构,该结构由一个程序总线,三个数据读总线,两个数据写总线以及专用于外设和DMA活动的附加总线组成。这些总线能够在一个周期内执行最多三次数据读取和两次数据写入。并行,DMA控制器可以独立于CPU活动执行数据传输。
C55x™CPU提供两个乘法累加(MAC)单元,每个单元能够进行17位×17位乘法运算。单循环。额外的16位ALU支持中央40位算术/逻辑单元(ALU)。 ALU的使用受指令集控制,提供优化并行活动和功耗的能力。这些资源在C55x CPU的地址单元(AU)和数据单元(DU)中进行管理。
C55x DSP代支持可变字节宽度指令集,以提高代码密度。指令单元(IU)从内部或外部存储器执行32位程序提取,并为程序单元(PU)排队指令。程序单元解码指令,将任务指向AU和DU资源,并管理完全受保护的管道。预测分支功能可避免执行条件指令时的管道刷新。
5501外设...
发表于 10-09 14:55 •
299次
阅读
评论