0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AWS HPC为什么不用Infiniband?有何原因?

SDNLAB 来源:zartbot 2024-04-16 16:59 次阅读

HPC的低延迟需求来自于很多应用都会通过网格刨分来进行并行运算,然后网格间有复杂而频繁的通信数据交互,Brain将其称为“Ghost Cell Exchange”。

dde3bfa6-fbcd-11ee-a297-92fbcf53809c.png

因此很多HPC系统将单个报文的延迟(Single packet latency)放在第一位,这也是Infiniband/RoCEv1/RoCEv2非常在意报文大小和HPE Cray构建HPC Ethernet的原因。

在AWS EFA的实践来看,单个报文的延迟并不是问题,而更重要的是网络中的拥塞冲突带来的长尾延迟。通过SRD来解决了几个问题:

多路径降低拥塞冲突概率

多路径解决链路失效等问题

MPI的很多操作不需要Reliable Connection的通信语义严格保序

解决QP数量多的爆炸问题

关于不兼容RC语义的原因:从Brain的履历也能大概看出来,由于Brain大量的OpenMPI的开发经历,所以在构建SRD时选择了不和标准的RC语义兼容,这也给后续的生态带来了一些问题。

1. 不使用Infiniband的原因

访谈中Brain介绍了一些原因: "云数据中心很多时候是要满足资源调度和共享等一系列弹性部署的需求,专用的Infiniband网络构建的集群如同在汪洋大海中的孤岛" 并且国外HPC需求较国内高的原因在访谈中也介绍了:国外并没有太多的线下机房,通常一些HPC任务需要在一些超算集群排队数周,如果有一个性能差不多的云上环境,对客户而言很有吸引力。

2. 应用性能

从应用性能来看,Brain的观点是单个报文的延迟(Single packet latency)并没有那么的重要,更重要的是实现长尾延迟的避免,例如Star-CCM+的测试报告《EFA-enabled C5n instances to scale Simcenter STAR-CCM+》[2],在3000核时加速比都还非常好。

de073062-fbcd-11ee-a297-92fbcf53809c.png

ANSYS Fluent性能也非常好。

de2187a0-fbcd-11ee-a297-92fbcf53809c.png

访谈中Brain还提到高性能存储是影响HPC应用的另一个关键因素,因此构建了FSx for Lustre的支持。

df001d58-fbcd-11ee-a297-92fbcf53809c.png

3. 一些缺点和争议

AWS通过Reliable Datagram实现了多路径的支持能力,但是似乎国内很多人把这个事情搞混了,虽然传输语义上实现了可交换,但是基于Reliable Connection语义Verbs兼容的情况下依旧可以实现多路径的处理,而且这个技术在2002年IETF提出iWARP时构建的Direct Data Placement(DDP)就已经讨论的很清楚了。

df189c2a-fbcd-11ee-a297-92fbcf53809c.png

另外在HPC这个领域,特别是在国内部门间的通信壁垒非常高,很多从业者材料/物理/机械这些专业毕业的,对于HPC软件和相应的求解器只会使用,而IT等部门通常也只是使用商用软件测试招标,相应的算法和通信等优化的团队较少,并且企业通常因为软件授权价格等问题停留在较老的软件版本上。针对这些商用软件生态兼容使得RD这样的语义带来了很多负担。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • HPC
    HPC
    +关注

    关注

    0

    文章

    279

    浏览量

    23419
  • SRD
    SRD
    +关注

    关注

    0

    文章

    17

    浏览量

    12485
  • 数据交互
    +关注

    关注

    0

    文章

    28

    浏览量

    10424
  • AWS
    AWS
    +关注

    关注

    0

    文章

    393

    浏览量

    23933

原文标题:AWS HPC 为什么不用 Infiniband ?

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    联想集团突然终止科创板IPO,到底是何原因

    联想集团突然终止科创板IPO,到底是何原因?   10月8日晚,上交所官网显示“联想集团终止科创板上市”,至此联想的IPO之旅仅获受理仅一周就结束。本次IPO备受关注的不仅仅是联想创下史上“最短
    的头像 发表于 10-10 07:47 1.5w次阅读

    InfiniBand 连接现在和未来

    InfiniBand 连接现在和未来InfiniBand是致力于服务器端的高性能互联技术,它的使命是:使处理器级的带宽,从处理器到系统I/O、到存储网络,穿越整个数据中心,形成一张统一的、包括服务器
    发表于 11-13 21:57

    InfiniBand系统级调试

    This application note is written for R & D engineers developing InfiniBand processors
    发表于 09-10 09:18

    PSoC 64 AWS MCU是什么?什么功能?

    PSoC 64 AWS MCU是什么?什么功能?主要应用于哪些领域?
    发表于 06-16 08:41

    何原因导致的STM32的重启

    可以定位是硬件问题了,但是我左看右看也看不出硬件哪里出了问题;本来想放弃,想想这个问题不搞明白,后患无穷;采用的是仿真的手段,看看是何原因导致的重启:程序中加入对RCC_CSR寄存器清零的代码,以便在程序...
    发表于 08-02 08:54

    何原因导致的STM32程序仿真重启

    何原因导致的STM32程序仿真重启?怎样去解决这个问题?
    发表于 09-24 06:27

    Labview运行myrio冲突拒绝访问是何原因导致的

    Labview运行myrio冲突拒绝访问是何原因导致的?怎样去解决Labview运行myrio冲突拒绝访问的问题呢?
    发表于 02-23 06:52

    为什么我不能下载spc5studio呢?是何原因

    为什么我不能下载spc5studio?是何原因
    发表于 01-17 06:18

    proteus中cpu负载过大无法仿真是何原因?怎么解决?

    proteus中cpu负载过大无法仿真是何原因?怎么解决?
    发表于 04-23 16:40

    modbus通讯延迟回复导致读取错位是何原因

    modbus通讯延迟回复导致读取错位是何原因
    发表于 05-05 16:09

    InfiniBand,InfiniBand是什么意思

    InfiniBand,InfiniBand是什么意思 InfiniBand架构是一种支持多并发链接的“转换线缆”技术,在这种技术中,每种链接都可以达到2.5 Gbps的运
    发表于 04-10 11:34 1078次阅读

    实现InfiniBand网络优化自动化HPC管理工具

    实现InfiniBand网络优化自动化HPC管理工具 凭借对通信网络独特和系统深入的认知,QLogic Corp.(Nasdaq: QLGC)新推出的InfiniBand® Fabric Suite (IFS) 6.0
    发表于 05-24 11:09 778次阅读

    何原因造成芯片产业烂尾潮?

    在短短一年多时间里,分布于我国江苏、四川、湖北、贵州、陕西等5省的6个百亿级半导体大项目先后停摆。业界担忧,造芯热引发烂尾潮,造成国有资产损失,延误芯片产业发展大好机遇。那么问题来了,是何原因造成上述烂尾潮?中国芯崛起之路又当如何前行?
    的头像 发表于 11-03 09:12 1.3w次阅读

    半桥谐振LLC效率偏低是何原因?资料下载

    电子发烧友网为你提供半桥谐振LLC效率偏低是何原因?资料下载的电子资料下载,更有其他相关的电路图、源代码、课件教程、中文资料、英文资料、参考设计、用户指南、解决方案等资料,希望可以帮助到广大的电子工程师们。
    发表于 04-05 08:45 22次下载
    半桥谐振LLC效率偏低是<b class='flag-5'>何原因</b>?资料下载

    一文详解超算中的InfiniBand网络、HDR与IB

    InfiniBand技术被认为是面向未来的高性能计算(HPC)标准,在超级计算机、存储甚至LAN网络的HPC连接方面享有很高的声誉。
    的头像 发表于 04-16 10:18 241次阅读
    一文详解超算中的<b class='flag-5'>InfiniBand</b>网络、HDR与IB