0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CCF HPC China 2023 | 武汉超算:超级算力背后的“超级网络”

华为数据通信 来源:未知 2023-08-29 18:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZomTtxlKAaCZ6AABYb2B4C6Q831.png

8月25日,在青岛举行的全国高性能计算学术年会大会(CCF HPC China 2023)上,2023华为高性能计算解决方案分论坛同步举办。来自武汉超算中心的运营负责人陈斌分享了“武汉超算全栈国产HPC解决方案方法与运营”。

wKgZomTtxlKALdjPAAjUcRxh9Hg531.png

武汉超算运营负责人 陈斌 现场分享

数字经济时代,算力就是生产力。

提及武汉和湖北,总离不开“枢纽”二字,湖北地处中国南北连接中心,素有“九省通衢”之称,武汉又是位于长江黄金水道的中心城市。得益于独特的地理区位优势,湖北正努力从区位交通枢纽跃升数字经济枢纽,而其中的关键正是算力。

《湖北数字经济强省三年行动计划(2022-2024年)》提出打造新型基础设施中部枢纽节点的发展目标,建设全国一体化算力网络国家枢纽中部节点成为重要行动。毫无疑问,算力已成为推动数字经济发展的核心力量。

超级计算,该配什么样的超级网络?

wKgZomTtxlKAUMwqAAAG5GHQZWM552.png

两年前,武汉超算中心启动建设,作为国内最大的集装箱超算中心,整体规划设计算力为200P,首期算力达到50P。武汉超算中心与紧邻的武汉人工智能计算中心投运形成合力,助力武汉成为国内为数不多的拥有超算和智算双中心城市的同时,也在助力湖北打造成为国家算力网络中部枢纽目标中发挥着重要的推动作用。

值得一说的是,无论是HPC还是AI计算,算力的极致释放离不开高吞吐、低延迟的网络加持,就像一辆汽车从一城快速驶向另一城,除了自身具备高性能的发动机等特性外,还离不开更高效、更高质量的网络进行高速互联。

过去数年,InfiniBand网络在HPC系统中占据了绝对领先份额,原因无他,通过引入RDMA协议,InfiniBand网络大大降低了数据传输时延,成为高性能网络的代表。不过,其也有着明显的弊端,不同于TCP/IP协议栈,Infiniband拥有自己的网络层和传输层协议,所以体系相对封闭,并且运维复杂、价格昂贵。

为了释放极致算力,武汉超算中心在建设实践中则选择了开放的RoCE(RDMA over Converged Ethernet)路线,基于华为超融合以太网络解决方案构建面向HPC和AI计算的智能无损高性能计算网络,不仅满足高性能计算需求,同时提升了投资回报率。

释放极致算力,湖北超算携手华为
构建智能无损高性能计算网络

wKgZomTtxlKAUMwqAAAG5GHQZWM552.png

高性能计算实现的前提是计算、存储、网络端到端的高性能,任何一方成为系统性能的短木板,都将导致整体系统性能发挥面临瓶颈。

武汉超算中心之所以选择华为超融合以太解决方案,首要原因是看到了其实现网络高性能的三个核心指标:0丢包、低时延、高吞吐。华为智能无损高性能计算网络实现从“尽力而为”连通型网络向“提供确定性SLA保障”性能型网络演进,将网络高性能提升至新的高度,从而100%释放算力。

实现这一核心能力的背后,源于华为独创的iLossless智能无损算法,华为智能无损高性能计算网络通过流量控制技术、拥塞控制技术、流量调度技术和应用加速等技术的结合,解决发送端与接收端的速率匹配问题、网络拥塞时对流量的速率控制问题、业务流量与网络链路的负载均衡性等问题,从而让0丢包、低时延、高吞吐成为可能,并通过对超算网络的流量模型进行分析,进而支持各种计算密集型和数据密集型应用的高效运行。

无论是预防PFC死锁的发生、缓解/解除拥塞、进行负载分担/网络均衡,还是差异化SLA动态优化保障,一个真正的智能无损高性能计算网络就此形成,这也为武汉超算中心带来了显著价值。

一是满足了网络高性能的建设诉求。武汉超算中心在项目部署前通过对96节点集群规模进行全面的对比测试,在MPI、Benchmark和HPC典型应用测试中,华为智能无损高性能计算网络性能与InfiniBand网络整体基本持平,局部小幅领先,完全满足业务的高性能需求。

wKgZomTtxlOALuZUAALqPRHo74M085.png

二是显著降低了网络的建设、运维成本。基于标准的以太网架构,华为超融合以太网络解决方案带来了一张统一融合的网络。通过将通用计算、存储和高性能计算统一承载在0丢包以太网技术栈上,打破传统分散架构限制,实现从三张网到一张网的融合部署。从而降低了网络的建设成本,而不必再进行计算和存储网络的独立建设,同时降低了运维成本,支持SDN云网自动化,提升了运维效率。

整体看来,武汉超算中心为释放极致算力,打造了一张性能、兼容性、成本效益和灵活性兼具的高性能网络。目前,超融合以太网络解决方案正在成为越来越多政企构建HPC和AI极致算力的选择。

多云异构算力演进,
无损以太网络迎来广阔发展空间

wKgZomTtxlKAUMwqAAAG5GHQZWM552.png

《湖北省加快发展算力与大数据产业三年行动方案(2023—2025年)》提出,力争到2025年成为国家算力网络中部枢纽,建成全国算力与大数据创新发展的核心区。基于超融合以太解决方案打造领先的超算和人工智能计算中心,携手华为构建面向HPC和AI计算的智能无损高性能计算网络,湖北正全力向算力、存力、运力的全国第一梯队迈近,由“九省通衢”迈向“数字通衢”。

面向未来,数据中心正快速朝着多云异构算力演进,随着HPC和AI应用的不断发展,网络带宽吞吐的需求也越来越大,以太网络正从100GE向200GE、400GE和800GE等更高速率发展。在可预见的将来,低时延、高吞吐的无损以太全球生态将会更加成熟,为多元算力提供强大的网络底座,超融合以太网络解决方案也将迎来更广阔的发展空间。

wKgZomTtxlSAJtXVAAEeyHFS5w4584.png

wKgZomTtxlSAIlesAABH79rerUY388.gif 点击“阅读原文”,了解更多华为数据通信资讯!


原文标题:CCF HPC China 2023 | 武汉超算:超级算力背后的“超级网络”

文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    36212

    浏览量

    262737

原文标题:CCF HPC China 2023 | 武汉超算:超级算力背后的“超级网络”

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    上天!我国发射2800颗卫星,背后企业浮出水面

    。 ​ 据悉,这是我国 “星” 计划发射的首批卫星,数量共计 12 颗。而整个 “星” 计划规划宏大,预计将发射 2800 颗卫星,旨在打造覆盖全球的天基
    的头像 发表于 05-16 00:55 1.2w次阅读

    从云端集中到边缘分布:边缘智如何重塑网络布局

    随着大模型推理延迟进入毫秒级时代,整个科技行业都意识到:网络的规则正在被改写。这场变革的核心,正是从云端集中式计算向边缘分布式智能的范式转移。据行业多家分析机构综合预测,全球AI基础设施正面
    的头像 发表于 12-25 11:34 636次阅读
    从云端集中到边缘分布:边缘智<b class='flag-5'>算</b>如何重塑<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>网络</b>布局

    中航光电亮相2025全球超级计算大会

    11月20日,2025全球超级计算大会(SC25)在美国圣路易斯圆满收官。本届大会以“HPC Ignites”为主题,集中呈现了、AI 与数据融合领域的尖端技术、落地应用及未来趋势
    的头像 发表于 11-26 11:37 821次阅读

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    捷智重大更新|API接口全面开放,调用更高效

    人工调度太耗时?业务系统对接总卡壳?捷智重磅升级——租赁平台API接口正式开放,让
    的头像 发表于 11-21 18:41 1116次阅读
    捷智<b class='flag-5'>算</b>重大更新|API接口全面开放,<b class='flag-5'>算</b><b class='flag-5'>力</b>调用更高效

    中科曙光亮相2025中国超级大会

    11月8日,第七届中国超级大会在北京召开。中科曙光作为常务理事成员单位加入“九源智能计算系统生态联合体”,并携手中国信通院重磅发布《2025中国
    的头像 发表于 11-08 16:57 4103次阅读

    节点+集群”:华为撞出来的之路

    节点+集群”,成为彻底解决AI困局的契机
    的头像 发表于 09-24 10:55 1377次阅读
    “<b class='flag-5'>超</b>节点+集群”:华为撞出来的<b class='flag-5'>算</b><b class='flag-5'>力</b>之路

    曙光存储超级隧道技术助力应对PCIe 6.0时代

    8月29日,聚焦“智存·智·智能”的第二届CCF中国存储大会在武汉隆重召开。会上,曙光存储副总裁郭照斌宣布,“超级隧道”技术能更好的应对PCIe 6.0时代,为下一代国产芯片效能释放
    的头像 发表于 09-03 14:01 698次阅读

    【涨知识】“”是个啥“”?

    操作的背后跃动着的是同一个“超级心脏”!它驱动AI进化重构智能工厂革新政务民生……现在已成为数字经济时代不可或缺的新型生产今天,让我
    的头像 发表于 08-26 09:24 1815次阅读
    【涨知识】“<b class='flag-5'>算</b><b class='flag-5'>力</b>”是个啥“<b class='flag-5'>力</b>”?

    CCF HPC China 2025鄂尔多斯完美谢幕,共谱新篇章

    8 月 13 日至 16 日,以 “绿动 智融合” 为主题的第 21 届 CCF 全国高性能计算学术大会(CCF
    的头像 发表于 08-21 13:06 655次阅读
    <b class='flag-5'>CCF</b> <b class='flag-5'>HPC</b> <b class='flag-5'>China</b> 2025鄂尔多斯完美谢幕,共谱<b class='flag-5'>超</b><b class='flag-5'>算</b>新篇章

    澎峰科技邀您相约CCF HPC China 2025

    第21届CCF全国高性能计算学术年会(CCF HPC China 2025) 将于 2025年8月13日至16日在承载千年风华的历史名城鄂尔多斯盛大举办。
    的头像 发表于 08-07 11:33 1297次阅读

    一文看懂AI集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI集群。AI的三要素,是、算法和数据。而AI
    的头像 发表于 07-23 12:18 1983次阅读
    一文看懂AI<b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    燧弘华创携手合作伙伴共筑智能新生态

    在数字经济加速演进的时代背景下,力作为核心生产,正深刻重塑全球科技与产业竞争格局。近日,燧原科技、锐捷网络、厦门半导体与燧弘华创各方管理层在厦门举行战略会议,重点围绕国产
    的头像 发表于 06-23 11:51 1572次阅读

    软通智完成亿级A轮融资,加速AI产业布局

    北京 2025年6月18日 /美通社/ -- 近日,软通动力旗下软通智科技(广东)集团有限公司(以下简称"软通智")完成亿级A轮融资,本轮融资由盛景嘉成创投领投,广发信德、毅达资本等多家知名
    的头像 发表于 06-18 15:37 729次阅读

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨中心(LRZ)将迎来全新超级计算机 Blue Lion,其比该中心现有的 SuperMUC-NG 高性能计算机提升了约
    的头像 发表于 06-12 15:39 1390次阅读