0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超级计算机的异构分歧

E4Life 来源:电子发烧友网 作者:周凯扬 2022-05-10 00:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)转眼接近六月,离新一期TOP500超算排名公布的日子又不远了。这半年多时间里,业界在超算上的动作可不小,新的处理器、新的加速器都在积极加入各大超算中心、国家实验室的大规模部署。国内的百亿亿级超算系统目前还没有提交成绩,不过这已经不重要了,这场谁先做到百亿亿级的竞赛中国已经取胜了,更不用说去年就通过新一代神威超算打破了量子霸权。

不过近期有一种观点开始冒头,那就是超算的规模已经越来越大,结构也越来越复杂,未来除了CPUGPU之外,FPGAAI加速器、量子加速器、神经形态芯片和硅光芯片等设备是否会在超算上占据更大的份额呢?在这样的异构体系下,超算是否会像其他大型仪器,比如大型粒子对撞机、平方公里阵列射电望远镜一样,逐一替换部件呢?

开始异构化的超算

尽管FPGA已经经历了多年的应用,但在HPC上亮相的次数可谓少之又少,这并非是缺乏尝试,而是传统FPGA硬件上存在限制,开发工具也相对特化,对于尝试数据科学的开发者来说上手难度较高。

VersalHBM /Xilinx


然而近年来,在各大FPGA厂商的努力下,FPGA已经有了长足的发展,其性能足以支撑起HPC应用的运行,FPGA编程也终于有了软件开发而不是硬件设计的样子。英国的ExCALIBUR项目就开始利用FPGA作为HPC应用的测试平台,所用硬件有Xilinx的Alveo、Versal,也有英特尔的Stratix-10。

神经形态芯片也想要取代GPU的位置,美国桑迪亚国家实验室就利用了5000万片英特尔的Loihi神经形态芯片进行了研究,证明了这类芯片不仅仅适用于解决AI上的挑战,在分子模拟、生物学建模这些超算应用也能做到极高的能效比。

即便如此,我们在TOP500上看到利用新硬件的情况还是很少,英特尔、AMD英伟达还是占据了绝对的主导。

实际应用与软件移植的痛点

但说到头来,TOP500所奉行的HPL测试标准并不是衡量超算性能的唯一标准,还有专注于带宽的HPCG,以及更看重时延的Graph500。异构超算可以借助不同硬件的特性,将这些痛点各个击破。

富岳超级计算机 / 日本理化学研究所


日本富岳超算的主要贡献者之一,前不久刚获得了日本政府所颁发紫绶褒章的松冈聪却对超算上的异构趋势表示了一定的怀疑。他认为未来的HPC系统不会由各种类型的设备组成,反倒是会更加慎重地选择所用的处理器,从而兼顾计算、带宽和时延的需求。

原因很简单,那就是软件生态。如今的HPC代码运行着世界上最复杂的应用,比如气象预测、大规模数字孪生等等。但这类应用由于复杂程度之高,承担不起因为当前的硬件架构几年内过时而面临着重新编程或淘汰的代价,这也就是为何CPU+GPU的配置在超算领域依旧是龙头老大,因为这种架构下的超算软件生态已经成熟,可以沿用下去。

就拿常见的超算编程语言Fortran为例,虽说这一语言在数学运算上有着很大的优势,但由于维护和移植困难,不少开发者都转向了C/C++,而GPU又多用C++,所以即便现在各种加速器频出,率先使用他们的也只是数据中心或AI等场景,并非超算。

但松冈聪也表示,他并不是指这些设备无法运行这些代码,或者移植困难不代表没有尝试的价值,而是即便代码可以运行在这些设备上,也很难通过负载均衡来践行古斯塔夫森定律,即处理器数量增加可以让程序运行时间减少,最好的解决思路还是CPU或CPU+GPU这种同构的方案。

虽然其他硬件加入的异构确实对不同的工作流各个攻破,但超算很多时候是建好就完事的计算系统,后续也许只能增加同样的计算资源来提高硬件性能,设计者无法预先判断未来要运行的任务,因此追求这样的灵活性还不如使用同构这一通解。

在使用超算的研究者和科学家看来,他们在一台超算上力求取得最大性能就已经付出了巨大的心力,要是超算内真的囊括一堆不同架构的设备,单是庞大的编程和移植工作量就足以让他们丧失兴趣。他们或许更愿意去优化算法或理论,都不愿意因为架构的变化而去花费大量时间编程。

云化超算成为可行方案?

还有一种观点也获得了不少支持,那就是云化超算。云服务厂商在HPC上的努力也都有目共睹,去年超算大会上,国内外大学之间的比赛也是在云服务上构筑超算系统,TOP500上来自云服务厂商的超算也有几台,微软的Azure就有5台,最强的一台Voyager-EUS2甚至排到了第十的高位。

虽然云端部署超算的成本同样巨大,但对于一些实验室来说,云端的模块化特性让他们不用担心自己用不到什么组件,花更少的时间来购置超级计算机,花更多的时间去使用它。比如英国政府就选择在微软的Azure上部署慧与的CrayEX超算,用其完成气象预测工作。更方便的是,由于超算消耗电力巨大,基础设施可以托管在北欧等清洁能源更多的地方。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20148

    浏览量

    247130
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222942
  • 超级计算机
    +关注

    关注

    2

    文章

    479

    浏览量

    43151
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NVIDIA技术驱动的超级计算机助力开放科学研究

    五个备受瞩目的 HPC 奖决赛入围项目凭借 Alps、JUPITER 和 Perlmutter 超级计算机的支持在气候建模、流体模拟等领域取得了重大突破。
    的头像 发表于 11-25 11:17 427次阅读

    奥士康召开DGX Spark AI超级计算机项目表彰大会

    2025年9月22日,奥士康科技股份有限公司隆重召开DGXSparkAI超级计算机项目表彰大会,以表彰在客户开发、产品研发、工程设计和批量生产等方面作出突出贡献的核心团队。
    的头像 发表于 09-24 10:51 596次阅读

    NVIDIA助力AI超级计算机Isambard-AI投入使用

    英国布里斯托大学的超级计算机 Isambard-AI 采用 NVIDIA Grace Hopper 超级芯片,其 AI 算力达到了 21 ExaFLOPS,不仅是英国最快的系统,同时也是全球能效最高的系统之一。
    的头像 发表于 07-28 15:07 918次阅读

    自动化计算机经过加固后有什么好处?

    让我们讨论一下部署坚固的自动化计算机的一些好处。1.温度范围宽自动化计算机经过工程设计,配备了支持宽温度范围的组件,使自动化计算解决方案能够在各种不同的极端环境中运行。自动化计算机能够
    的头像 发表于 07-21 16:44 419次阅读
    自动化<b class='flag-5'>计算机</b>经过加固后有什么好处?

    自动化计算机的功能与用途

    工业自动化是指利用自动化计算机来控制工业环境中的流程、机器人和机械,以制造产品或其部件。工业自动化的目的是提高生产率、增加灵活性,并提升制造过程的质量。工业自动化在汽车制造中体现得最为明显,其中许多
    的头像 发表于 07-15 16:32 531次阅读
    自动化<b class='flag-5'>计算机</b>的功能与用途

    工业计算机与商用计算机的区别有哪些

    工业计算机是一种专为工厂和工业环境设计的计算系统,具有高可靠性和稳定性,能够应对恶劣环境下的自动化、制造和机器人操作。其特点包括无风扇散热技术、无电缆连接和防尘防水设计,使其在各种工业自动化场景中
    的头像 发表于 07-10 16:36 516次阅读
    工业<b class='flag-5'>计算机</b>与商用<b class='flag-5'>计算机</b>的区别有哪些

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    现代高性能计算不仅使得更快的计算成为可能,它正驱动着 AI 系统解锁更多领域的科学突破。 高性能计算经历了多次迭代,每一次都源于对技术的创造性再利用。例如,早期的超级
    的头像 发表于 06-26 19:39 979次阅读
    NVIDIA驱动的现代<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>如何突破速度极限并推动科学发展

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨超算中心(LRZ)将迎来全新超级计算机 Blue Lion,其算力比该中心现有的 SuperMUC-NG 高性能计算机提升了约 30 倍。这台新的超级
    的头像 发表于 06-12 15:39 830次阅读

    NVIDIA技术赋能欧洲最快超级计算机JUPITER

    NVIDIA 宣布,搭载 NVIDIA Grace Hopper 平台的 JUPITER 超级计算机成为欧洲最快超级计算机,其运行 HPC 和 AI 工作负载的速度是第二名的两倍以上。
    的头像 发表于 06-12 15:33 1039次阅读

    NVIDIA助力全球最大量子研究超级计算机

    NVIDIA 宣布将开设量子-AI 技术商业应用全球研发中心(G-QuAT),该中心部署了全球最大量子计算研究专用超级计算机 ABCI-Q。
    的头像 发表于 05-22 09:44 673次阅读

    计算机网络入门指南

    计算机网络是指将地理位置不同且具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统、网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
    的头像 发表于 04-22 14:29 1859次阅读
    <b class='flag-5'>计算机</b>网络入门指南

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,为开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technologies、HP
    发表于 03-19 09:59 504次阅读
       NVIDIA 宣布推出 DGX Spark 个人 AI <b class='flag-5'>计算机</b>

    NVIDIA推出个人AI超级计算机Project DIGITS

    NVIDIA 推出个人 AI 超级计算机 NVIDIA Project DIGITS,全球的 AI 研究员、数据科学家和学生都可获取 NVIDIA Grace Blackwell 平台的强大功能。
    的头像 发表于 01-08 11:03 1159次阅读

    NVIDIA发布高性价比生成式AI超级计算机

    NVIDIA近日推出了一款全新的生成式AI超级计算机——Jetson Orin Nano Super开发者套件,这款超级计算机不仅体积小巧,而且性价比极高,为商业AI开发者、科技爱好者
    的头像 发表于 12-24 10:44 1008次阅读

    云端超级计算机使用教程

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 12-17 10:19 944次阅读