0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔聚力整合实现可持续的异构计算

英特尔中国 来源:英特尔中国 作者:Jeff McVeigh 2022-06-12 17:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

接下来的超算普及化时代,英特尔将满足永无止境的计算需求,并将可持续发展作为重中之重。

本文作者:Jeff McVeigh

英特尔副总裁兼超级计算事业部总经理

随着我们进入E级(Exascale)计算时代并迈向Z级(Zettascale)计算时代,科技行业也越来越影响着全球的碳排放。据估计,到2030年数据中心的能耗估计将达到全球能源产量的3%-7%①,而计算基础设施将成为新增用电量的主要驱动因素。

今年,英特尔承诺到2040年实现全球业务的温室气体净零排放,并开发更加可持续的技术解决方案。在创造可持续未来的同时满足对计算永无止境的需求,这是高性能计算(HPC)面临的最大挑战之一。这个任务虽然艰巨,但如果我们能够把芯片、软件和系统这些HPC计算堆栈的每个部分都做好,它就是可以实现的。

我在德国汉堡举行的2022国际超算大会(ISC2022)上发表了主题演讲,上述内容就是我在演讲中传达的核心信息。

从芯片和异构计算架构开始

英特尔公布了直到2024年的高性能计算产品路线图,期间我们将致力于提供多样化的异构架构。这些架构不仅将使我们能够实现几个数量级的性能提升,同时亦可降低通用工作负载及诸如人工智能、加密、分析等新兴工作负载的能耗。

以内置高带宽内存(HBM),代号为Sapphire Rapids的英特尔至强处理器为例,该款处理器能够很好地展示我们如何利用先进的封装技术和芯片创新,为高性能计算带来性能、带宽和节能方面的显著提升。通过封装高达64GB的高带宽内存HBM2e并把加速器集成到CPU中,我们能够释放内存敏感型工作负载的潜力,为这些关键的高性能计算应用场景大幅提升性能。在对比第三代英特尔 至强 可扩展处理器和即将推出的内置高带宽内存(HBM)的Sapphire Rapids处理器时,我们发现,后者把气候研究、能源、制造和物理学工作负载的性能提升了2-3倍②。在主题演讲中,Ansys首席技术官Prith Banerjee还展示了内置高带宽内存的Sapphire Rapids为Ansys Fluent和ParSeNet的实际工作负载带来了高达2倍的性能提升③。

为实现跨HPC和AI超算工作负载的几个数量级的性能提升,计算密度是另一必不可少的要素。代号为Ponte Vecchio的英特尔首个旗舰级数据中心图形处理器(GPU),已经在复杂的金融服务应用以及AI推理和训练工作负载方面展现出了卓越的优势。

创新不止于此。今天,我们还宣布这款出色数据中心GPU的下一代产品代号为Rialto Bridge。通过升级Ponte Vecchio架构,并结合使用下一代制程节点技术制造的增强型芯片子模块,Rialto Bridge将大幅提高计算密度、性能和效率,同时提供软件一致性。

展望未来,Falcon Shores是我们路线图中下一个重要的架构创新,即把x86 CPU和Xe GPU集成在同一插槽中。这一架构计划将在2024年推出,它将在每瓦性能、计算密度、内存容量与带宽方面均实现超过5倍的性能提升④。

成功的软件战略遵循三个原则:

开放、选择、信任

如果没有软件为芯片注入活力,它将仅仅只是砂砾。英特尔的软件策略是促进整个堆栈的开放式发展,并提供工具、平台和软件IP,以帮助开发者提升工作效率,产出可扩展、更高性能、更高效的代码,这些代码能充分利用最新的芯片创新,没有重构代码的负担。oneAPI行业计划为HPC开发者提供了跨架构编程,使代码能透明、可迁移地适用于CPU、GPU和其他专用加速器。

目前,在世界各地领先的科研和学术机构中已有20多个oneAPI卓越中心(CoE),它们正取得重要的进展。例如,布里斯托大学科学系的Simon McIntosh-Smith和他的团队,正在使用oneAPI和Khronos Group的SYCL抽象层进行跨架构编程,为在E级计算规模上实现性能可移植性开发最佳实践。他们的工作将确保科学代码能在大规模异构超算系统上实现高性能。

聚力整合:实现可持续的异构计算

随着数据中心和HPC工作负载越来越多采用分布式架构和异构计算,我们需要借助工具来帮助有效管理和应对复杂多样的计算环境。

今天,我们将推出一款开源解决方案Intel XPU Manager,它可以在本地或远程监测和管理英特尔数据中心GPU。该解决方案旨在简化管理,并通过综合诊断更好地实现可靠性和延长设备运行时间,以及提升利用率并支持固件更新。

针对能耗很高的数据传输和存储任务,分布式异步对象存储(DAOS)文件系统提供了系统级的优化。DAOS可以显著地改善文件系统的性能,它不仅可以缩短整体访问时间,而且能够降低存储所需的容量,从而减少数据中心的占用空间并提高能源效率。相比于Lustre在I/O500中的测试结果,DAOS实现了直接写入文件系统性能70倍⑤的提升。

应对HPC的可持续性挑战

我们很荣幸能够与全球志同道合的客户和行业领先的科研机构合作,朝着实现更具可持续性和开放性的高性能计算而努力。我们近期取得了一系列成果——我们与巴塞罗那超算中心合作建立了开创性的RISC-V Z级计算实验室;并与剑桥大学和戴尔继续合作,将当前的E级计算实验室进一步打造成为新的剑桥Z级计算实验室。

独木难支,完整生态的构建需要在制造、芯片、互连、软件和系统等各方面携手共进。通过与整个生态的协作,我们致力于将本世纪最大的HPC挑战转化为前所未有的机遇,创造改变世界的技术,让未来更美好。

注意事项与免责声明:

①《对2020年至2030年期间全球计算机的一次能源使用、电力使用和二氧化碳排放及其所占份额的假设》,作者:Anders S.G. Andrae,《WSEAS电力系统汇刊》,15(2020)

②测量依据如下:

CloverLeaf

由英特尔于2022年4月26日测试。1节点,2个英特尔至强铂金8360Y CPU,72个内核,超线程开启,睿频开启,总内存256GB(16x16GB DDR4 3200MT/s),SE5C6200.86B.0021.D40.2101090208,Ubuntu 20.04,Kernel 5.10,0xd0002a0,ifort 2021.5,Intel MPI 2021.5.1,编译器参数:-xCORE-AVX512-qopt-zmm-usage=high

由英特尔于2022年4月19日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程开启,睿频开启,总内存128GB(HBM2e以3200MHz的频率运行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,ifort 2021.5,Intel MPI 2021.5.1,编译器参数:-xCORE-AVX512–qopt-zmm-usage=high

OpenFOAM

由英特尔于2022年1月26日测试。1节点,2个英特尔至强铂金8380 CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB 3200MT/s,双面),BIOS版本SE5C6200.86B.0020.P23.2103261309,0xd000270,Rocky Linux 8.5 ,Linux版本4.18.,OpenFOAMv1912,Motorbike 28M@250次迭代;编译说明:工具:Intel Parallel Studio 2020u4,编译器参数:-O3-ip-xCORE-AVX512

由英特尔于2022年1月26日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程关闭,睿频关闭,总内存128GB(HBM2e以3200MHz的频率运行),试生产的平台和BIOS,CentOS 8,Linux版本5.12,OpenFOAMv1912,Motorbike 28M@250次迭代;编译说明:工具:Intel Parallel Studio 2020u4,编译器参数:-O3-ip-xCORE-AVX512

WRF

由英特尔于2022年5月3日测试。1节点,2个英特尔至强8380 CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB 3200MT/s,双面),BIOS版本SE5C6200.86B.0020.P23.2103261309,ucode版本=0xd000270,Rocky Linux 8.5,Linux版本4.18,WRF v4.2.2

由英特尔于2022年5月3日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程开启,睿频开启,总内存128GB(HBM2e以3200MHz的频率运行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,WRF v4.2.2

YASK

由英特尔于2022年5月9日测试。1节点,2个英特尔至强铂金8360Y CPU,72个内核,超线程开启,睿频开启,总内存256GB(16x16GB DDR4 3200MT/s),SE5C6200.86B.0021.D40.2101090208,Rocky linux 8.5,Kernel 4.18.0,0xd000270,编译器参数:make-j YK_CXX='mpiicpc-cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,

由英特尔于2022年5月3日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程开启,睿频开启,总内存128GB(HBM2e以3200MHz的频率运行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,编译器参数:make-j YK_CXX='mpiicpc-cxx=icpx'arch=avx2 stencil=iso3dfd radius=8,

③Ansys Fluent

由英特尔于2022年2月测试。1节点,2个英特尔至强铂金8380 CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB 3200MT/s,双面),BIOS版本SE5C6200.86B.0020.P23.2103261309,ucode版本=0xd000270,Rocky Linux 8.5,Linux版本4.18,Ansys Fluent 2021 R2 Aircraft_wing_14m;编译说明:商业版本使用Intel 19.3编译器和Intel MPI 2019u

由英特尔于2022年2月测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程关闭,睿频关闭,总内存128GB(HBM2e以3200MHz的频率运行),预生产的平台和BIOS,CentOS 8,Linux版本5.12,Ansys Fluent 2021 R2 Aircraft_wing_14m;编译说明:商业版本使用Intel 19.3编译器和Intel MPI 2019u8

Ansys ParSeNet

由英特尔于2022年5月24日测试。1节点,2个英特尔至强铂金8380CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB DDR4 3200MT/s [3200 MT/s]),SE5C6200.86B.0021 .D40.2101090208,Ubuntu 20.04.1 LTS,5.10,ParSeNet (SplineNet),PyTorch 1.11.0,Torch-CCL 1.2.0,IPEX 1.10.0,MKL (2021.4-Product Build 20210904),oneDNN (V2.5.0)

由英特尔测试于2022年4月18日。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,112个内核,超线程开启,睿频开启,总内存128GB(HBM2e 3200 MT/s),EGSDCRB1.86B.0077.D11.2203281354,CentOS Stream 8,5.16,ParSeNet (SplineNet),PyTorch 1.11.0,Torch-CCL 1.2.0,IPEX 1.10.0,MKL(2021.4-Product Build 20210904),oneDNN(v2.5.0)

④Falcon Shores的性能目标基于截至2022年2月相对于当前平台的预测。结果可能有所不同。

⑤结果可能有所不同。更多信息请访问io500和YouTube视频《DAOS与Lustre的性能对比测试》

原文标题:加速创新,打造更具可持续性和开放性的HPC

文章出处:【微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10276

    浏览量

    179416
  • HPC
    HPC
    +关注

    关注

    0

    文章

    342

    浏览量

    24841
  • 高性能计算
    +关注

    关注

    0

    文章

    96

    浏览量

    13766

原文标题:加速创新,打造更具可持续性和开放性的HPC

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    锐宝智联入选英特尔首批尊享级合作伙伴

    余年深耕物联网领域的技术沉淀、持续创新能力及广泛市场影响,成功入选首批 “尊享级” 合作伙伴,成为英特尔生态中核心协同力量的重要一员。
    的头像 发表于 12-02 18:16 1034次阅读
    锐宝智联入选<b class='flag-5'>英特尔</b>首批尊享级合作伙伴

    英特尔举办行业解决方案大会,共同打造机器人“芯”动脉

    具身智能和机器人应用提供强大算支持。会上,英特尔携手普联技术、海石商用、海信医疗、阿丘科技等众多的生态伙伴,共同分享了丰富的行业应用成果,携手勾勒出端侧AI领域的未来发展新蓝图。
    的头像 发表于 11-19 21:51 5521次阅读
    <b class='flag-5'>英特尔</b>举办行业解决方案大会,共同打造机器人“芯”动脉

    向新而生,同“芯”向上!2025英特尔技术创新与产业生态大会在重庆举行

    11月19日,2025英特尔技术创新与产业生态大会今天在重庆开幕。英特尔公司首席执行官陈立武在视频致辞中表示:“在AI浪潮中,我们将持续加强与各位伙伴的合作,从客户端、数据中心,到边缘计算
    的头像 发表于 11-19 21:34 4612次阅读
    向新而生,同“芯”向上!2025<b class='flag-5'>英特尔</b>技术创新与产业生态大会在重庆举行

    硬件与应用同频共振,英特尔Day 0适配腾讯开源混元大模型

    于OpenVINO™ 构建的 AI 软件平台的扩展性,英特尔助力ISV生态伙伴率先实现应用端Day 0 模型适配,大幅加速了新模型的落地进程,彰显了 “硬件 + 模型 + 生态” 协同的强大爆发
    的头像 发表于 08-07 14:42 1133次阅读
    硬件与应用同频共振,<b class='flag-5'>英特尔</b>Day 0适配腾讯开源混元大模型

    异构计算解决方案(兼容不同硬件架构)

    异构计算解决方案通过整合不同类型处理器(如CPU、GPU、NPU、FPGA等),实现硬件资源的高效协同与兼容,满足多样化计算需求。其核心技术与实践方案如下: 一、硬件架构设计
    的头像 发表于 06-23 07:40 666次阅读

    英特尔锐炫Pro B系列,边缘AI的“智能引擎”

    2025年6月19日,上海—— 在MWC 25上海期间,英特尔展示了一幅由英特尔锐炫™ Pro B系列GPU所驱动的“实时响应、安全高效、成本可控”的边缘AI图景。 英特尔客户端计算
    的头像 发表于 06-20 17:32 724次阅读
    <b class='flag-5'>英特尔</b>锐炫Pro B系列,边缘AI的“智能引擎”

    能效提升3倍!异构计算架构让AI跑得更快更省电

    电子发烧友网报道(文/李弯弯)异构计算架构通过集成多种不同类型的处理单元(如CPU、GPU、NPU、FPGA、DSP等),针对不同计算任务的特点进行分工协作,从而在性能、能效和灵活性之间实现最优平衡
    的头像 发表于 05-25 01:55 3502次阅读

    英特尔持续推进核心制程和先进封装技术创新,分享最新进展

    近日,在2025英特尔代工大会上,英特尔展示了多代核心制程和先进封装技术的最新进展,这些突破不仅体现了英特尔在技术开发领域的持续创新,也面向客户需求提供了更高效、更灵活的解决方案。 在
    的头像 发表于 05-09 11:42 583次阅读
    <b class='flag-5'>英特尔</b><b class='flag-5'>持续</b>推进核心制程和先进封装技术创新,分享最新进展

    英特尔宣布裁员20% 或2万人失业

    据外媒彭博社的报道,在当地时间4月24日,英特尔宣布裁员计划,比例超20%。按照截至2024年底英特尔在全球拥有108900名员工来计算的话,预计此次裁员将波及大约2.2万名员工。旨在精简管理,并重
    的头像 发表于 04-25 17:34 493次阅读

    RAKsmart智能算架构:异构计算+低时延网络驱动企业AI训练范式升级

    在AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临算效率与成本的双重挑战。RAKsmart推出的智能算架构,以异构计算资源池化与超低时延网络为核心,重构AI训练基础设施,助力企业
    的头像 发表于 04-17 09:29 609次阅读

    盟通科技携手Acontis助力英特尔虚拟化驱动工业负载整合

    近期,盟通科技联合合作伙伴Acontis与英特尔针对虚拟化驱动工业负载的整合这一课题展开了合作。Acontis经过多年技术积累,推出了成熟、可靠且高效的实时虚拟化扩展方案,对于这些方案,盟通科技拥有
    的头像 发表于 04-11 10:50 790次阅读
    盟通科技携手Acontis助力<b class='flag-5'>英特尔</b>虚拟化驱动工业负载<b class='flag-5'>整合</b>

    请问OpenVINO™工具套件英特尔®Distribution是否与Windows® 10物联网企业版兼容?

    无法在基于 Windows® 10 物联网企业版的目标系统上使用 英特尔® Distribution OpenVINO™ 2021* 版本推断模型。
    发表于 03-05 08:32

    英特尔®独立显卡与OpenVINO™工具套件结合使用时,无法运行推理怎么解决?

    使用英特尔®独立显卡与OpenVINO™工具套件时无法运行推理
    发表于 03-05 06:56

    异构计算的概念、核心、优势、挑战及考虑因素

    异构计算就像是一支由“多才多艺”处理器组成的团队,每个成员都有自己的强项和责任。   什么是异构计算‍‍‍‍‍ “异构计算”指的是在同一个计算平台中,部署多种不同类型的处理单元(比如
    的头像 发表于 01-13 11:43 1715次阅读

    英特尔带您解锁云上智算新引擎

    在近日举办的2024火山引擎FORCE原动力大会上,英特尔与火山引擎联合发布基于英特尔 至强 6 性能核处理器的第四代服务器实例,以打造弹性算底座的产品化实践。同时,英特尔也携手扣子
    的头像 发表于 12-23 14:05 1245次阅读