0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔聚力整合实现可持续的异构计算

英特尔中国 来源:英特尔中国 作者:Jeff McVeigh 2022-06-12 17:30 次阅读

接下来的超算普及化时代,英特尔将满足永无止境的计算需求,并将可持续发展作为重中之重。

本文作者:Jeff McVeigh

英特尔副总裁兼超级计算事业部总经理

随着我们进入E级(Exascale)计算时代并迈向Z级(Zettascale)计算时代,科技行业也越来越影响着全球的碳排放。据估计,到2030年数据中心的能耗估计将达到全球能源产量的3%-7%①,而计算基础设施将成为新增用电量的主要驱动因素。

今年,英特尔承诺到2040年实现全球业务的温室气体净零排放,并开发更加可持续的技术解决方案。在创造可持续未来的同时满足对计算永无止境的需求,这是高性能计算(HPC)面临的最大挑战之一。这个任务虽然艰巨,但如果我们能够把芯片、软件和系统这些HPC计算堆栈的每个部分都做好,它就是可以实现的。

我在德国汉堡举行的2022国际超算大会(ISC2022)上发表了主题演讲,上述内容就是我在演讲中传达的核心信息

从芯片和异构计算架构开始

英特尔公布了直到2024年的高性能计算产品路线图,期间我们将致力于提供多样化的异构架构。这些架构不仅将使我们能够实现几个数量级的性能提升,同时亦可降低通用工作负载及诸如人工智能、加密、分析等新兴工作负载的能耗。

以内置高带宽内存(HBM),代号为Sapphire Rapids的英特尔至强处理器为例,该款处理器能够很好地展示我们如何利用先进的封装技术和芯片创新,为高性能计算带来性能、带宽和节能方面的显著提升。通过封装高达64GB的高带宽内存HBM2e并把加速器集成到CPU中,我们能够释放内存敏感型工作负载的潜力,为这些关键的高性能计算应用场景大幅提升性能。在对比第三代英特尔 至强 可扩展处理器和即将推出的内置高带宽内存(HBM)的Sapphire Rapids处理器时,我们发现,后者把气候研究、能源、制造和物理学工作负载的性能提升了2-3倍②。在主题演讲中,Ansys首席技术官Prith Banerjee还展示了内置高带宽内存的Sapphire Rapids为Ansys Fluent和ParSeNet的实际工作负载带来了高达2倍的性能提升③。

为实现跨HPC和AI超算工作负载的几个数量级的性能提升,计算密度是另一必不可少的要素。代号为Ponte Vecchio的英特尔首个旗舰级数据中心图形处理器(GPU),已经在复杂的金融服务应用以及AI推理和训练工作负载方面展现出了卓越的优势。

创新不止于此。今天,我们还宣布这款出色数据中心GPU的下一代产品代号为Rialto Bridge。通过升级Ponte Vecchio架构,并结合使用下一代制程节点技术制造的增强型芯片子模块,Rialto Bridge将大幅提高计算密度、性能和效率,同时提供软件一致性。

展望未来,Falcon Shores是我们路线图中下一个重要的架构创新,即把x86 CPU和Xe GPU集成在同一插槽中。这一架构计划将在2024年推出,它将在每瓦性能、计算密度、内存容量与带宽方面均实现超过5倍的性能提升④。

成功的软件战略遵循三个原则:

开放、选择、信任

如果没有软件为芯片注入活力,它将仅仅只是砂砾。英特尔的软件策略是促进整个堆栈的开放式发展,并提供工具、平台和软件IP,以帮助开发者提升工作效率,产出可扩展、更高性能、更高效的代码,这些代码能充分利用最新的芯片创新,没有重构代码的负担。oneAPI行业计划为HPC开发者提供了跨架构编程,使代码能透明、可迁移地适用于CPU、GPU和其他专用加速器。

目前,在世界各地领先的科研和学术机构中已有20多个oneAPI卓越中心(CoE),它们正取得重要的进展。例如,布里斯托大学科学系的Simon McIntosh-Smith和他的团队,正在使用oneAPI和Khronos Group的SYCL抽象层进行跨架构编程,为在E级计算规模上实现性能可移植性开发最佳实践。他们的工作将确保科学代码能在大规模异构超算系统上实现高性能。

聚力整合:实现可持续的异构计算

随着数据中心和HPC工作负载越来越多采用分布式架构和异构计算,我们需要借助工具来帮助有效管理和应对复杂多样的计算环境。

今天,我们将推出一款开源解决方案Intel XPU Manager,它可以在本地或远程监测和管理英特尔数据中心GPU。该解决方案旨在简化管理,并通过综合诊断更好地实现可靠性和延长设备运行时间,以及提升利用率并支持固件更新。

针对能耗很高的数据传输和存储任务,分布式异步对象存储(DAOS)文件系统提供了系统级的优化。DAOS可以显著地改善文件系统的性能,它不仅可以缩短整体访问时间,而且能够降低存储所需的容量,从而减少数据中心的占用空间并提高能源效率。相比于Lustre在I/O500中的测试结果,DAOS实现了直接写入文件系统性能70倍⑤的提升。

应对HPC的可持续性挑战

我们很荣幸能够与全球志同道合的客户和行业领先的科研机构合作,朝着实现更具可持续性和开放性的高性能计算而努力。我们近期取得了一系列成果——我们与巴塞罗那超算中心合作建立了开创性的RISC-V Z级计算实验室;并与剑桥大学和戴尔继续合作,将当前的E级计算实验室进一步打造成为新的剑桥Z级计算实验室。

独木难支,完整生态的构建需要在制造、芯片、互连、软件和系统等各方面携手共进。通过与整个生态的协作,我们致力于将本世纪最大的HPC挑战转化为前所未有的机遇,创造改变世界的技术,让未来更美好。

注意事项与免责声明:

①《对2020年至2030年期间全球计算机的一次能源使用、电力使用和二氧化碳排放及其所占份额的假设》,作者:Anders S.G. Andrae,《WSEAS电力系统汇刊》,15(2020)

②测量依据如下:

CloverLeaf

由英特尔于2022年4月26日测试。1节点,2个英特尔至强铂金8360Y CPU,72个内核,超线程开启,睿频开启,总内存256GB(16x16GB DDR4 3200MT/s),SE5C6200.86B.0021.D40.2101090208,Ubuntu 20.04,Kernel 5.10,0xd0002a0,ifort 2021.5,Intel MPI 2021.5.1,编译器参数:-xCORE-AVX512-qopt-zmm-usage=high

由英特尔于2022年4月19日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程开启,睿频开启,总内存128GB(HBM2e以3200MHz的频率运行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,ifort 2021.5,Intel MPI 2021.5.1,编译器参数:-xCORE-AVX512–qopt-zmm-usage=high

OpenFOAM

由英特尔于2022年1月26日测试。1节点,2个英特尔至强铂金8380 CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB 3200MT/s,双面),BIOS版本SE5C6200.86B.0020.P23.2103261309,0xd000270,Rocky Linux 8.5 ,Linux版本4.18.,OpenFOAMv1912,Motorbike 28M@250次迭代;编译说明:工具:Intel Parallel Studio 2020u4,编译器参数:-O3-ip-xCORE-AVX512

由英特尔于2022年1月26日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程关闭,睿频关闭,总内存128GB(HBM2e以3200MHz的频率运行),试生产的平台和BIOS,CentOS 8,Linux版本5.12,OpenFOAMv1912,Motorbike 28M@250次迭代;编译说明:工具:Intel Parallel Studio 2020u4,编译器参数:-O3-ip-xCORE-AVX512

WRF

由英特尔于2022年5月3日测试。1节点,2个英特尔至强8380 CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB 3200MT/s,双面),BIOS版本SE5C6200.86B.0020.P23.2103261309,ucode版本=0xd000270,Rocky Linux 8.5,Linux版本4.18,WRF v4.2.2

由英特尔于2022年5月3日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程开启,睿频开启,总内存128GB(HBM2e以3200MHz的频率运行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,WRF v4.2.2

YASK

由英特尔于2022年5月9日测试。1节点,2个英特尔至强铂金8360Y CPU,72个内核,超线程开启,睿频开启,总内存256GB(16x16GB DDR4 3200MT/s),SE5C6200.86B.0021.D40.2101090208,Rocky linux 8.5,Kernel 4.18.0,0xd000270,编译器参数:make-j YK_CXX='mpiicpc-cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,

由英特尔于2022年5月3日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程开启,睿频开启,总内存128GB(HBM2e以3200MHz的频率运行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,编译器参数:make-j YK_CXX='mpiicpc-cxx=icpx'arch=avx2 stencil=iso3dfd radius=8,

③Ansys Fluent

由英特尔于2022年2月测试。1节点,2个英特尔至强铂金8380 CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB 3200MT/s,双面),BIOS版本SE5C6200.86B.0020.P23.2103261309,ucode版本=0xd000270,Rocky Linux 8.5,Linux版本4.18,Ansys Fluent 2021 R2 Aircraft_wing_14m;编译说明:商业版本使用Intel 19.3编译器和Intel MPI 2019u

由英特尔于2022年2月测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程关闭,睿频关闭,总内存128GB(HBM2e以3200MHz的频率运行),预生产的平台和BIOS,CentOS 8,Linux版本5.12,Ansys Fluent 2021 R2 Aircraft_wing_14m;编译说明:商业版本使用Intel 19.3编译器和Intel MPI 2019u8

Ansys ParSeNet

由英特尔于2022年5月24日测试。1节点,2个英特尔至强铂金8380CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB DDR4 3200MT/s [3200 MT/s]),SE5C6200.86B.0021 .D40.2101090208,Ubuntu 20.04.1 LTS,5.10,ParSeNet (SplineNet),PyTorch 1.11.0,Torch-CCL 1.2.0,IPEX 1.10.0,MKL (2021.4-Product Build 20210904),oneDNN (V2.5.0)

由英特尔测试于2022年4月18日。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,112个内核,超线程开启,睿频开启,总内存128GB(HBM2e 3200 MT/s),EGSDCRB1.86B.0077.D11.2203281354,CentOS Stream 8,5.16,ParSeNet (SplineNet),PyTorch 1.11.0,Torch-CCL 1.2.0,IPEX 1.10.0,MKL(2021.4-Product Build 20210904),oneDNN(v2.5.0)

④Falcon Shores的性能目标基于截至2022年2月相对于当前平台的预测。结果可能有所不同。

⑤结果可能有所不同。更多信息请访问io500和YouTube视频《DAOS与Lustre的性能对比测试》

原文标题:加速创新,打造更具可持续性和开放性的HPC

文章出处:【微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9421

    浏览量

    168825
  • HPC
    HPC
    +关注

    关注

    0

    文章

    279

    浏览量

    23418
  • 高性能计算
    +关注

    关注

    0

    文章

    67

    浏览量

    13296

原文标题:加速创新,打造更具可持续性和开放性的HPC

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    高通NPU和异构计算提升生成式AI性能 

    异构计算的重要性不可忽视。根据生成式AI的独特需求和计算负担,需要配备不同的处理器,如专注于AI工作负载的定制设计的NPU、CPU和GPU。
    的头像 发表于 03-06 14:15 216次阅读

    英特尔:2025年全球AIPC将超1亿台占比20%

    英特尔行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年02月29日 09:15:26

    英特尔1nm投产时间曝光!领先于台积电

    英特尔行业芯事
    深圳市浮思特科技有限公司
    发布于 :2024年02月28日 16:28:32

    英特尔再创辉煌!1.4nm芯片工艺领航微电子时代,工业界的新里程碑?

    英特尔行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年02月26日 08:58:21

    英特尔登顶2023年全球半导体榜单之首

    英特尔行业芯事
    深圳市浮思特科技有限公司
    发布于 :2024年02月01日 11:55:16

    英特尔酷睿14代处理器系列发布,Arrowlake/LunarLake24年问世

    处理器英特尔
    looger123
    发布于 :2024年01月10日 17:44:38

    英特尔专家为您揭秘第五代英特尔® 至强® 可扩展处理器如何为AI加速

    % 1 ,AI 推理性能提升42% 2 。 这一系列性能提升的背后,存在着怎样的创新与突破?第五代英特尔 至强 可扩展处理器为什么要强调为AI加速?它又是如何做到为AI加速的呢? 从异构计算到AIGC、从AI算力到通用算力,从内置加速器到性能、能效的不同需求
    的头像 发表于 12-23 12:20 448次阅读

    #高通 #英特尔 #Elite 高通X Elite芯片或终结苹果、英特尔的芯片王朝

    高通英特尔苹果
    深圳市浮思特科技有限公司
    发布于 :2023年10月27日 16:46:07

    请问模型推理只用到了kpu吗?可以cpu,kpu,fft异构计算吗?

    请问模型推理只用到了kpu吗?可以cpu,kpu,fft异构计算吗?
    发表于 09-14 08:13

    新一代计算架构超异构计算技术是什么 异构走向超异构案例分析

    异构计算架构是一种将不同类型和规模的硬件资源,包括CPU、GPU、FPGA等,进行异构集成的方法。它通过独特的软件和硬件协同设计,实现计算资源的灵活调度和优化利用,从而大大提高了
    发表于 08-23 09:57 453次阅读
    新一代<b class='flag-5'>计算</b>架构超<b class='flag-5'>异构计算</b>技术是什么 <b class='flag-5'>异构</b>走向超<b class='flag-5'>异构</b>案例分析

    异构计算场景下构建可信执行环境

    令集、不同功能的算单元,组合起来形成一个混合的计算系统,使其具有更强大、更高效的功能。如何在异构计算场景下构建可信执行环境呢?华为可信计算首席科学家、IEEE硬件安全与可信专委会联席
    发表于 08-15 17:35

    安装OpenVINO工具套件英特尔Distribution时出现错误的原因?

    安装OpenVINO™工具套件英特尔 Distribution时,出现错误: Python 3.10.0.ECHO is off. Unsupported Python version.
    发表于 08-15 08:14

    英特尔媒体加速器参考软件Linux版用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放器应用软件,它利用固定功能硬件加速来提高媒体流速、改进工作量平衡和资源利用,以及定制的图形处理股(GPU)管道解决方案。该用户指南将介绍和解释如何为Linux* 使用英特尔媒体加速器
    发表于 08-04 06:34

    异构计算的初步创新

    更 高,x16带宽(双向)从64 GB/s提 升到了128 GB/s;目前规范制定已迭 代至6.0版本,带宽再翻倍。 异构计算的初步创新:在
    的头像 发表于 06-19 11:26 459次阅读
    <b class='flag-5'>异构计算</b>的初步创新

    PrimeSimSPICE:异构计算模型实现数量级性能突破

    随着对更高计算性能的需求不断增加,HPC 行业正朝着异构计算模型发展,其中 GPU 和 CPU 协同工作以执行通用计算任务。在这种异构计算模型中,GPU 充当 CPU 的加速器,以减轻
    的头像 发表于 05-24 16:53 589次阅读
    PrimeSimSPICE:<b class='flag-5'>异构计算</b>模型<b class='flag-5'>实现</b>数量级性能突破