0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

美光 DDR5 内存配合第四代 AMD EPYC 处理器,提升高性能计算工作负载

半导体芯科技SiSC 来源:半导体芯科技SiSC 作者:半导体芯科技SiS 2022-12-19 17:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:美光科技

作者:Krishna Yalamanchi、Sudharshan Vazhkudai

美光与AMD联手为客户及数据中心平台提供一流的用户体验。双方在奥斯汀建立联合服务器实验室,以减少服务器内存验证时间,在产品验证和发布期间共同进行工作负载测试。目前美光适用于数据中心的 DDR5 内存和第四代 AMD EPYCTMTM (霄龙)处理器均已出货,我们对其进行了一些常见的高性能计算(HPC)工作负载基准测试。


长期以来,超级计算机承担着高性能计算工作负载。此类大规模的数据密集型工作负载需要运行TB 级的数据量以进行数百万个并行操作,以解决人类世界的难题,如天气和气候预测;地震建模;化学、物理和生物分析等。
随着计算机架构的进步,此类工作负载往往托管在超大型“可横向扩展”的高性能服务器集群中。这些服务器集群需要集合最强大的算力、架构、内存和存储基础设施,以满足关键工作负载对可扩展性、低延迟和高性能的需求。然而随着服务器 CPU 的性能和吞吐量不断增长,DDR4 无法提供足够的内存带宽,来满足不断增长的高性能内核。

bea6d3e8455343ab99038b7f20105fb5~noop.image?_iz=58558&from=article.pc_detail&x-expires=1672047937&x-signature=2aDHL2bJwIrS6%2BKieAPskgWYV3Q%3D

为缓解这一瓶颈,美光 DDR5 内存与采用了Zen 4 服务器架构的第四代AMD EPYC 处理器强强联合,使服务器 CPU 能够更好地匹配内存产品,满足数据密集型工作负载对性能和效率的需求。美光DDR5 内存可帮助企业从本地和云端数据中更快获取洞察。我们对最新的 AMD Zen 4 96 核CPU和美光DDR5进行了行业内高性能计算工作负载基准测试,所有结果均显示性能提升了两倍。


美光 DDR5 搭配第四代 AMD EPYC 处理器,在STREAM 测试中实现内存带宽翻倍

STREAM1 是常见的基准测试工具,用于测量高性能计算机的内存带宽,可捕获高性能计算系统的峰值内存带宽。
该工作负载使用的软件堆栈

· Alma 9 Linux kernel 5.14

· STREAM.f,2021 年 11 月 29 日发布版本

a43ad7485ed4470695b0f03577c95702~noop.image?_iz=58558&from=article.pc_detail&x-expires=1672047937&x-signature=QAtrZyDQkeRuFBGrE3l9Z3Rb12U%3D

测试设置

· DDR4 系统搭配第三代 64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GB

· DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GB

测试结果

· DDR5 系统每插槽内存带宽翻倍,达到 378 GB/s

· 该结果意味着客户能运行更大规模的人工智能/机器学习AI/ML)项目,或利用 DDR5 增加的内存带宽进行更多高性能计算。

c3e1c9c00c7a437886bffa141678e0a6~noop.image?_iz=58558&from=article.pc_detail&x-expires=1672047937&x-signature=1O9SvWwkIs4Q4tFHtURmyyoc05A%3D

美光 DDR5, 助力天气研究和预报 (WRF)4 速度提升2倍

此次测试使用的高性能计算工作负载代码针对天气和气候。WRF模型在一些支持高性能浮点处理、高内存带宽、低延迟网络等传统高性能计算架构中表现良好,测试对象为横向分辨率为 2.5 公里的美国大陆地区 (CONUS)。
该工作负载使用的软件堆栈

· Alma 9 Linux kernel 5.14

· WRF 2.3.5 & 4.3.3

· Open MPI v4.1.1

测试设置

· DDR4 系统搭配第三代64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GB

· DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GB

测试结果

· 美光 DDR5 搭配第四代 AMD EPYC 处理器,可实现 1.3567 时间步/秒 VS DDR4 系统的2.8533 时间步/秒

· 速度更快意味着可使用更大的数据库或运行更多模型以进行天气预测,进而改善预测的准确度。

美光 DDR5,助力OpenFOAM5 速度提升2倍
OpenFOAM 是一种计算流体动力学(CFD)的开源高性能计算工作负载,广泛应用于多个行业,有助于缩短开发时间并降低成本。从消费类产品设计到航空航天设计,OpenFOAM能够模拟不同应用中的物理互动,包括摩托车风挡湍流。在该模拟中,OpenFOAM 能够计算摩托车和骑手周围的稳定气流。OpenFOAM 能够根据用户指定的进程数进行负载均衡计算,以此将网格分解成多个部分并分配给不同的进程求解。求解完成后,再将网格和解重新组合为单个域。


该工作负载使用的软件堆栈

· OpenFOAM CFD 软件(版本8),其中摩托车网格尺寸为:600 x 240 x 240

· Alma 9 Linux kernel 5.14

· Open MPI v4.1.1

测试设置

· DDR4 系统搭配第三代64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GB

· DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GB

测试结果
测试结果表明美光DDR5 产品组合将OpenFOAM 性能提高了 2.4 倍。OpenFOAM 为五大高性能计算软件平台之一,拥有大型开源社区。该软件广泛应用于大学和研发中心,可利用高带宽内存和拥有密集内核的高性能CPU,实现高度的并行操作。
美光 DDR5 ,助力分子动力学6 速度提升2倍
CP2K 是一款开源量子化学工具,适用于许多应用,包括固态生物系统模拟。CP2K 能够为不同的建模方法提供通用的框架。此次测试对象为水(H2O)的密度泛函理论(DFT),模拟盒子中共包含 6,144 个原子(2,048 个水分子)。
该工作负载使用的软件堆栈

· H2O-DFT-LS.NREP4 及 H2O-DFT-LS

· Alma 9 Linux kernel 5.14

测试设置

· DDR4 系统搭配第三代64 核3.7 GHz AMD EPYC 处理器;DDR4 3200 MHz 系统2的 RDIMM 内存槽插满,共 64GB

· DDR5 系统搭配第四代 96 核3.7 GHz AMD EPYC 处理器;DDR5 4800 MHz 系统3的 RDIMM 内存槽插满,共 64GB

测试结果
测试结果表明美光DDR5 产品组合将分子动力学性能提高了2.1 倍。随着内核数和内存带宽增加,此类工作负载的性能也显著提升。
总结
目前我们只针对少量高性能计算工作负载进行了测试,因此以上只是我们的初步成果。将高性能高带宽内存与最新的服务器处理器(如第四代 AMD EPYC 处理器)相结合,可为高性能计算客户创造新的可能。我们期待更多企业数据中心和云服务商,能够在新平台上应用美光 DDR5 产品,解锁更高的性能与能效。

________________________

1 我们在 STREAM 基准测试中配置了 25 亿个向量的STREAM Benchmark——运行在一台单 AMD CPU 系统上
2 AMD DDR4 系统为一台 64 核 AMD EPYC 7763 处理器, DDR4-3200 MHz 的RDIMM 内存槽插满,共 64GB
3 AMD DDR5 系统为一台 96 核 AMD EPYC 9654 处理器, DDR5-4800 MHz 的RDIMM 内存槽插满,共 64GB
4 横向分辨率为 12.5 公里CONUS 的 WRF 在 DDR4 系统上的运行时间为 929 秒,在 DDR5 系统上的运行时间为 287 秒(均包括存储器的输入/输出时间)。该测试中 WRF 配置为 2.5 公里 CONUS,测试结果为 1.3567 时间步/ 秒, 相比之下DDR4 的运行时间为2.8533时间步/秒。
5 针对 OpenFOAM,我们运行了三种变体:
5a:1004040 runtimes,DDR4 系统运行时间为 1,144 秒,DDR5 系统运行时间为 478 秒
5b:1084646 runtimes,DDR4 系统运行时间为 1,633 秒,DDR5 系统运行时间为 698 秒
5c:1305252 runtimes,DDR4 系统运行时间为 2,522秒,DDR5 系统运行时间为 1,091 秒
6 分子动力学工作负载在 DDR4 系统上的运行时间为 2,519 秒,在 DDR5 系统上的运行时间为 1,242 秒

作者:

7a3997fc8af8458792653b846b047361~noop.image?_iz=58558&from=article.pc_detail&x-expires=1672047937&x-signature=z00jZ8Nd84Rkxh4762vC2JJRBUw%3D

Krishna Yalamanchi

Krishna 担任美光生态系统高级开发经理,专注于研发 DDR5 和 CXL 解决方案。他曾在英特尔 IT 部门任职,领导 SAP HANA 的迁移工作,通过与SI、OEM和云服务提供商共同搭建的合作伙伴生态系统,推出了用于SAP工作负载的第三代与第四代 Intel Xeon 处理器。

011102cd1832464d9123be48756633d6~noop.image?_iz=58558&from=article.pc_detail&x-expires=1672047937&x-signature=Y4jjbrKUGC4R6BMb2CO%2BWX7z0Dg%3D

Sudharshan Vazhkudai

Sudharshan S. Vazhkudai 博士担任美光系统架构和工作负载分析总监。他领导一支位于奥斯汀和印度海得拉巴的团队,致力于研究内存和存储(DDR、CXL、HBM 和 NVME)产品中层次结构的可组合性,并优化与数据中心工作负载相关的系统架构。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20158

    浏览量

    247647
  • 内存
    +关注

    关注

    9

    文章

    3174

    浏览量

    76146
  • DDR5
    +关注

    关注

    1

    文章

    467

    浏览量

    25621
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小马智行与三一重卡及东风柳汽联合打造第四代自动驾驶卡车

    11月19日,小马智行宣布与三一重卡、东风柳汽达成合作,将联合打造第四代自动驾驶卡车家族。第四代自动驾驶卡车系统采用平台化设计,具有极强的车型适配能力。
    的头像 发表于 11-21 15:51 308次阅读

    Melexis推出第四代汽车LIN电机驱动MLX81350

    Melexis推出第四代汽车LIN电机驱动MLX81350,可为电机提供高达5W(0.5A)的功率。该驱动专为电动汽车(EV)的空调风门与自动通风系统设计,具备高性价比,不仅能实现
    的头像 发表于 11-08 17:04 2729次阅读

    澜起科技成功量产DDR5第四子代寄存时钟驱动芯片

    澜起科技今日正式宣布,已完成DDR5第四子代寄存时钟驱动芯片(RCD04)的量产。该芯片是高性能服务及数据中心
    的头像 发表于 10-30 11:37 382次阅读

    Wolfspeed推出第四代高性能碳化硅MOSFET

    Wolfspeed 推出第四代 (Gen 4) 1200 V 车规级碳化硅 (SiC) 裸芯片 MOSFET 系列,专为严苛的汽车环境设计。Wolfspeed 第四代高性能碳化硅 MOSFET,可在 185°C 下持续
    的头像 发表于 08-11 16:54 2241次阅读

    派恩杰发布第四代SiC MOSFET系列产品

    近日,派恩杰半导体正式发布基于第四代平面栅工艺的SiC MOSFET系列产品。该系列在750V电压平台下,5mm × 5mm芯片尺寸产品的导通电阻RDS(on)最低可达7mΩ,达到国际领先水平。相比上一
    的头像 发表于 08-05 15:19 1145次阅读
    派恩杰发布<b class='flag-5'>第四代</b>SiC MOSFET系列产品

    高通推出第四代骁龙7移动平台

    高通技术公司今日推出最新骁龙7系产品——第四代骁龙7移动平台。这一全新平台旨在增强用户喜爱的多媒体体验并提供全面的稳健性能。无论是利用先进图像处理功能拍摄珍贵瞬间,还是借助精选的Snapdragon
    的头像 发表于 05-19 15:02 1665次阅读

    ADSP-21467/ADSP-21469第四代高性能DSP技术手册

    包括ADSP-21469在内的第四代SHARC®处理器可提供改进的性能、基于硬件的滤波加速、面向音频与应用的外设,以及能够支持最新环绕声
    的头像 发表于 05-12 15:49 792次阅读
    ADSP-21467/ADSP-21469<b class='flag-5'>第四代</b><b class='flag-5'>高性能</b>DSP技术手册

    高通推出第四代骁龙8s移动平台

    今日,高通技术公司宣布推出第四代骁龙8s移动平台,该平台专为追求出色娱乐体验和创作体验的用户打造,旨在将旗舰性能和先进特性带给更多消费者,并为手游玩家和创作者提供强劲支持。第四代骁龙8s能够确保终端持久运行,满足用户全天候的多样
    的头像 发表于 04-03 17:44 1673次阅读

    曝三星已量产第四代4nm芯片

    据外媒曝料称三星已量产第四代4nm芯片。报道中称三星自从2021年首次量产4nm芯片以来,每年都在改进技术。三星现在使用的是其最新的第四代4nm工艺节点(SF4X)进行大规模生产。第四代4nm工艺
    的头像 发表于 03-12 16:07 1.3w次阅读

    高通跃龙第四代固定无线接入平台至尊版发布

    高通技术公司今日宣布推出高通跃龙第四代固定无线接入平台至尊版,这是全球首款5G Advanced FWA平台。
    的头像 发表于 03-04 16:27 1098次阅读

    高通发布第四代骁龙6移动平台

    近日,高通技术公司在圣迭戈宣布,其最新的第四代骁龙®6移动平台已正式面世。该平台旨在为全球广大用户带来前所未有的性能提升与更持久的电池续航能力,并开创性地首次将生成式AI技术融入骁龙6系。
    的头像 发表于 02-17 10:38 3179次阅读

    威刚工控发布DDR5 6400高性能内存

    兼容性方面,威刚DDR5 6400 CU-DIMM与CSO-DIMM内存全面兼容Intel Arrow Lake系列处理器,以及其他主
    的头像 发表于 02-08 10:20 973次阅读

    AN65-第四代LCD背光技术

    电子发烧友网站提供《AN65-第四代LCD背光技术.pdf》资料免费下载
    发表于 01-09 14:12 0次下载
    AN65-<b class='flag-5'>第四代</b>LCD背光技术

    安勤科技发布HPM-SIEUA服务主板,搭载AMD第四代Siena处理器

    。 HPM-SIEUA主板的核心亮点在于其支持的AMD第四代EPYC 8004系列处理器,该系列处理器被命名为“Siena”,并基于先进的
    的头像 发表于 12-27 15:04 1217次阅读

    AMD EPYC嵌入式9004和8004系列处理器介绍

    可扩展至 96 核( 9004 系列),热设计功率( TDP )自 70W 起( 8004 系列),第四代 AMD EPYC 嵌入式处理器旨在满足下一
    的头像 发表于 12-18 15:57 2625次阅读
    <b class='flag-5'>AMD</b> <b class='flag-5'>EPYC</b>嵌入式9004和8004系列<b class='flag-5'>处理器</b>介绍