0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CXL内存延迟到底有多糟糕?

芯长征科技 来源:半导体行业观察 作者:半导体行业观察 2022-12-07 15:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

传统观点认为,如果您非常关心延迟,那么尝试将系统内存连接到 PCI-Express 总线并不是一个好主意。因为内存离 CPU 越远,延迟就越高,这就是内存 DIMM 通常尽可能靠近插槽的原因。

从逻辑上讲,PCI-Express 是千里之外的。随着每一代 PCI-Express 带宽翻倍,如果没有重定时器的帮助也会增加延迟,它可以传输的距离也会缩短。对于我们习惯于连接到 PCI-Express 的大多数类型的内存来说,这不是什么大问题。闪存存储的延迟以几十微秒为单位的情况并不少见,这使得互连产生的额外几百纳秒成为一个有争议的问题。然而,我们对DDR 和其他形式的易失性存储器就没有那么宽容了。

以前的内存扩展尝试都陷入了妥协,特别是在延迟方面。例如,GigaIO 表示其FabreX 架构已经可以使用 DMA 在 PCI-Express 上进行内存池化,但这样做需要应用程序能够容忍 500 纳秒到 1.5 微秒的延迟。

同样,根据 Blocks and Files 的说法,在英特尔今年夏天毫不客气地削减其 Optane 持久内存业务之前,部署该技术意味着会产生大约350 纳秒的延迟。虽然可用,尤其是在分层内存配置中,但它比直接连接 CPU 的 DDR 内存预期的低于 100 纳秒的往返延迟要长得多。

进入 CXL 内存生态系统

这为我们带来了使用 Compute Express Link 协议或 CXL 的第一代内存扩展模块。基于 AMD 的Epyc 9004“Genoa”处理器的系统是首批系统之一,拥有 64 条 CXL 连接通道——不同于其 128 至 160 条整体 PCI-Express 通道——最多可分为四到十六个设备。至于英特尔将如何在其“Sapphire Rapids”Xeon SP 处理器上实施 CXL,我们将不得不等到它们明年初问世。

与这些服务器相得益彰的是我们确信的第一个是许多 CXL 内存扩展模块。虽然 CXL 最终将允许完全分解的系统,在这些系统中,资源可以通过高速结构在整个机架上共享,但距离那一天还有几年的时间。

对于首次涉足数据中心,CXL 直接专注于内存扩展、分层内存和一些早期的内存池应用程序。目前,我们只关注内存扩展,因为在这个早期阶段,它可以说是最简单和最实用的,尤其是在以可用延迟附加内存时。

三星和Astera Labs已经展示了 CXL 内存模块,他们说只需将它们插入兼容的 PCI-Express 5.0 插槽,即可为系统添加数 TB 的内存。从系统的角度来看,它们的外观和行为就像通过内存总线连接到相邻插槽的常规 DDR DRAM 内存。

在最长的时间里,一旦达到 CPU 内存控制器的限制,添加更多内存的唯一方法就是添加更多插槽。如果工作负载可以利用额外的线程,那就更好了,但如果不能,这将成为一种非常昂贵的添加内存的方式。实际上,额外的插槽只是一个内存控制器,上面附有一堆昂贵的、不需要的内核。

内存扩展模块的行为方式大致相同,但它不是使用专有的插槽到插槽互连,如英特尔的 UPI 或 AMD 的 xGMI 链接,而是 CXL。这意味着您可以拥有这些设备的整个生态系统,事实上,我们已经看到一个相当充满活力,有时甚至是令人向往的设备围绕 CXL 展开。

CXL 总裁 Siamak Tavallaei在 SC22上告诉 The Next Platform ,CXL 实际上包含三种协议,但并非所有协议都是延迟的灵丹妙药。“CXL.io 仍然具有您预期的相同类型的延迟(来自 PCI-Express),但其他两个协议——CXL.cache 和 CXL.mem——通过协议采用更快的路径,并且它们减少了延迟。”

CXL 内存延迟到底有多糟糕?

如果 Astera 值得信任,延迟并不像您想象的那么糟糕。该公司的Leo CXL 内存控制器旨在接受高达 5600 MT/秒的标准 DDR5 内存 DIMM。他们声称客户可以预期延迟与访问第二个 CPU 上的内存大致相当,一个 NUMA 跃点。这使得它在 170 纳秒到 250 纳秒附近。事实上,就系统而言,这正是这些内存模块向操作系统显示的方式。

Tavallaei 解释说,大多数 CXL 内存控制器会增加大约 200 纳秒的延迟,额外的重定时器会增加或花费几十纳秒,具体取决于设备与 CPU 的距离。这与其他 CXL 早期采用者所看到的一致。GigaIO 首席执行官 Alan Benjamin 告诉The Next Platform,它所见过的大多数 CXL 内存扩展模块的延迟都接近 250 纳秒,而不是 170 纳秒。

然而,正如 Tavallaei 指出的那样,这仍然是对四插槽或八插槽系统的改进,在这些系统中,应用程序可能仅仅因为需要内存而不得不应对多个 NUMA 跃点。(不过,公平地说,IBM 和英特尔在 CPU 之间添加了更多更快的链接,以减少跳数和每跳延迟。)

话虽如此,许多芯片制造商很快指出,CXL 生态系统现在才刚刚起步。在 CXL 董事会任职的 AMD 的 Kurtis Bowman 告诉The Next Platform,许多早期的 CXL 概念验证和产品都使用尚未针对延迟进行优化的 FPGA 或第一代 ASIC。随着时间的推移,他预计延迟会大大改善。

如果 CXL 供应商能够像他们声称的那样,在展厅演示之外实现与多插槽系统同等的延迟,那么它应该在很大程度上消除利用它们所需的应用程序或操作系统特定定制的需要。好吧,至少就内存扩展而言。正如我们在 Optane 中看到的那样,CXL 内存分层几乎肯定需要某种操作系统或应用程序支持。

随着插槽变得越来越大并且在板上安装更多 DIMM 变得越来越难,这再合适不过了。放置它们的地方更少了。有可容纳 32 个 DIMM 的双插槽系统,但随着芯片制造商增加更多通道以满足更高核心数的带宽需求,这是不可扩展的。

我们已经在某种程度上在 AMD 的 Genoa 芯片上看到了这一点,尽管该芯片将内存通道数量增加到 12 个,但在发布时每个通道仅支持一个 DIMM,将双插槽配置中的 DIMM 数量限制为 24 个。即使您可以为每个通道连接两个 DIMM,我们被告知将 48 个 DIMM 安装到标准机箱中是不切实际的。

当我们希望在更远的距离(例如跨机架)连接内存时,事情会变得更加复杂,因为电或光互连产生的延迟必须计入方程式。但对于机箱内 CXL 内存扩展,延迟似乎并不像许多人担心的那么令人头疼。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5652

    浏览量

    139080
  • 内存
    +关注

    关注

    9

    文章

    3174

    浏览量

    76146
  • 生态系统
    +关注

    关注

    0

    文章

    710

    浏览量

    21513

原文标题:CXL,面临严峻的延迟问题

文章出处:【微信号:芯长征科技,微信公众号:芯长征科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    64GT/s+8000MT/s:澜起CXL 3.1芯片破解数据中心内存瓶颈

    。     M88MX6852:性能卓越,满足多元需求   M88MX6852芯片全面支持CXL.mem和CXL.io协议,其核心使命是为下一代数据中心服务器打造更高带宽、更低延迟内存
    的头像 发表于 09-02 09:12 2112次阅读
    64GT/s+8000MT/s:澜起<b class='flag-5'>CXL</b> 3.1芯片破解数据中心<b class='flag-5'>内存</b>瓶颈

    澜起科技推出CXL® 3.1内存扩展控制器,助力下一代数据中心基础设施性能升级

    下一代数据中心服务器提供更高带宽、更低延迟内存扩展和池化解决方案。 澜起科技CXL 3.1内存扩展控制器采用PCIe® 6.2物理层接口,支持最高64 GT/s的传输速率(x8通道)
    的头像 发表于 09-01 10:56 596次阅读

    电磁干扰“江湖三兄弟”:EMC、EMI、EMS 到底有啥区别?

    电磁干扰“江湖三兄弟”:EMC、EMI、EMS 到底有啥区别?
    的头像 发表于 08-20 15:16 1917次阅读
    电磁干扰“江湖三兄弟”:EMC、EMI、EMS <b class='flag-5'>到底有</b>啥区别?

    漫画科普 | 功率放大器到底有哪些应用?带你解锁功放经典应用场景!(一)

    漫画科普 | 功率放大器到底有哪些应用?带你解锁功放经典应用场景!(一)
    的头像 发表于 06-20 20:00 799次阅读
    漫画科普 | 功率放大器<b class='flag-5'>到底有</b>哪些应用?带你解锁功放经典应用场景!(一)

    实测 PTR54LS05低功耗到底有

    实测 PTR54LS05低功耗到底有低?
    发表于 04-27 10:57

    第二代AMD Versal Premium系列SoC满足各种CXL应用需求

    。无论您是高级自适应 SoC 开发人员,还是 CXL 初学者,第二代 Versal Premium 系列都能提供灵活的 CXL 3.1 子系统,非常适合内存扩展、内存池化和
    的头像 发表于 04-24 14:52 990次阅读
    第二代AMD Versal Premium系列SoC满足各种<b class='flag-5'>CXL</b>应用需求

    SMART Modular CXL AIC内存扩充卡获CXL联盟认证

    近日,全球领先的整合型内存与储存解决方案提供商SMART Modular世迈科技(隶属于Penguin Solutions™集团)宣布,其4-DIMM和8-DIMM CXL®(Compute
    的头像 发表于 02-14 10:15 729次阅读

    SMART Modular世迈科技CXL内存扩充卡获CXL联盟认证

    商名单。 这一重要里程碑不仅标志着SMART Modular在CXL技术领域的领先地位,更是对其长期以来致力于高质量、高兼容性内存解决方案的肯定。CXL作为一种高性能、低延迟的互连技术
    的头像 发表于 02-05 15:59 727次阅读

    TLC2578芯片中FS与SDI到底有什么作用?

    ,还有就是一点不太懂的就是:TLC2578芯片中FS与SDI到底有什么作用。手册看了半天还是不懂!求解!谢谢!
    发表于 01-22 06:51

    澜起科技CXL®内存扩展控制器芯片通过CXL 2.0合规性测试

    近日,澜起科技在CXL(Compute Express Link)技术领域取得了又一重要里程碑。其自主研发的CXL®内存扩展控制器(MXC)芯片成功通过了CXL 2.0合规性测试,并被
    的头像 发表于 01-21 14:44 1500次阅读

    澜起科技MXC芯片列入首批CXL 2.0合规供应商清单

    近日,澜起科技研发的CXL内存扩展控制器(MXC)芯片成功通过了CXL 2.0合规性测试,列入CXL联盟公布的首批CXL 2.0合规供应商清
    的头像 发表于 01-21 10:32 997次阅读
    澜起科技MXC芯片列入首批<b class='flag-5'>CXL</b> 2.0合规供应商清单

    RK3506到底有多香?抢先看核心板详细参数配置

    RK3506到底有多香?触觉智能已推出RK3506核心板,抢先了解核心板详细参数配置!
    的头像 发表于 01-18 11:33 3245次阅读
    RK3506<b class='flag-5'>到底有</b>多香?抢先看核心板详细参数配置

    24位或者说高分辨率的AD到底有什么用呢?

    的AD,如24位的AD,其分辨率达到很低的uV级别,我们如何考究其精度?而且AD的精度受到诸多因素的影响,其中参考源的稳定度和供电电源的稳定度对精度影响很大,参考源最低0.05%的精度,那么24位的分辨率所可以达到的精度却是要大打折扣的,请问在这样的情况下,24位或者说高分辨率的AD到底有什么用呢?
    发表于 01-07 06:49

    差分输入和和单端输入在本质上到底有什么区别?

    和和单端输入在本质 上到底有什么区别? 因为,ADC采集的信号说到底是AINP - AINN,不管单端还是差分,采集的信号都是这两个pad的差值。 2:将单端信号接在ADC的差分输入接口上可以用
    发表于 12-23 07:31

    TFP401APZP到底有没有HSYNC输出?

    请教下TI的大牛,TFP401APZP这颗IC到底有没有HSYNC输出?实测发现HSYNC无输出,是要做什么设置么?!
    发表于 12-20 07:28