电子发烧友网报道(文/周凯扬)当下服务器市场在内存上面临的一大挑战就是成本,截至今日,我们在选择云服务容器时,内存依然占了很大一部分,往往内存用量扩大一倍后,价格也随之上涨了一倍。这其实与内存本身的扩展性有关,目前服务器上更大的存储已经成为常态,但要想实现更大的内存始终存在瓶颈。因此,从2013年开始,每bit内存的价格基本趋于平缓了。
但服务器CPU的核心数增加的速度可没有因此减缓下来,加上AI等新型工作负载的引入,更大的内存容量、更大的内存带宽,都成了当下服务器内存面临的痛点。为此,业界开始考虑从系统层级上来解决这些问题,比如为CPU增加DDR通道,好让其支持更大的带宽和容量。
但这就又引入了一系列新问题,为了满足新增的DDR通道,需要更多的引脚,也提高了成本降低了可靠性,PCB的层数也开始增加。这也造就了整个服务器主板的尺寸变得异常大,甚至难以放进1U标准尺寸的机柜里。
CXL的灵活性和延迟
这时对于内存媒介无限制的CXL,就提供了一个灵活的内存接口,让设计者可以从持久性、延迟、带宽等各个参数特性上灵活选择,让服务器CPU不止可以使用常用的DDR内存,也能支持LPDDR5和持久内存等等。我们此前已经多次介绍过CXL了,这次就来讲下作为内存扩展,CXL有哪些优势。
比如一个80核的CPU,应用要求每个核心配置2GB的DDR5内存,也就是需要160GB的DDR5内存。如果采用16GB DIMM x8的配置明显满足不了,32GB x 8多出了96GB内存,徒增了近乎500美元的成本,使用32GB x 5这样不跑满通道的配置虽然容量对了,但是会降低带宽和性能。
而这时我们反观CXL,CXL可以在配置了原生DDR通道配置了8个16GB DIMM的情况下,再加入32GB的CXL内存,如此一来不仅满足了内存容量的需求,还增加了额外的带宽,况且我们已经提到了CXL并没有内存媒介的限制,所以可以用上LPDDR5之类的CXL扩展内存进一步降低成本。

各种缓存、内存和存储的延迟对比 / CXL联盟
作为一个分布式内存,尽管CXL主打的是低延迟,但要说与CPU的内存、缓存和寄存器比起来,延迟还是有一定差距的。今年的Hot Chips上,CXL联盟就给出了CXL在延迟上的具体数字。独立于CPU外的CXL内存延迟在170-250ns左右,高过独立于CPU的NVM、网络连接的解构内存、SSD和HDD等。
虽然在我们看来这个数字已经很小了,但相较原生的主要内存,还是把延迟扩大了两倍。来自Meta和AMD的两位专家提出了一个概念,也就是对内存进行分层,分为用于实时分析等关键任务的“热”内存、访问不那么频繁的“暖”内存和用于庞大数据的“冷”内存。“热”内存页面放在原生DDR内存里,而“冷”内存页面则交给CXL内存。
然而在当前的软件眼里,它们才分不清楚什么是“热”内存和“冷”内存,原生内存用完后,就开始去占用CXL内存,如此一来原本作为“冷”内存的CXL,也开始变成“热”内存。所以目前最大的挑战就是在操作系统和软件层面,如何检测到“冷”内存页面,将其主动转入CXL内存里,为原生内存留出空间。Meta和AMD的两位专家表示,他们已经在开发相应的软硬件技术。
CXL或许不会成为HPC和AI应用的宠儿
固然CXL对于云服务厂商和诸多数据中心拥有不错的吸引力,然而这种形式的内存可能并不适用于HPC与超算应用。“富岳之父”松冈聪教授表示CXL这种内存解构方案还存在不少技术问题,使其不能在主流的HPC甚至是AI负载中物尽其用。松冈聪教授并没有给出具体的细节,但他给出了一个例子,那就是多年前SGI的NUMALINK系统也是采用了分布式内存解构的方式,但我们也都知道如今市面上的NUMALINK产品基本已经销声匿迹了。
但他并没有彻底否认内存解构这种思路,就连富岳超算本身也用这一技术,从而将MPI进行put/get运算时的远程内存访问延迟降低至亚微秒级。但加入一个单独的UMA内存池,已经在历史中证明了这对HPC来说收效甚微。
首先,这需要更高硬件交换机成本,再者,在超算这种大型配置规模的系统上,缺乏对应的编程标准。因此,对于目前的HPC大型系统来说,CXL内存或许会先出现在一小部分节点上,比如一些需要近存或存内计算AI负载,而不会普及到整个系统。
写在最后
其实对于CXL的担心也没必要那么多,对于服务器市场来说,低核心数的CPU依然会继续使用原生DDR通道来配置DIMM内存。到了高核心数CPU上,再根据系统成本、容量、功耗和带宽等参数来灵活应用CXL内存,而这才是CXL带来的最大优势,灵活性。况且目前CXL内存还没有大规模量产出来,自然也没有普及开来,大家对其实际性能表现还没有个大致了解,也许引入CXL的延迟后,对性能的损失不会那么糟糕。
但服务器CPU的核心数增加的速度可没有因此减缓下来,加上AI等新型工作负载的引入,更大的内存容量、更大的内存带宽,都成了当下服务器内存面临的痛点。为此,业界开始考虑从系统层级上来解决这些问题,比如为CPU增加DDR通道,好让其支持更大的带宽和容量。
但这就又引入了一系列新问题,为了满足新增的DDR通道,需要更多的引脚,也提高了成本降低了可靠性,PCB的层数也开始增加。这也造就了整个服务器主板的尺寸变得异常大,甚至难以放进1U标准尺寸的机柜里。
CXL的灵活性和延迟
这时对于内存媒介无限制的CXL,就提供了一个灵活的内存接口,让设计者可以从持久性、延迟、带宽等各个参数特性上灵活选择,让服务器CPU不止可以使用常用的DDR内存,也能支持LPDDR5和持久内存等等。我们此前已经多次介绍过CXL了,这次就来讲下作为内存扩展,CXL有哪些优势。
比如一个80核的CPU,应用要求每个核心配置2GB的DDR5内存,也就是需要160GB的DDR5内存。如果采用16GB DIMM x8的配置明显满足不了,32GB x 8多出了96GB内存,徒增了近乎500美元的成本,使用32GB x 5这样不跑满通道的配置虽然容量对了,但是会降低带宽和性能。
而这时我们反观CXL,CXL可以在配置了原生DDR通道配置了8个16GB DIMM的情况下,再加入32GB的CXL内存,如此一来不仅满足了内存容量的需求,还增加了额外的带宽,况且我们已经提到了CXL并没有内存媒介的限制,所以可以用上LPDDR5之类的CXL扩展内存进一步降低成本。

各种缓存、内存和存储的延迟对比 / CXL联盟
作为一个分布式内存,尽管CXL主打的是低延迟,但要说与CPU的内存、缓存和寄存器比起来,延迟还是有一定差距的。今年的Hot Chips上,CXL联盟就给出了CXL在延迟上的具体数字。独立于CPU外的CXL内存延迟在170-250ns左右,高过独立于CPU的NVM、网络连接的解构内存、SSD和HDD等。
虽然在我们看来这个数字已经很小了,但相较原生的主要内存,还是把延迟扩大了两倍。来自Meta和AMD的两位专家提出了一个概念,也就是对内存进行分层,分为用于实时分析等关键任务的“热”内存、访问不那么频繁的“暖”内存和用于庞大数据的“冷”内存。“热”内存页面放在原生DDR内存里,而“冷”内存页面则交给CXL内存。
然而在当前的软件眼里,它们才分不清楚什么是“热”内存和“冷”内存,原生内存用完后,就开始去占用CXL内存,如此一来原本作为“冷”内存的CXL,也开始变成“热”内存。所以目前最大的挑战就是在操作系统和软件层面,如何检测到“冷”内存页面,将其主动转入CXL内存里,为原生内存留出空间。Meta和AMD的两位专家表示,他们已经在开发相应的软硬件技术。
CXL或许不会成为HPC和AI应用的宠儿
固然CXL对于云服务厂商和诸多数据中心拥有不错的吸引力,然而这种形式的内存可能并不适用于HPC与超算应用。“富岳之父”松冈聪教授表示CXL这种内存解构方案还存在不少技术问题,使其不能在主流的HPC甚至是AI负载中物尽其用。松冈聪教授并没有给出具体的细节,但他给出了一个例子,那就是多年前SGI的NUMALINK系统也是采用了分布式内存解构的方式,但我们也都知道如今市面上的NUMALINK产品基本已经销声匿迹了。
但他并没有彻底否认内存解构这种思路,就连富岳超算本身也用这一技术,从而将MPI进行put/get运算时的远程内存访问延迟降低至亚微秒级。但加入一个单独的UMA内存池,已经在历史中证明了这对HPC来说收效甚微。
首先,这需要更高硬件交换机成本,再者,在超算这种大型配置规模的系统上,缺乏对应的编程标准。因此,对于目前的HPC大型系统来说,CXL内存或许会先出现在一小部分节点上,比如一些需要近存或存内计算AI负载,而不会普及到整个系统。
写在最后
其实对于CXL的担心也没必要那么多,对于服务器市场来说,低核心数的CPU依然会继续使用原生DDR通道来配置DIMM内存。到了高核心数CPU上,再根据系统成本、容量、功耗和带宽等参数来灵活应用CXL内存,而这才是CXL带来的最大优势,灵活性。况且目前CXL内存还没有大规模量产出来,自然也没有普及开来,大家对其实际性能表现还没有个大致了解,也许引入CXL的延迟后,对性能的损失不会那么糟糕。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
服务器
+关注
关注
14文章
10440浏览量
91849 -
2cxl
+关注
关注
0文章
5浏览量
6544
发布评论请先 登录
相关推荐
热点推荐
三星电子Q3出样CXL 3.1内存模块
近日,三星电子计划于**2026年第三季度**起向主要服务器和数据中心厂商提供支持新一代**CXL 3.1标准**的内存模块(CMM-D)样品。待通过客户质量认证后,预计**第四季度**确定生产规模并正式进入量产准备阶段。
立锜科技推出完整DDR5服务器内存电源解决方案
随着云计算、大数据,及 AI 应用的快速发展,服务器内存对电源系统提出了更高要求。高精度、低噪声、高可靠性和高能效已成为 DDR5 时代的基本标准。
从内存接口到PCIe/CXL、以太网及光互连,高速互连芯片市场分析
黄晶晶 综合整理 高速互连芯片定义及分类高速互连芯片是支撑数据中心、服务器及计算机实现高速数据交互的必备芯片,主要解决智能算力系统持续升级背景下各类数据传输的瓶颈。高速互连芯片适配多种 标准化
Penguin Solutions SMART Modular CXL NV-CMM E3.S 2T 内存模块通过 CXL 兼容性认证
失性内存模块已成功通过 CXL® 兼容性测试。此项里程碑不仅代表产品符合行业标准,也进一步确立 Penguin Solutions 在 CXL 先进内存技术领域中值得信赖的领导地位。该
服务器数据恢复—服务器断电导致raid模块损坏的数据恢复案例
某品牌服务器中有12块硬盘,组建了一组raid5磁盘阵列,服务器内存储的是普通文件。
机房供电不稳定导致服务器断电,管理员重启服务器后发现
澜起科技推出CXL® 3.1内存扩展控制器,助力下一代数据中心基础设施性能升级
下一代数据中心服务器提供更高带宽、更低延迟的内存扩展和池化解决方案。 澜起科技CXL 3.1内存扩展控制器采用PCIe® 6.2物理层接口,
高通SoC阵列服务器
高通SoC阵列服务器是基于高通系统级芯片(SoC)构建的高密度计算解决方案,核心特点为低功耗、高算力集成与模块化设计,主要应用于边缘计算和云服务场景。以下是其技术特性和应用方向的综合分析: 一
救场服务器内存的CXL

评论