0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

采用CXL计划应对异构计算中的内存解决方案

电子设计 来源:edn 作者:Jeff Hockert 2021-03-19 11:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在计算世界中,不可思议的事情之一是在数据中心中迅速采用人工智能AI)和云计算。这些和其他因素正在推动异构计算-使用CPUGPUFPGAASIC加速器,网络接口控制器(NIC)和其他处理元件,所有这些元件都连接到越来越大的内存池。

但是,高性能计算(HPC)需要更新以有效连接这些处理元素并共享日益昂贵的内存的能力。参加旨在应对异构计算带来的挑战的Compute Express Link(CXL)计划。它旨在提供高速缓存一致性以及在没有不必要的成本的情况下添加新的内存层的能力。

CXL联盟吸引了广泛的支持,有近100个成员公司和14个公司的董事会,其中包括几乎所有主要供应商,包括AMDArm,IBM,Intel和Xilinx。

就像Intel发起USB,PCI和PCI Express一样,当Intel向最初由9家公司组成的工作组贡献了该技术的第一个迭代时,CXL联盟便开始起步。2019年9月,成立了董事会,拥有96家成员公司。

在致力于成为正式成员之前,任何公司都可以访问CXL网站,免费获得点击许可,并下载该规范当前版本的评估版。参与人员能够指导工作的进展,工程师现在可以在开发阶段接受有关2.0规范的培训课程。

CXL建立在PCIe互连标准的基础上,CXL 2.0(将于2020年12月推出)将补充PCIe 5.0标准的使用,其每通道32 Gbps的信号速度,预计将在2021年发布。随后的PCIe 6.0规格有望提高一倍。具有三个协议套件的CXL利用PCIe内具有备用协议的功能。

第一个CXL.io取代了PCIe并处理标准设置功能。将CXL卡插入PCIe插槽后,CXL.io会识别出正在使用CXL,然后关闭PCIe并启动CXL.io协议。它允许系统使用同一组电线和标准PCIe插槽,并根据需要混合CXL和PCIe资源,这是节省资源和系统成本的重要手段。

第二个和第三个协议CXL.cache和CXL.memory支持维护缓存一致性,减少延迟以及使用新的内存类型的能力,以及其他优势。

图1CXL事务层在单个链路上包含三个动态多路复用子协议。资料来源:英特尔

从许多方面来看,CXL都是关于驱动异构计算的,异构计算正是其中的许多创新之源。在当今的异构计算世界中,内存连接到CPU,其他存储库连接到加速器设备:GPU,自定义逻辑,FPGA,NIC等。这些内存池位于两个不同的域中,不同类别的设备通过不同的机制与内存通信。保持高速缓存一致性是一项挑战。

连接CPU和连接加速器的内存池具有PCI对等访问。借助CXL及其以内存为中心的体系结构,它可以将内存体系结构和内存语义引入到传统上在I / O总线上的功能。

使用PCIe的替代协议

CXL利用PCIe中的替代协议选项。当我们使用CXL时,PCIe会关闭,CXL会接管工作,并为我们提供内存类的延迟,而不是I / O类的延迟。

在数据中心中,CXL主要在互连体系结构的节点级层上运行,以实现芯片到芯片的互连。对于机架和行级别,开放系统Gen-Z互连可以通过直接连接,交换或结构拓扑提供对数据和设备的存储器语义访问。

CXL和Gen-Z非常互补,前者用于节点,后者用于节点之外。从CXL的角度来看,Gen-Z可以帮助我们变得更加流畅,当同时部署两者时,我们将看到很多协同作用。实际上,我们认为互补性将随着时间的流逝而发展。

CXL与Gen-Z有着很好的关系,包括正式协议。目的是使Gen-Z非常有效地连接到CXL。如果工程师希望结构能够可靠地工作,则任何结构都需要与CPU保持一致的接口。因此,让Gen-Z在CXL上方的机架级和行级进行更多操作是很有意义的。

非对称复杂性是关键

CXL中的一项功能是能够非对称地“偏置”系统中的计算资源。为了保持高速缓存一致性,操作通常会保持“ CPU偏差”,因为这是确保高速缓存一致性最经常发生的地方,是在CPU的“本地代理”处。加速器大多数时候都使用特定类别的数据,它们将使用稍微更简单的“设备偏差”。

通过这种非对称方法,CXL提供了缓存一致性的好处,而不会陷入CPU上本地代理的复杂性中。总而言之,非对称复杂性是CXL的关键功能,它减轻了缓存一致性接口设计的负担。

图2CXL中的非对称复杂性减轻了缓存一致性接口设计的负担。资料来源:英特尔

降低CXL的复杂性将使来自不同供应商的处理器能够轻松建立一致的缓存,这在业界尚属首次。CXL的一项关键价值主张是,利用CPU中的复杂性而不是在加速器中复制复杂性来分解复杂性的概念。

在CXL中,我们从CPU开始,向北和向南都有可缓存的内存,既有它自己的内存,也有加速器内存。加速器也具有完全相同的功能。可以访问CPU内存的PCI设备现在可以访问CXL下的加速器内存。我们对内存的两个部分都具有这种对称能力。这两个池将成为两台机器均可访问的一致性内存池的一部分。

负担得起地增加存储容量

数据中心系统不可避免地需要增加存储容量和带宽。一种解决方案是在DRAM和固态驱动器(SSD)之间添加一类持久性存储器,在许多情况下,它们足以存储整个数据库。这种单独的存储层(比DRAM便宜)可以用于各种存储创新中。

CXL定义了三种类型的设备:类型1包括具有自己的缓存但没有附加内存的加速器。类型2类的设备包括已附加内存的加速器。在这两种情况下,都可以保证高速缓存的一致性。

第三类设备包括支持内存缓冲区和内存扩展设备的控制器。系统可以添加更多的DRAM和/或持久性内存,但将其移出DDR接口。从逻辑上讲,出现的内存缓冲区与其在主内存总线上的内存缓冲区没有什么不同。

启用分类内存

CXL是一种高速互连,并且该联盟已致力于显着减少等待时间,以实现分类内存。用高效,低延迟的访问机制创建共享内存池与联盟实现异构资源共享的总体目标是一致的。

CXL中对Type 3设备的支持为分离内存控制器提供了机会。随着数据中心处理各种用例,第3类设备可以更轻松地提供对持久性介质或尚未投入生产的新内存类型的访问。

事实证明,仅仅增加更多的直接连接DRAM太昂贵了。不仅DRAM成本的增长步伐很慢,而且PCB上更多路由层和控制器上更多引脚的复杂性也很昂贵。

与其增加板上的内存,不如增加CXL链路的数量是一种更简单的方法,它不依赖于并行高速总线。并行DDR接口需要200个以上的引脚,而CXL可以使每个封装的引脚数更少,并减少PCB层数。使用CXL串行接口,可以在更理想的位置存储更长的内存,从而改变了存储设备上的气流。

供应商可以使用特定于媒体的控制器来构建CXL内存扩展器设备。一个系统可以支持多种不同的存储器类型,包括DDR3,DDR4或DDR5,以及持久性存储器,低功耗DRAM等,每种类型都具有特定于媒体的控制器,该控制器支持非对称或不确定的定时和错误处理。较慢的内存层可以与主层完全隔离,而对直接连接的DRAM双列直插式内存模块(DIMM)的干扰最小。

图3代表性的CXL用法简化了编程模型并提高了性能。资料来源:英特尔

使用CXL,开发人员可以拨入最适合其应用程序的内存带宽,使用持久性内存选项,并根据应用程序的需要进行混合匹配。该联盟的目标是召集许多不同的行业参与者,以确保一个健壮的,不断发展的生态系统。我们确实需要通过互操作性来进行工作,但是尽管我们在PCIe方面拥有良好的记录,但是我们还需要通过电源机械和管理接口来构建健壮的CXL生态系统。

Jeff Hockert是英特尔技术领导力营销团队的高级营销经理。

编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    114

    文章

    17915

    浏览量

    195823
  • PCIe
    +关注

    关注

    16

    文章

    1502

    浏览量

    89138
  • 异构计算
    +关注

    关注

    2

    文章

    115

    浏览量

    17252
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    三星电子Q3出样CXL 3.1内存模块

    近日,三星电子计划于**2026年第三季度**起向主要服务器和数据中心厂商提供支持新一代**CXL 3.1标准**的内存模块(CMM-D)样品。待通过客户质量认证后,预计**第四季度**确定生产规模并正式进入量产准备阶段。
    的头像 发表于 05-14 11:15 1158次阅读

    基于openEuler平台的CPU、GPU与FPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单一 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样算力支持 方面表现出色,能够高效调度 CPU、GPU、FPGA 及 AI 加速器,实现
    的头像 发表于 04-08 11:02 1406次阅读
    基于openEuler平台的CPU、GPU与FPGA<b class='flag-5'>异构</b>加速实战

    是德科技推出一系列全新Scale-up验证解决方案

    是德科技(NYSE: KEYS )推出一系列全新Scale-up验证解决方案,旨在帮助人工智能数据中心运营商应对计算集群日益密集复杂化过程不断加剧的带宽、延迟及互操作性挑战。 该
    的头像 发表于 03-06 10:01 724次阅读
    是德科技推出一系列全新Scale-up验证<b class='flag-5'>解决方案</b>

    澜起科技发布PCIe 6.x/CXL 3.x AEC解决方案

    澜起科技今日宣布,率先在国内推出基于PCIe 6.x/CXL 3.x标准的高性能有源电缆(AEC,Active Electrical Cable)解决方案。该方案面向数据中心从单机架向多机架复杂架构
    的头像 发表于 01-27 14:15 588次阅读

    Penguin Solutions SMART Modular CXL NV-CMM E3.S 2T 内存模块通过 CXL 兼容性认证

    高性能计算与 AI 基础架构解决方案领导厂商 Penguin Solutions, Inc.(Nasdaq: PENG)宣布其 SMART Modular CXL NV-CMM E3.S 2T 非易
    的头像 发表于 01-15 15:35 1223次阅读

    借助CXL和压缩技术实现高效数据传输

    AI、科学计算、海量内存处理……这些硬核工作负载正在不断挑战系统极限。而 FPGA 异军突起,成为了实现高效数据传输的“关键推手”。想知道怎么在不改变整体架构的前提下,让带宽和能效实现“双飞跃”?答案就藏在压缩 IP 与基于 CXL
    的头像 发表于 12-19 09:43 599次阅读
    借助<b class='flag-5'>CXL</b>和压缩技术实现高效数据传输

    美光科技与联想车计算引领车载存储新篇章

    解决方案,联想的强大异构计算能力结合美光的先进存储技术,双方在彼此优势上深化协作,共同应对汽车产业升级带来的技术挑战。
    的头像 发表于 09-28 16:45 5016次阅读

    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全国产化智能异构计算平台

    TEC100TAI-KIT是一款基于国产100TAI的全国产智能异构计算平台开发套件,该套件包含1个100TAI核心板和1个PCIE规格的扩展底板。 该套件的核心板集成了100TAI的最小
    的头像 发表于 09-19 17:16 1154次阅读
    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全国产化智能<b class='flag-5'>异构计算</b>平台

    64GT/s+8000MT/s:澜起CXL 3.1芯片破解数据中心内存瓶颈

    。     M88MX6852:性能卓越,满足多元需求   M88MX6852芯片全面支持CXL.mem和CXL.io协议,其核心使命是为下一代数据中心服务器打造更高带宽、更低延迟的内存扩展和池化
    的头像 发表于 09-02 09:12 3188次阅读
    64GT/s+8000MT/s:澜起<b class='flag-5'>CXL</b> 3.1芯片破解数据中心<b class='flag-5'>内存</b>瓶颈

    澜起科技推出CXL® 3.1内存扩展控制器,助力下一代数据中心基础设施性能升级

    下一代数据中心服务器提供更高带宽、更低延迟的内存扩展和池化解决方案。 澜起科技CXL 3.1内存扩展控制器采用PCIe® 6.2物理层接口,
    的头像 发表于 09-01 10:56 1071次阅读

    PCIe协议分析仪能测试哪些设备?

    训练环境中高效的数据交换。 异构计算集群 测试场景:在包含CPU、GPU、FPGA等多种计算单元的系统,分析各组件间的PCIe通信模式。 应用价值:优化任务调度和数据流,提升整体计算
    发表于 07-25 14:09

    异构计算解决方案(兼容不同硬件架构)

    异构计算解决方案通过整合不同类型处理器(如CPU、GPU、NPU、FPGA等),实现硬件资源的高效协同与兼容,满足多样化计算需求。其核心技术与实践方案如下: 一、硬件架构设计
    的头像 发表于 06-23 07:40 1142次阅读

    第三届大会回顾第3期 | FFRT并发框架在OpenHarmony的设计与实践

    演讲嘉宾 | 黄佑钟 回顾整理 | 廖   涛 排版校对 | 宋夕明 嘉宾介绍 开发框架分论坛  黄佑钟 ,海思Kirin解决方案并行与异构计算专家。 正文内容 多任务并发能更有效地利用CPU资源
    的头像 发表于 06-21 16:53 1547次阅读
    第三届大会回顾第3期 | FFRT并发框架在OpenHarmony<b class='flag-5'>中</b>的设计与实践

    如何释放异构计算的潜能?Imagination与Baya Systems的系统架构实践启示

    报告作者:PallaviSharma,Imaginaiton产品管理总监Dr.EricNorige,BayaSystems首席软件架构师关注Imagination公众号,消息框发送【异构计算】,即可
    的头像 发表于 06-13 08:33 1499次阅读
    如何释放<b class='flag-5'>异构计算</b>的潜能?Imagination与Baya Systems的系统架构实践启示

    能效提升3倍!异构计算架构让AI跑得更快更省电

    。它是应对复杂计算需求的关键技术之一。   异构计算架构的核心优势   异构计算架构的核心要素主要包括多种计算单元结合、任务分配机制和协同工
    的头像 发表于 05-25 01:55 4382次阅读