0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

RapidIO针对低延迟处理器连接进行优化

星星科技指导员 来源:嵌入式计算设计 作者:Sam Fuller 2022-06-14 11:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着摩尔定律继续推动处理器的性能和集成,对更高速互连的需求也在持续增长。今天的互连通常运动速度从 10 Gbps 到 80 Gbps 不等,并且具有达到每秒数百千兆位的路线图。

在争取越来越快的互连速度的竞赛中,一些话题很少被讨论,包括支持的事务类型、通信延迟和开销,以及可以轻松支持的拓扑类型。设计人员倾向于认为所有互连都是平等的,并且具有仅基于峰值带宽的品质因数。

现实完全不同。正如针对通用、信号处理、图形和通信应用优化的不同形式的处理器一样,互连也针对不同的连接问题进行设计和优化。互连通常可以解决其设计的问题,并且可以投入使用以解决其他应用程序,但在这些应用程序中效率会降低。

RapidIO 设计目标

在这种情况下查看 RapidIO 是有启发性的。RapidIO 旨在用作低延迟处理器互连,用于需要高可靠性、低延迟和确定性操作的嵌入式系统。它旨在将来自不同制造商的不同类型的处理器连接到一个系统中。正因为如此,RapidIO 已在无线基础设施设备中得到广泛应用,其中需要将通用、数字信号FPGA 和通信处理器结合在一个紧密耦合的系统中,具有低延迟和高可靠性。

RapidIO 的使用模型需要提供对内存到内存事务的支持,包括原子读取-修改-写入操作。为满足这些要求,RapidIO 提供了无需软件干预即可实现的远程直接内存访问 (RDMA)、消息传递和信令结构。例如,在 RapidIO 系统中,处理器可以发出加载或存储事务,或者集成的 DMA 引擎可以在两个内存位置之间传输数据。这些操作在其源或目标地址所在的 RapidIO 结构中执行,并且通常无需任何软件干预即可发生。从处理器看来,它们与普通的内存事务没有什么不同。

RapidIO 还旨在支持点对点交易。假设系统中有多个主机或主处理器,并且这些处理器需要通过共享内存、中断和消息相互通信。在 RapidIO 网络中可以配置多个处理器(最高 16K),每个处理器都有自己的完整地址空间。

RapidIO 还在交换机和端点的功能之间提供了清晰的分界线。RapidIO 交换机仅根据明确的源/目标地址对和明确的优先级做出切换决策。这允许 RapidIO 端点添加新的事务类型,而无需更改或增强交换设备。

比较互连

随着越来越多的系统被集成到单个硅片上,PCI Express (PCIe) 和以太网正在集成到片上系统 (SoC) 中。然而,这种集成并没有改变这些互连提供的事务的性质(参见图 1)。

图 1: RapidIO、PCI Express 和以太网为连接处理器、I/O 和系统提供了不同的选项。

poYBAGKn_y2Aa8ujAAPdDxSur_Q237.png

PCIe 本身并不支持点对点处理器连接。使用 PCIe 进行这种连接可能非常复杂,因为它被设计为外围组件互连(因此是 PCI)。它旨在将外围设备(通常是 I/O 和图形芯片等从属设备)连接到主主机处理器。它不是作为处理器互连设计的,而是作为 PCI 总线的串行版本。从 PCI 构建多处理器互连需要超越基本 PCI 规范的步骤,以创建在多个主机或根处理器之间映射地址空间和设备标识符的新机制。迄今为止,执行此操作的提议机制——高级交换 (AS)、非透明桥接 (NTB) 或多根 I/O 虚拟化 (MR-IOV)——都没有在商业上取得成功。

对于有明确的单一主机设备且其他处理器和加速器作为从设备运行的系统,PCIe 是连接的不错选择。然而,为了在更复杂的系统中将许多处理器连接在一起,PCIe 在拓扑结构和对等连接的支持方面存在很大限制。

许多开发人员正在寻求利用以太网作为连接系统中处理器的解决方案。在过去的 35 年中,以太网取得了长足的发展。与计算机处理速度的提高类似,其峰值带宽也在稳步增长。目前可用的以太网网络接口控制器 (NIC) 卡可以支持 40 Gbps 运行,通过四对 SERDES 和 10 Gbps 信号传输。这样的 NIC 卡本身包含重要的处理,能够以这些速度传输和接收数据包。

从解决方案到紧密耦合的处理器间通信,通过 NIC 发送和接收以太网数据包还有很长的路要走。与 PCIe 和以太网事务处理相关的开销(两个堆栈都必须在 NIC 中遍历),加上相关的 SERDES 功能和以太网媒体访问协议和交换增加了延迟、复杂性和更高的功耗以及系统成本可以使用更直接的连接方法(见表 1)。

表 1:以太网和 RapidIO 的比较显示了更直接连接方法的优势。

poYBAGKn_zeALMnzAAFS211-jeY833.png

将以太网用作集成嵌入式处理器互连需要对以太网媒体访问控制器 (MAC) 以及以太网交换机设备本身进行显着的事务加速和增强。即使有了这些增强,RDMA 操作也应该仅限于大块交易,以分摊使用以太网的开销。

已部署用于解决此问题的标准包括来自 Internet 工程任务组的 iWARP RDMA 协议和基于融合以太网的 RDMA (RoCE)。iWARP 和 RoCE 通常都是通过加速协处理器实现的。尽管有这种加速,但仍必须仔细管理 RDMA 事务以减少通信开销。原因是尽管以太网提供了高带宽,尤其是在 10 GbE 和 40 GbE 实施中,但它也具有通常以微秒为单位测量的高事务延迟。

当前的 RapidIO 应用程序

多年来,RapidIO 的价值主张已在嵌入式市场中得到广泛认可。同样的价值主张现在可以扩展到更主流的数据处理市场,这些市场正在演变为需要通信网络长期以来需要的许多相同的系统属性。

其中使用 RapidIO 的一种众所周知的应用是无线基站。该应用程序结合了多种形式的处理(DSP、通信和控制),必须在很短的时间内完成。处理设备之间的通信应尽可能快速和确定,以确保实现实时约束。

例如,在 4G 长期演进 (LTE) 无线网络中,每 10 毫秒发送一次帧。这些帧包含多个并发移动会话的数据,分布在多个子载波上,由多个 DSP 设备支持。DSP 和通用处理设备之间的通信必须具有确定性和低延迟,以确保每 10 毫秒就有一个新帧准备好传输。同时,接收路径必须支持来自连接到网络的移动设备的数据。除了这种复杂性之外,系统还必须实时跟踪移动设备的位置并管理设备的信号功率。

RapidIO 应用的另一个例子是半导体晶圆加工。与无线基础设施应用类似,半导体晶圆加工具有实时限制,包括传感器、处理和执行器的控制回路。前沿系统通常有数百个传感器收集信息,传感器数据由数十到数百个处理节点处理。处理节点生成的命令发送到执行器和交流和直流电机,以重新定位晶片和晶片成像子系统。这一切都是在频率高达 100 kHz 或 10 微秒的循环控制循环中执行的。像这样的系统受益于设备之间可能的最低延迟通信。

高性能计算的未来

虚拟化、基于 ARM 的服务器和高度集成的 SoC 设备的引入正在为下一阶段的高性能计算发展铺平道路。这种演变正朝着更紧密耦合的处理器集群发展,这些集群代表为托管数百或数千台虚拟机而构建的处理场。这些处理器集群将由多达数千个通过高性能、低延迟处理器互连连接的多核 SoC 设备组成。这种互连的效率越高,系统的性能和经济性就越好。

PCIe 和 10 GbE 等技术不会很快消失,但它们不会成为这些未来紧密耦合计算系统的基础。PCIe 不是一种结构,只能支持少量处理器和/或外围设备的连接。它可以简单地充当到结构网关设备的桥梁。虽然 10 GbE 可用作结构,但它具有重要的硬件和软件协议处理要求。其广泛可变的帧大小(巨型帧为 46 B 到 9,000 B)推动了对快速处理逻辑的需求,以支持多个小数据包和大型内存缓冲区以支持端点和交换机中的大数据包,从而提高了芯片成本。使用 PCIe 或 10 GbE 将限制可用的拓扑和连接,或者增加系统的成本和开销。

实施集成的服务器、存储和网络系统为 OEM 提供了创新的机会。该创新的一个关键组成部分将是内部系统连接。RapidIO 是一项成熟的、经过充分验证的技术,具有在该市场取得成功所需的属性。与无线基础设施的情况一样,RapidIO 从早期创新发展成为事实上的基站互连标准,RapidIO 在服务器、存储和高性能计算方面的最大挑战将是跨越当今创新者和早期采用者市场的鸿沟大众市场的扩散。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20330

    浏览量

    254871
  • soc
    soc
    +关注

    关注

    40

    文章

    4623

    浏览量

    230163
  • 服务器
    +关注

    关注

    14

    文章

    10354

    浏览量

    91743
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    IDT Tsi620:RapidIO开关与RapidIO - PCI桥的融合之作

    IDT Tsi620:RapidIO开关与RapidIO - PCI桥的融合之作 在电子设备设计领域,接口和连接性的优化一直是工程师们关注的重点。IDT(Integrated Devi
    的头像 发表于 04-14 10:40 113次阅读

    IDT Tsi564A™ Serial RapidIO Switch:高性能嵌入式通信的理想之选

    : TSI564A-10GCL.pdf 产品特性 Serial RapidIO接口特性 高带宽 :Tsi564A拥有高达40 Gbps的带宽,能够满足对数据吞吐量要求极高的应用场景。 延迟 :具备直通能力,实现
    的头像 发表于 04-14 10:15 96次阅读

    18 - Port, 48 - Lane, 240Gbps, Gen2 RapidIO Switch——CPS - 1848深度解析

    概述 CPS - 1848(80HCPS1848)是一款符合 RapidIO 规范(Rev. 2.1)的安全分组交换机,主要用于在 DSP、处理器、FPGA、其他交换机或任何基于 RapidIO 的设备之间路由
    的头像 发表于 04-12 12:15 392次阅读

    深入解析CPS - 1432:一款强大的RapidIO交换机

    深入解析CPS - 1432:一款强大的RapidIO交换机 在高速数据传输和处理的领域中,RapidIO技术凭借其高带宽、延迟等优势,在
    的头像 发表于 04-12 10:05 419次阅读

    LT1528:3A dropout 稳压,为微处理器应用量身打造

    的 LT1528 就是这样一款专为微处理器应用优化的 3A dropout 稳压。本文将详细介绍 LT1528 的特点、应用、电气特性等方面,帮助电子工程师更好地了解和使用这款
    的头像 发表于 03-20 09:15 458次阅读

    瑞芯微SOC智能视觉AI处理器

    RK3568B2: 一款性能均衡、接口丰富的中高端AIoT应用处理器,是RK3568的优化版本,主打稳定与可靠性。CPU/GPU: 延续RK3568的4核A55 + G52 GPU架构,性能可靠
    发表于 12-19 13:44

    如何对蜂鸟e203内核乘除法器进行优化

    整个处理器性能的重要手段之一,本文介绍了乘法器和除法器的基本原理,以及针对乘除法器优化的方案,希望能够对读者有所帮助。同时,在实际应用中,需要根据具体应用场景和需求,进行
    发表于 10-24 06:47

    【技术讨论】智能戒指手势交互:如何优化PCBA成本与实现<20ms延迟

    元件的小批量贴片,如何有效控制加工损耗与成本? 延迟手势识别:目标是将传感数据采集、姿态解算到蓝牙指令发出的端到端延迟控制在10ms以内。在软件层面,除
    发表于 10-18 13:04

    DRA821U-Q1/DRA821U处理器技术文档总结

    Jacinto™ DRA821x 处理器基于 Armv8 64 位架构,针对具有云连接的网关系统进行优化。片上系统 (SoC) 设计通过集
    的头像 发表于 10-10 10:48 2299次阅读
    DRA821U-Q1/DRA821U<b class='flag-5'>处理器</b>技术文档总结

    DRA821U处理器技术文档总结

    Jacinto™ DRA821x 处理器基于 Armv8 64 位架构,针对具有云连接的网关系统进行优化。片上系统 (SoC) 设计通过集
    的头像 发表于 09-30 17:14 4235次阅读
    DRA821U<b class='flag-5'>处理器</b>技术文档总结

    AMD 推出 EPYC™ 嵌入式 4005 处理器,助力时延边缘应用

    AMD宣布推出EPYC™(霄龙)嵌入式4005系列处理器,专为满足对实时计算性能和成本效率日益增长的需求而设计,同时还优化了系统成本并延长了网络安全设备和入门级工业边缘服务的部署生命周期
    的头像 发表于 09-17 10:37 1035次阅读
    AMD 推出 EPYC™ 嵌入式 4005 <b class='flag-5'>处理器</b>,助力<b class='flag-5'>低</b>时延边缘应用

    Texas Instruments DRA821x Jacinto™ 64位处理器技术解析

    Texas Instruments DRA821x Jacinto™ 64位处理器基于ARM®v8架构,并为带有云连接性的网关系统进行优化。片上系统 (SoC) 设计通过集成降低了系
    的头像 发表于 08-28 11:33 1285次阅读
    Texas Instruments DRA821x Jacinto™ 64位<b class='flag-5'>处理器</b>技术解析

    有哪些方法可以降低分布式光伏集群通信网络中的延迟

    微机小电流 降低分布式光伏集群通信网络的延迟,需从 接入优化、数据处理、协议适配、环境抗扰、边缘 - 云端协同 等多维度入手,结合场景特点针对性解决瓶颈。以下是具体方法: 一、
    的头像 发表于 08-22 09:54 885次阅读
    有哪些方法可以降低分布式光伏集群通信网络中的<b class='flag-5'>延迟</b>?

    高速总线接口的类型介绍

    串行RapidIO,高速串行通信协议,旨在链接DSP、FPGA、网络处理器等芯片,具有延迟、高带宽(支持25Gbps、2.5Gbps、3.125Gbps的数据传输速率)。而
    的头像 发表于 08-06 14:50 2067次阅读

    龙芯处理器支持WINDOWS吗?

    )。 Windows的适配:微软官方仅支持x86/x64和ARM架构的处理器,未推出针对LoongArch或MIPS的Windows版本。 技术限制 指令集不兼容:Windows系统的内核、驱动和应用程序均依赖x86
    发表于 06-05 14:24