基于APP650网络处理器加速RNC WCDMA用户平面的解决方案-电子发烧友网

随着高速分组接入（HSPA）峰值数据速率不断提高，目前主要依靠各种通用处理器（CPU）进行用户平面处理工作的无线电网络控制器（RNC）平台已无法满足日益增加的通信有效负载要求。因此，RNC需要通过新的方法来处理PDCP、无线链路控制（RLC）、MAC以及FP等用户平面无线协议。由于对峰值数据速率要求的提高，以及HSPA用户数量和与WCDMA网络相关流量的增加，RNC需要更快速的HSPA。

本文将介绍如何通过LSIAPP650 Advanced Payload Plus网络处理器来加快当前的HSPA用户平面设计，不管目前的用户平面运行于何种硬件上。通过让APP650接管RLC分段/级联以及重组等用户平面处理工作，RNC可针对小型RLC服务数据单元（SDU）提供100Mb/s以上的用户峰值数据速率，并且可使3万名用户的总吞吐量达到700Mb/s以上。通过使用APP650分担部分处理工作的方法以及高度灵活的RLC（3GPP7版本以上），使每用户的峰值速率吞吐量能达到200Mb/s以上。

蜂窝系统的一个重要要求就是为分组数据业务提供高数据速度。为满足这一要求，3GPP/WCDMA标准R5版和R6版均提出了HSPA标准。尽管3GPP/WCDMA标准R1版就支持分组数据通信，但HSPA进一步增强了性能，可提供更高阶调制、快速的调度以及速率控制等，从而支持更高的每用户峰值数据速率。随着HSPA的不断发展，峰值数据速率也将不断提高。预计3GPP7版本以上的每用户峰值数据速率将提升至200Mb/s以上。

在采用HSPA技术的3G网络中，RNC通常控制数百个基站。RNC负责其控制下各蜂窝系统的呼叫设置和无线电资源管理。WCDMA用户平面协议层包括PDCP、RLC、MAC以及FP等，都是在下行方向上的RNC中启动，和在上行方向上的RNC中终止。

RLC协议层是唯一终止于3G网络用户设备（移动设备）中的RNC用户平面层。所有其它层均只位于RNC与基站之间。

现有RNC平台通常使用多个通用CPU来处理WCDMA用户平面协议栈。随着HSPA的发展以及蜂窝数据速率的提高，现有RNC架构已无法满足WCDMA网络日益提高的通信有效负载要求。

根据摩尔定律，CPU的性能每18个月应提高1倍。根据几份市场研究报告显示，预计对RNC用户平面处理容量的网络需求每12个月将提高约3倍，当前的RNC用户平面处理技术显然无力应付不断发展的需求（图1）。LSI针对这一问题提供了短期和长期解决方案。

本文建议采用的解决方案是将CPU从RLC分段/级联工作中释放出来，从而显著降低当前CPU的工作负载。此前曾将CPU从分段工作中释放出来用于其它协议（如TCP）中，以缩短服务器平台中的CPU周期。本文将介绍类似理念的应用，以加速WCDMA用户平面处理（尤其是RLC协议）。LSIAPP650处理器将CPU从分段/级联以及重组工作中释放出来，支持高达3万用户的RLC连接。图2为几个CPU采用单一APP650处理器作为加速引擎的情况。

相对于通常受限于单核或单线程性能的非加速方案而言，这种加速方案具有明显的优势。以前，提高HSPA峰值数据速率和增加用户（使用典型的CPU和操作系统模型，用CPU进行用户平面处理的用户）数量要求单用户处理软件在多个处理器上并行或管道化操作。这种软件工作方式不仅极其复杂、成本高昂，而且容易出错。与此不同的是，我们可利用LSIAPP650处理器来负责一些CPU工作强度最高的处理任务，从而节约50%乃至更多的CPU处理资源。而且在采用同一硬件时，高峰值数据速率与总体吞吐量将提高一倍以上。

APP650在用户平面处理方面的优势

APP650网络处理器由几个处理单元组成，其中包括模式处理器、流量管理和状态引擎等。

模式处理器主要负责数据包分类，其采用管线化、多线程的多处理器架构。模式处理器的每管线级能在每个时钟周期的不同上下文/线程下工作，这不同于管线中的所有指令必须属于单个上下文且只有上下文暂停（高速缓存缺失、存储器访问、分支预测错误等）时才打开管线中上下文执行的传统通用架构。在传统的单线程架构中，让执行管线保持繁忙比较困难，因为管线中的所有指令都属于单线程。在APP650架构中，如果上下文执行的函数调用时延较高，那么该函数调用在管线中的位置会被分配给其他上下文。因此，APP650多线程架构能支持零周期上下文切换功能，这在单线程的多核架构中是不能实现的。模式处理引擎可提供144个不同的上下文，能全面利用硬件资源，并避免存储器出现时延。

与此形成对比的是，CPU的存储器瓶颈会导致我们难以充分利用资源，而且会浪费CPU的工作周期。APP650网络处理器会为即将到达的数据包分配一个上下文，这样许多数据包能同时处理。由于我们能同时处理许多数据包，这样就能充分利用CPU资源，而且还能实现高达5.9Gb/s的数据速率。

在APP650架构中，机制与策略是彼此独立的。硬件负责提供机制，而软件负责提供策略。APP650架构是在硬件中执行存储器管理与数据移动，因此在牵涉到存储器的分配与释放、数据包指针的跟踪或者数据复制到不同存储器地址等方面时间，不会出现软件消耗资源的问题。APP650硬件就每个数据包调用软件来提供决策，避免了因中断处理或轮询而浪费CPU资源。APP650网络处理器还包括了预排序修改（PQM）引擎，其不仅能在数据包的不同部分中插入或删除数据，而且还可将数据包分段为许多子数据包。PQM引擎的上述特性可显著加速RLC分段/排序进程。另外，APP650网络处理器还有一个重要特性，就是硬件辅助多字段数据包分类。数据包分类可能占用很多CPU资源，但在APP650网络处理器上数据包分类非常高效。

APP650状态引擎提供了跟踪数据包相关状态的机制。在RLC处理中，我们用该引擎跟踪RLC连接状态。举例来说，与每个RLC连接相关的12位序列号都是状态引擎所跟踪的协议状态的一部分。

在APP650网络处理器中，硬件将软件作为子例程调用，就缓冲管理、流量整形/调度和数据包修改提供决策。软件运行在基于超长指令字（VLIW）架构的三个计算引擎上。缓冲管理计算引擎强制执行数据包丢弃策略并保持排序统计数据。流量整形器引擎确定每个队列的服务质量（QOS）和服务等级（COS）处理。流编辑器计算引擎执行协议数据单元（PDU）修改。APP650网络处理器的硬件辅助流量管理支持成千上万队列的确定性流量管理行为，同时还提供了一个框架，通过C编程语言子集进行流量管理算法定制。由于流量管理功能由不同引擎执行，因此分类工作负载不会影响流量管理的确定性。

与此形成对比的是，CPU架构要在支持数据包处理应用的同一处理器池上或在一个单独分配的内核上执行流量管理算法。这两种情况都会造成硬件资源在确定性方面利用不充分。此外，软件程序员还要负责流量管理解决方案开发的各方面工作。APP650架构通过硬件框架消除了上述各种复杂问题，软件程序员只需做出流量决策。

APP650架构的构建使软件开发人员不用考虑硬件多线程和并行处理的问题。因此，APP650架构所需较少的软件编程，相对于现有的CPU无线用户平面解决方案而言能大幅提高吞吐量。

LSI提供了丰富的软件开发环境，包括确保周期精度的仿真器，可用作功能调试和应用性能分析。此外，仿真器工具还能用来确定不同硬件资源的利用。

将CPU从RLC分段/级联任务中释放出来

根据所需可靠性的不同，RLC可分为三种不同的工作模式。我们在本文中只讨论RLC确认模式（AM）。RLCAM模式通过自动重复请求（ARQ）协议来提供可靠的通信。

在RNC下行方向上，发送器执行SDU的分段和级联任务。RLCSDUs可映射至RLCPDUs，发送并置于重传队列中。在不同条件下，发送器可生成状态报告并反馈给对等RLC。状态报告可作为独立的RLCPDU发送，如果有足够的填充码的话，它也可附带在数据PDU末端上。

在RNC上行方向上，RLCAM实体从MAC层接收RLCPDUs。解码后提取RLC报头，并用于SDUs的重组。所有状态和控制PDU都经过处理，且相关信息将被发送至RLC发送端。发送端将根据接收到的状态PDU检查重传缓冲器。此外，RLC报头中的信息也可用于生成状态PDUs。

在CPU资源库中，RLC层的SDU与RLCPDU分段/级联会消耗大部分CPU资源。由于分段/级联以及重组能以高数据速率在所有RLC通道上执行，因此可将CPU从上述工作中释放出来，从而显著节约CPU资源。图4显示了RLC发送器的不同组件以及加速引擎和CPU集之间的分区。我们的目标就是将CPU从高带宽工作中释放出来。

在该设计方案中，RLC状态管理和控制仍由CPU资源库处理。对状态PDU进行处理，并将一系列命令重传给减负引擎（offloadengine）。

例如，在RNC发送器中断言RLCPDUPOLL位将导致RLC对等对状态PDU进行传输。状态PDU由RNCCPU资源库处理，随后加速引擎将接到指令，将RLCPDU从重传队列中释放出来，或向对等RLC重传PDU。

如图5所示，RLCSDU缓冲器将被保存在加速引擎中。由于CPU资源库不接收SDU，因而可通过SDU的减负、分类以及缓冲节约大量CPU资源。

流量控制是RLC协议的另一项功能。该功能使RLC接收器能够控制传输RLCPDU的对等的速率。流量控制逻辑在CPU资源库中实施，停止或恢复RLC通道的命令由该逻辑提交至加速引擎。

RLC分段/级联以及重组减负的性能分析

为了演示APP650网络处理器作为RLC加速引擎的功能并分析其系统性能，我们设计并实施了概念验证原型。在原型设计中，传输进来的RLCSDU可在APP650网络处理器中实现缓冲。在每一个传输时间间隔（TTI），对所有缓冲的SDU都进行分段和级联，并将RLCPDU传输至千兆以太网端口。随后，将RLCPDU回路返回至APP650网络处理器，并经过重组进程将SDU传回至测试设备。图5显示了测试配置情况。

最多可创建30，000个RLC连接，并可针对不同的SDU大小测量可持续吞吐量。可在在所有RLC连接上完成分段/级联以及重组。在所有实验中，均采用两个SDU突发长度进行定期突发。突发的时间间隔与TTI一致。在所有实验中，可将RLCPDU大小均设为100字节。

表1显示了SDU大小为142至442字节情况下的30，000个RLC通道的RLCSDU总吞吐量。请注意，无论SDU多大，所有30，000个通道的吞吐量均约为700Mb/s。这种决定性是通用处理器架构所无法实现的。对于30，000个连接而言，吞吐量受传输RLCPDU的千兆以太网接口带宽的限制，而与APP650的处理能力无关。预配置的RLC连接的数量不会影响吞吐量，这是因为所有RLC配置数据均保存在分类树中（查询延迟取决于模式大小，而非分类树中项目的数量），并且与RLC连接相关的所有状态均保存在状态引擎内部存储器中。

APP650仿真器可用于提供资源利用信息（表2）。结果显示了高RLC通道数情况下且总吞吐量达700Mb/s时的APP650上下文利用率。首处理（firstpass）和次处理（secondpass）上下文利用率分别为51%和10%，从而表明即便在此类极高的速率情况下，APP650网络处理器仍有进一步提高功能的足够空间。

结论

随着HSPA峰值数据速率不断提高，依靠一系列CPU内核来进行WCDMA用户平面处理的现有RNC平台已经不能满足流量工作负载提高的要求了。现有RNC平台的问题在于，用户平面处理（大多为数据处理）的性质不适用于通用CPU架构。无线用户平面处理要求对周期资源占用较高的功能进行优化，如RLC分段/级联和重组等。

本文介绍了一种可加速现有RNC WCDMA用户平面协议栈的方案，即让APP650网络处理器来完成RLC分段/级联和重组的工作。本文讨论了APP650架构的众多优势，如高效处理数据包的确定性等。仿真与原型设计表明，APP650网络处理器可为30KRLC通道提供高达700Mb/s的总吞吐量。对于高度灵活的RLC而言，我们能实现超过200Mb/s的单RLC通道峰值速率。

简言之，可将APP650网络处理器用作用户平面加速器，以解决当前RNC系统所面临的用户平面峰值和总速率等难题。

责任编辑：gt

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

处理器

处理器

+关注

关注
68

文章
18275

浏览量
222140
接收器

接收器

+关注

关注
14

文章
2214

浏览量
70658
cpu

cpu

+关注

关注
68

文章
10442

浏览量
206536

基于Sitara处理器工业以太网应用的快速启动系统解决方案

描述TI 提供用于在 Sitara 处理器上进行集成式多协议工业以太网通信的系统解决方案。各种工业以太网标准都定义了设备通电后的快速启动。该 TI 设计描述了系统级的方法来支持使用 TI

发表于 08-28 10:34

工业应用理想选择多核处理器

虑性能、实时能力和应用灵活性的情况下，AM57x处理器也是更好的解决方案。工业以太网网关对于每个工业网络都是不可或缺的，而性能与能够可靠地将Gb以太网数据传输至工业

发表于 09-04 10:07

针对电机控制最新网络化解决方案

针对电机控制解决方案，ADI提供了门类齐全的产品组合，其中包括了模数/数模转换器、放大器、嵌入式处理器、 iCoupler®数字隔离器、电源管理器件和实时以太

发表于 10-26 11:37

Beacon的定位技术解决方案

处理器，具备连接快速，低能耗等优点。模块集成度高，尺寸小，工作在从机模式。用户可以设置广播信息，支持同时广播3路不同的广播数据，支持标准Beacon及自定义Beacon数据两种格式。昇润科技作为资深

发表于 12-06 16:52

RS-485网络解决方案的稳定性演示

员必须确保设备不仅能在理想条件下工作，而且能够在实际可能遇到的恶劣环境下正常工作。我们的示例带有机械臂控制，并使用电子护栏增能器直接将真实浪涌脉冲施加在通信线路上，以此演示RS-485网络解决方案的稳定性。

发表于 06-20 07:20

WCDMA基站的测试解决方案介绍

两种技术(WCDMA与CDMA2000)也将会走进我们的生活，更加丰富国人对技术的选择性。然而，决定网络是否良好的一个关键因素便是其基站设备的射频性能。因此如何对其测试，便成为当前热点。对于3G的这三种技术，罗德与施瓦茨公司均可提供全面

发表于 07-24 06:33

在PIC32MZ处理器上执行32位FFT的最佳解决方案是什么？

Harmony中可用的dsp库时，FFT只有16位版本。换句话说，在PIC32MZ处理器上执行32位FFT的最佳解决方案是什么？许多蒂亚，保罗

发表于 08-08 10:49

机器学习实战：GNN加速器的FPGA解决方案

的 7nm FinFET 工艺，其架构采用革命性的新型 2D 片上网络（NoC），独创的机器学习处理器矩阵（MP），并利用高带宽 GDDR6 控制器、400G 以太网和 PCI E

发表于 10-20 09:48

关于基于网络处理器的核心路由器设计技术研究，不看肯定后悔

本文以Intel IXF2400网络处理器为例，讨论了网络处理器硬件结构和软件开发技术，并在此基础上提出了一种基于网络

发表于 05-27 07:07

GNN（图神经网络）硬件加速的FPGA实战解决方案

的7nmFinFET工艺，其架构采用革命性的新型2D片上网络（NoC），独创的机器学习处理器矩阵（MLP），并利用高带宽GDDR6控制器、400G以太网和PCIExpressGen5接

发表于 07-07 08:00

STM32网络的三大件

之前的推文已经将STM32网络的三大件讲完了①PHY接口，《STM32网络电路设计》②MAC控制器，《STM32网络之MAC控制器》③DMA

发表于 08-02 09:54

一种基于FPGA的图神经网络加速器解决方案

进行了优化的高性能FPGA器件，消除了基于中央处理器（CPU）、GPU和传统FPGA的解决方案中存在的若干性能瓶颈。Speedster7t系列FPGA产品采用了台积电（TSMC）的7nm FinFET

发表于 09-25 17:20

第十章爱立信的WCDMA-3G传输解决方案

传输网络分为接入传输网络和核心网络。接入传输网络包括:(a)节点B(RBS)和RNC之间的骨干(b)RN

发表于 06-01 11:28 •4次下载

华为WCDMA全网解决方案

华为WCDMA全网解决方案:本章首先介绍WCDMA系统不同版本之间演进过程，使读者对WCDMA制式有总体的认识；接着从具体的网络建设角度出发

发表于 09-18 16:32 •79次下载

网络处理器,什么是网络处理器

网络处理器,什么是网络处理器 网络处理器是将ASIC (专用集成电路)的速度和一个CPU结合起

发表于 04-03 14:10 •667次阅读

搜索历史

基于APP650网络处理器加速RNC WCDMA用户平面的解决方案

评论

基于Sitara处理器工业以太网应用的快速启动系统解决方案

工业应用理想选择多核处理器

针对电机控制最新网络化解决方案

Beacon的定位技术解决方案

RS-485网络解决方案的稳定性演示

WCDMA基站的测试解决方案介绍

在PIC32MZ处理器上执行32位FFT的最佳解决方案是什么？

机器学习实战：GNN加速器的FPGA解决方案

关于基于网络处理器的核心路由器设计技术研究，不看肯定后悔

GNN（图神经网络）硬件加速的FPGA实战解决方案

STM32网络的三大件

一种基于FPGA的图神经网络加速器解决方案

第十章爱立信的WCDMA-3G传输解决方案

华为WCDMA全网解决方案

网络处理器,什么是网络处理器