0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于密集、在轨、基于边缘的计算的微处理器和 FPGA

FPGA设计论坛 来源:未知 2023-04-12 13:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群


卫星运营商越来越多地获取越来越多的在轨数据,并且更愿意在有效载荷上处理这些数据以提取增值洞察力,而不是将大量信息下行传输到云端进行地面后处理。现有空间级半导体技术和/或 RF 带宽限制限制了可实时处理的数据量。我知道有几个客户由于这两个原因不得不取消他们的使命愿望,因为他们的下行链路需求会违反 ITU 规定。
相比之下,尽可能靠近原始数据源(即在边缘)的本地化处理是基于对来自多个
传感器的大量信息的实时计算,这些信息是使用低延迟、确定性的接口在一个小的、具有独特散热和可靠性要求的低功耗外形。在轨提取分析显着减少了延迟和 RF 下行链路带宽——我们正在有效地将数据中心移动到原始数据的!
在这篇文章中,我想讨论和比较微处理器FPGA 在边缘进行密集的板载处理。一些应用程序从具有不同带宽的多个传感器(例如RF、LIDAR、成像和 GNSS)获取大量数据,并且需要实时做出关键决策,例如,物体的识别和分类以实现航天器态势感知,即,敌我识别、空间碎片碰撞规避、高清视频原位对地观测与太空探索、资源利用。使用机器学习技术提取在轨分析的自主机载处理也有增加的趋势。
现有解决方案和局限性
当前的机载处理基于微处理器或 FPGA,两者都没有针对物体的 AI在轨表征进行优化。前者有利于控制、复杂的决策制定和操作系统支持,而后者可以处理各种计算要求苛刻的算法,在数据移动、自定义加速、面向位的功能和接口方面表现出色。然而,现有解决方案无法有效地处理线性代数、矩阵或矢量处理,也无法以低功耗利用并行性进行自主机器学习、AI 推理以及神经网络的实施以进行特征检测和分类。
在商业领域,初为游戏玩家开发的 GPU 正被用于加速各种计算任务,包括加密、金融建模、网络和人工智能。GPU 使用多核和并行处理来同时执行数千个线程,与微处理器相比运行速度明显更快且更具成本效益,允许在毫秒而不是秒、分钟或小时内计算来自多个传感器的数据密集型分析。GPU 针对大量存储信息非常快速地反复执行相同的操作进行了优化,而 CPU 往往会到处跳跃。

虽然有近三十种空间级微控制器、微处理器、FPGA 和专用 DSP 引擎,但只有一小部分可以考虑用于在轨基于边缘的应用程序。许多现有设备不具备计算能力或低延迟内存/I/O 接口。有些消耗太多功率,需要大型且昂贵的热管理解决方案:之前我描述了如何使您的空间级半导体保持冷却,以确保它们的安全运行并限度地提高可靠性。表 1 列出了我考虑过的遗留标准处理产品。对于下面列出的 FPGA,指定性能是基于资源数量和时钟频率的理论峰值。V5QV 不包含标准的微处理器 IP。

表 1现成的航天级机载处理解决方案。
随着机载数据量预计呈指数级增长,您应该使用哪种类型的处理器来进行密集型、基于边缘的机载计算?MPU 好还是 FPGA 好?ESA 近关于机载数据处理的 研讨会强调了当前的担忧、趋势和未来的需求。
阻碍在轨边缘处理的基本技术限制是:
缺乏大容量、低延迟、低功耗的太空级内存。目前,快速空间级存储仅限于易失性 DDR3/DDR4 SDRAM。之前,我解释过要实现 1Tb 的板载存储需要 64、16Gb 的芯片,总共消耗 17W 的功率,需要 152.3cm 3 的物理空间和 468,060 英镑的财务成本。这在任何级别上都不是一个可行的实现,并且空间限定的非易失性内存非常慢。
缺乏用于提供所需处理能力的空间应用的高能效微处理器或 FPGA。在过去十年中,基于 65 和 20 纳米 SRAM 的 FPGA 提供了消耗 20 W 的有效负载处理,而基于 28 纳米闪存的设备提供了更低功耗的解决方案。超深亚微米性能、逻辑密度和资源导致消耗增加。具有所需原始性能的空间级 MPU 的功耗超过 30 W。
现有的航天级微处理器或 FPGA 无法有效地融合和处理来自多个传感器的输入。将大量信息移入和移出处理器会造成数据密集型计算的性能瓶颈。
现有的太空级微处理器或 FPGA 无法有效地实施用于对象识别和分类的深度学习算法。
基于边缘处理的新解决方案
为了实现那些需要在轨、基于边缘、机载处理的应用,的 FPGA 和微处理器正在解决上述限制:
快速(高达 2,400 MT/s)、4 GB、空间级 DDR4 内存的小尺寸可用性,我在之前的文章中对此SDRAM的硬件设计进行了介绍。
低功耗 28 nm 闪存 FPGA 的可用性降低了功耗,更节能的微处理器提高了 GFlops / W 指标。
自 2020 年以来,Teledyne e2v 的耐辐射 QLS1046-4GB 计算密集型微处理器包括数据路径加速架构 (DPAA),以增加数据包解析、队列管理、硬件缓冲区管理和加密,并支持 IEEE 1588 精度时间协议。同样自 2020 年以来,Xilinx 的XQRKU060改进了信息流和吞吐量,数据路径、I/O 和内存接口针对低延迟进行了优化。
下一代 7 纳米 FPGA 包含专为处理线性代数而优化的 AI 模块,可加速深度学习算法的性能。QLS1046-4GB 的四个内核均包含原生矢量协处理器,例如。氖。

表 2 包括的航天级 FPGA 和微处理器:前者结合了可重构逻辑、MPU,而下一代部件将包含用于高效矢量处理的 AI 块。对于以绿色列出的 FPGA/MPSoC,指定性能是基于资源数量和时钟频率的理论峰值。实际计算水平会较低,具体取决于这些计算的使用方式、实现方式、内存和 I/O 使用情况,但表 2 提供了一个有用的比较,包括软核 RISC CPU。KU060 和 Versal 器件的高度并行特性反映在它们的大 TOPS 值中。

表 2航天级机载处理解决方案的比较。
随着机载数据量的显着增加,使用人工智能和机器学习技术进行自主有效载??荷处理的趋势越来越明显,可以为时序关键型和非实时应用提取在轨分析。例如,在其地面站覆盖范围之外的空间碎片回收航天器将无法接收到启动避碰操作的延迟命令。从多个传感器获得机载态势感知,然后进行对象检测和分类,将允许实时做出这种时间关键的决定,而无需人工干预。同样,高清 SAR 图像生成大量地球观测数据,而不是阻塞宝贵的 RF 下行链路,在轨人工智能推理和神经网络的实施将允许进行特征识别、场景分割和表征。
传统计算侧重于处理已知问题,即可以轻松描述的问题。另一方面,深度学习就是解决你无法解释的问题,例如,识别图像中的对象,并且随着时间的推移会变得更好。机器学习通常分为两个阶段:训练和推理。精心策划的数据被输入模型,并调整变量以产生特定的预测。这需要线性代数、矩阵和矢量运算,然而,现有的解决方案无法有效地执行这些操作,也无法在低功耗下利用并行性。虽然的微处理器和 FPGA 的原始处理能力可能已经足够,但这些设备在关键的延迟方面存在不足。在存储和 CPU 之间移动数据会给数据密集型应用程序带来性能瓶颈。
Teledyne e2v 提供其耐辐射Qormino QLS1046-4GB 四核处理器,结合了四个运行频率高达 1.8 GHz 的 ARM ? Cortex A72 内核和 4 GB 快速 DDR4 SDRAM,外形小巧,44 x 26 毫米,如下图所示. 将片外
存储器与多个 CPU 集成到单个基板上,无需设计这种复杂的时序关键接口,提供显着的尺寸、重量和功率 (SWaP) 优势,以实现在轨边缘处理。该部件提供 30,000 DMIPS 或超过 45,000 CoreMarks 的计算性能。

四个 MPU 执行 ARMv8-A 架构,每个都有自己的 L1 32KB 数据缓存和 48KB 指令缓存,并共享一个公共的 2MB L2,如图 2 所示。频率为 1.2 GHz,电源电压为1 V 和 1.6 GT/s 的 DDR 速率,QLS1046-4GB 的总功耗范围为 6.5 至 12 W(不包括外围设备),具体取决于允许结温。同样,在 1.8 GHz、1 V 的电源和 2.1 GT/s 的 DDR4 速率下,该设备的功耗为 9.3 至 19.4 W。其原始计算性能与内存带宽一起避免了 I/O 瓶颈和小尺寸差异化QLS1046-4GB 来自表 1 中列出的解决方案。

图 1 Qormino QLS1046-4GB 处理器和内存 [Teledyne e2v]。

Teledyne e2v 的耐辐射处理器路线图将包括新的、多核、基于 ARM ?的 MPU,能够连接到更大量的快速 DDR4 SDRAM。更多的将允许计算与并行执行的任务分开。可在此处查看描述使用 QLS1046-4GB 进行深度学习的个用例。

图 2 Qormino QLS1046-4GB 框图。
9 月,Xilinx 宣布将发布其 Versal ACAP(自适应计算加速平台)的抗辐射版本。该器件包含一系列 AI 引擎,包括 VLIW SIMD 高性能内核,包含用于定点和浮点运算的矢量处理器、标量处理器、专用程序和数据存储器、专用 AXI 通道以及对 DMA 和锁的支持。

AI tile 提供多达 6 路指令并行性,包括两个/三个标量操作、两个向量读取和一个写入,以及每个时钟周期的一个固定或浮点向量操作。数据级并行性是通过矢量级操作实现的,其中可以在每个时钟周期的基础上操作多组数据。与的 FPGA 和微处理器相比,AI 引擎将机器学习算法的性能分别提高了 20 倍和 100 倍,功耗仅为其 50%。与表 1 中列出的现成处理解决方案相比,AI 块是实现智能、自主、在轨边缘处理的关键区别特征。

图 3 Xilinx 的 Versal ACAP [Xilinx] 的框图。
结论
对于我目前正在开发的应用程序,哪种类型的板载处理器更好?FPGA、微处理器还是 ACAP?很大程度上取决于算法的实现方式,例如片上缓存的使用、外部存储器访问的数量和频率、流水线、并行化和缓冲。的太空级设备可以超越商用 GPU,同时还能实现更高的功率和价格效率。
对于高清 SAR 视频,QLS1046-4GB 的原始计算性能及其快速的内存接口和小巧的外形使其适合从地球观测成像数据中提取实时信息。高达 2.1 GHz 的 DDR4 速率避免了传统的 I/O 瓶颈。
对于态势感知,例如,为了识别朋友或敌人,或避免空间碎片碰撞,的 FPGA(如 KU060)能够实时摄取和处理来自多个传感器的 Tbps 数据,低延迟,以交付 ASIC一流的系统级性能。同样对于原位太空探索,资源利用。FPGA 处理一组不同的计算要求高的算法,在数据移动、自定义加速、面向位的功能和接口方面表现出色。
对于对象分类、AI 推理和自主决策制定,以实现特征识别,以便根据实时交通需求对碎片回收航天器或可重新配置的认知转发器进行后期指挥,Xilinx 的 ACAP 将产生效的基于边缘的矢量计算解决方案。神经网络的实施需要 Versal 提供的 TeraOPS 性能和特定领域的并行性。这些 7 nm 设备可能会耗电,因此请检查早期的功率预测
电子表格以确保它们符合您分配的预算。QLS1046-4GB 可以以更低的功耗和更少的财务成本提供深度学习。
航天级微处理器、FPGA 和 ACAP 是互补的机载处理技术,每种技术都具有独特的优势。在轨,基于边缘的处理需要实时计算从数据源处的多个传感器获取的大量信息,需要低延迟、确定性的接口,采用小型、低功耗外形,具有独特的散热和可靠性要求.
在为密集型在轨边缘计算选择合适的机载处理器时,还需要考虑上市时间、实施和采购方面的考虑,例如,FPGA 通常需要比微处理器更多的电源轨,这意味着需要更多的
稳压器,因此需要更大的 PCB 来容纳它们。FPGA 还享有更难设计的名声。对于某些项目,入轨时间可能非常短,原始设备制造商将坚持使用熟悉供应商的现有设备以加快硬件设计。一些制造商没有技能或时间来学习新的开发工具或不同的编程语言。的超深亚微米、太空级 FPGA 的六位数价格也是许多 OEM 的障碍,尤其是那些以低成本、NewSpace 应用为目标的 OEM。
下一代在轨边缘处理将结合微处理器、FPGA 和智能计算,形成一个紧密集成的异构平台。需要多种引擎类型,因为没有一种引擎能够以方式执行应用程序所需的所有任务。标量微处理器是控制、复杂决策制定和操作系统支持的理想选择,可重新配置的 FPGA 增加了处理各种要求苛刻的算法的灵活性,而智能引擎则优化了线性代数和矢量算法的计算,以用于机器学习和人工智能推理。

以下雷达图(图 4)比较了 QLS1046-4GB、的超深亚微米、航天级 FPGA 和用于在轨、基于 EDGE 的处理的 ACAP:

图 4: 板载处理解决方案的比较。







精彩推荐



至芯科技-FPGA就业培训来袭!你的选择开启你的高薪之路!3月28号北京中心开课、欢迎咨询!
不使用处理器控制 FPGA 总线
车用芯片告急!什么是车规级芯片(图解)
扫码加微信邀请您加入FPGA学习交流群




欢迎加入至芯科技FPGA微信学习交流群,这里有一群优秀的FPGA工程师、学生、老师、这里FPGA技术交流学习氛围浓厚、相互分享、相互帮助、叫上小伙伴一起加入吧!


点个在看你最好看







原文标题:用于密集、在轨、基于边缘的计算的微处理器和 FPGA

文章出处:【微信公众号:FPGA设计论坛】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1655

    文章

    22286

    浏览量

    630295

原文标题:用于密集、在轨、基于边缘的计算的微处理器和 FPGA

文章出处:【微信号:gh_9d70b445f494,微信公众号:FPGA设计论坛】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    应对微处理器电源失稳,有它就够了—CBM809X系列

    CBM809X系列是芯佰微电子推出的高性能微处理器监控电路,专为保障数字系统电源可靠性设计,其核心功能是实时追踪供电电压状态,通电、断电及电压波动等全生命周期场景下输出稳定复位信号,确保微处理器
    的头像 发表于 10-29 13:10 2741次阅读
    应对<b class='flag-5'>微处理器</b>电源失稳,有它就够了—CBM809X系列

    STM32MP2微处理器技术深度解析:面向工业4.0的边缘计算核心

    STMicroelectronics STM32MP2微处理器是第二代MPU,通过64位平台提供高性能。 STMicroelectronics STM32MP2器件专为实现工业环境中的稳健性而定
    的头像 发表于 10-21 11:04 427次阅读
    STM32MP2<b class='flag-5'>微处理器</b>技术深度解析:面向工业4.0的<b class='flag-5'>边缘</b><b class='flag-5'>计算</b>核心

    基于瑞萨RZ/G2L微处理器的Ubuntu系统移植指南

    RZ/G2L微处理器配备Cortex-A55(1.2GHz)CPU、16位DDR3L/DDR4接口、带Arm Mali-G31的3D图形加速引擎以及视频编解码(H.264)。此外,这款微处理器
    的头像 发表于 10-15 06:53 7634次阅读
    基于瑞萨RZ/G2L<b class='flag-5'>微处理器</b>的Ubuntu系统移植指南

    PIC64GX1000 RISC-V MPU:一款面向嵌入式计算的高性能64位多核处理器

    Microchip Technology PIC64GX1000 64位RISC-V四核微处理器 (MPU) 支持Linux^®^ 操作系统,基于RISC-V指令集架构,提供高效节能的嵌入式计算平台
    的头像 发表于 09-30 14:47 508次阅读
    PIC64GX1000 RISC-V MPU:一款面向嵌入式<b class='flag-5'>计算</b>的高性能64位多核<b class='flag-5'>处理器</b>

    瑞萨电子RZ/V系列微处理器助力边缘AI开发

    边缘AI越来越多地应用于诸如工业摄像头和公共设施摄像头等嵌入式设备中,并要求嵌入式产品小型化且具有低功耗。瑞萨电子RZ/V系列微处理器(MPU)内置AI加速,即动态可重构
    的头像 发表于 09-23 10:31 580次阅读
    瑞萨电子RZ/V系列<b class='flag-5'>微处理器</b>助力<b class='flag-5'>边缘</b>AI开发

    瑞萨RZ/G2UL微处理器引脚复用分析方法

    RZ/G2UL微处理器配备Cortex-A55(1.0 GHz)CPU、16位DDR3L/DDR4接口以及简单的LCD控制。此外,这款微处理器还配备有大量接口,如摄像头输入、显示输出、USB 2.0和千兆以太网,因此特别适
    的头像 发表于 06-19 11:16 1608次阅读
    瑞萨RZ/G2UL<b class='flag-5'>微处理器</b>引脚复用分析方法

    低功耗微处理器复位检测电路D706

    1、概述:      近年来,微处理器IT业控制领域和智能化产品中得到了广泛的应用。系统和产品的开发设计过程中。为了提高其抗干扰能力,使用uP监控是首选技术措施之一。监控芯片可为系统提供上电
    的头像 发表于 06-10 14:49 518次阅读
    低功耗<b class='flag-5'>微处理器</b>复位检测电路D706

    Condor使用Cadence托管云服务开发高性能RISC-V微处理器

    Condor 是一家美国初创企业,致力于开发高性能 RISC-V 微处理器。公司的目标是通过创新技术彻底革新整个行业,打破高性能计算的极限。
    的头像 发表于 05-08 09:03 812次阅读

    边缘计算 到云端计算

    边缘计算与云端计算的区别与联系   一、核心区别‌ 数据处理位置‌ 边缘计算‌:
    的头像 发表于 03-27 08:30 665次阅读
    从<b class='flag-5'>边缘</b><b class='flag-5'>计算</b> 到云端<b class='flag-5'>计算</b>

    支持低功耗模式和 PCI Express的通用微处理器RZ/G3S数据手册

    RZ/G3S 微处理器包括 Arm® Cortex®-A55 (1.1 GHz) CPU、16 位 LPDDR4 或 DDR4 接口和低功耗模式。此外,这款微处理器还配备大量接口(如 PCIe
    的头像 发表于 03-13 14:21 809次阅读
    支持低功耗模式和 PCI Express的通用<b class='flag-5'>微处理器</b>RZ/G3S数据手册

    物联网边缘计算网关的特点

    计算网关的特点。 一、强大的数据处理能力 物联网边缘计算网关配备了高性能的处理器和充足的内存资源。这使其能够
    的头像 发表于 01-23 16:14 763次阅读

    AN58-用于微处理器系统的5V至3.3V转换

    电子发烧友网站提供《AN58-用于微处理器系统的5V至3.3V转换.pdf》资料免费下载
    发表于 01-09 13:50 0次下载
    AN58-<b class='flag-5'>用于</b><b class='flag-5'>微处理器</b>系统的5V至3.3V转换<b class='flag-5'>器</b>

    MPU微处理器的工作原理

    现代电子设备中,微处理器(MPU)扮演着至关重要的角色。从个人电脑到智能手机,再到嵌入式系统,MPU都是实现复杂计算任务的关键。 MPU的基本结构 MPU的核心是中央处理单元(CPU
    的头像 发表于 01-07 18:08 2202次阅读

    内存和微处理器的互联演变

    设计中,内存要求很简单,由用于操作的SRAM和满足非易失性存储要求的EPROM组成。20世纪80年代初,内存和微处理器之间的关系变得显而易见。摩托罗拉的MC68000系列和类似CPU等产品推动了对高容量内存的需求。与此同时,连
    的头像 发表于 12-24 13:45 947次阅读

    英特尔8080微处理器诞生50周年

    作为技术史上最重要的产品之一,8080被认为是第一款真正的通用微处理器
    的头像 发表于 12-23 14:00 1645次阅读