0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI新兴应用通过带可配置加速的片上系统器件来满足严格性能、效率需求

YCqV_FPGA_EETre 来源:YXQ 2019-08-06 16:07 次阅读

随着智能安全、机器人无人驾驶汽车等应用越来越依靠嵌入式人工智能技术来提高性能,交付全新的用户体验,传统计算平台上的推断引擎很难在有限的功耗、时延和物理尺寸限制下满足实际要求。推断引擎必须满足严格定义的推断精度,还受限于总线宽度,而且存储器难以为最佳速度、效率和芯片面积进行调整优化。我们需要灵活应变的计算平台来满足运行一流卷积神经网络 (CNN) 的嵌入式 AI 的要求。

放眼未来,适应于更多前沿神经网络的灵活性是我们的主要关注点。今天广受欢迎的 CNN 正加速被新型的先进架构所取代。然而,传统的 SoC 设计要使用当前的神经网络架构知识,从开发开始到未来部署通常需要大约三年时间。RNN 或 Capsule Network 等新型神经网络可能会让传统 SoC 变得低效,也难以提供保持竞争力所需的性能。

嵌入式 AI 要满足最终用户期望,特别是要跟上可预见的未来不断提升的需求,就必须采用更加灵活的自适应计算平台。我们可利用用户可配置的多核片上系统 (MPSoC) 器件,整合主应用处理器和可扩展的可编程逻辑结构,包含可配置的存储器架构和满足可变精度推断所需的信号处理技术,从而满足上述要求。

推断精度

在传统的 SoC 中,决定性能的特性如存储器架构和计算精确度等是固定的。最小值通常为 8 位,由核心 CPU 定义,不过就给定的算法而言最佳精度可能更低。MPSoC 支持可编程逻辑优化至晶体管层面,这就能根据需要让推断精度降低到 1 位。此外,这类器件还包含成千上万可配置的 DSP slice,能高效处理乘积累加 (MAC) 计算。

能自由优化推断精度,根据平方律提供刚好满足需求的计算效率,也就是说单位的运算用 1 位核心执行,相对于用 8 位核心完成相同计算而言,所需的逻辑仅为 1/64。此外,MPSoC 能让推断精度针对神经网络的每层做出不同优化,从而以最大的效率提供所需的性能。

存储器架构

除了通过改变推断精度来提高计算效率之外,配置可编程片上存储器的带宽和结构能进一步提高嵌入式 AI 的性能和效率。定制 MPSoC 相对于运行相同推断引擎的传统计算平台而言,片上存储器可能达到 4 倍多,存储器—接口带宽可能达到 6 倍。存储器的可配置性使得用户能减少瓶颈,并优化芯片资源的利用率。此外,典型的子系统只有有限的片上集成高速缓存,必须与片外存储设备频繁交互,这就会增加时延和功耗。在 MPSoC 中,大多数存储器交换都在片上进行,这就会大幅提高速度,而且相对于片外存储器交互而言功耗降低超过 99%。

芯片面积

解决方案的尺寸也越来越重要,特别就采用移动 AI 的无人机、机器人或无人/自动驾驶汽车而言尤其如此。MPSoC 的 FPGA 结构上实现的推断引擎可能仅占用传统 SoC 八分之一的芯片面积,这就能让开发人员在更小的器件中构建功能更强大的引擎。

此外,MPSoC 器件系列为设计人员提供了实现推断引擎的丰富选择,能支持最节能、成本效率最高、面积占用最小的方案,从而满足系统性能要求。一些通过汽车应用认证的部件具备硬件功能安全特性,达到业界标准的 ISO 26262 ASIL-C 安全规范,这对自动驾驶应用而言至关重要。比如赛灵思的 Automotive XA Zynq UltraScale+ 系列采用 64 位四核 ARM Cortex-A53 和双核 ARM Cortex-R5 处理系统以及可扩展的可编程逻辑结构,这就能在单个芯片上整合控制处理、机器学习算法和安全电路,同时提供故障容错功能。

今天,嵌入式推断引擎可用单个 MPSoC 器件实现,功耗低至 2 瓦,这对移动机器人或自动驾驶汽车而言都是比较合适的功耗水平。传统计算平台即便现在也无法用这么低的功耗运行实时 CNN 应用,未来也不太可能在更严格的功耗限制条件下满足更快响应和更复杂功能的日益严格的要求。基于可编程 MPSoC 的平台能够提供更高的计算性能,更高的效率,也能在 15瓦以上的功率水平下减小面积和减轻重量。

如果开发人员不能在自己的项目中轻松地实现这些优势,那么这种可配置型多平行计算架构的优势就仅限于学术领域。成功需要适当的工具来帮助开发人员优化目标推断引擎的实现。为了满足有关需求,赛灵思不断扩展开发工具生态系统和机器学习软件堆栈,并与专业合作伙伴合作,一起简化和加速计算机视觉和视频监控等应用的实现。

面向未来的灵活性

利用 SoC 的可配置性为手头应用创建最佳平台,也使得 AI 开发人员能够灵活地跟上神经网络架构快速发展演进的要求。业界可能迁移到新型神经网络的可能性,对于平台开发人员来说是一个巨大的风险。可重配置的 MPSoC 通过重配置并用当前最先进的策略来构建最高效的处理引擎,能够让开发人员灵活地响应神经网络架构方式的变化。

AI 越来越多地嵌入到各种设备中,包括工业控制、医疗设备、安全系统、机器人和自动驾驶汽车等。利用可编程逻辑结构的 MPSoC 器件的灵活应变加速技术,是提供保持竞争力所需的快速响应和高级功能的关键。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 赛灵思
    +关注

    关注

    32

    文章

    1794

    浏览量

    130510
  • AI
    AI
    +关注

    关注

    87

    文章

    26410

    浏览量

    264020

原文标题:灵活应变的加速是将人工智能从云端带到边缘的关键

文章出处:【微信号:FPGA-EETrend,微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Hitek Systems开发基于PCIe的高性能加速器以满足行业需求

    Hitek Systems 使用开放式 FPGA 堆栈 (OFS) 和 Agilex 7 FPGA,以开发基于最新 PCIe 的高性能加速器 (HiPrAcc),旨在满足网络、计算和高容量存储应用的
    的头像 发表于 03-22 14:02 155次阅读
    Hitek Systems开发基于PCIe的高<b class='flag-5'>性能</b><b class='flag-5'>加速</b>器以<b class='flag-5'>满足</b>行业<b class='flag-5'>需求</b>

    瞬变对AI加速卡供电的影响

    图形处理单元(GPU)、张量处理单元(TPU)和其他类型的专用集成电路(ASIC)通过提供并行处理能力来实现高性能计算,以满足加速人工智能(AI
    的头像 发表于 12-01 18:10 206次阅读
    瞬变对<b class='flag-5'>AI</b><b class='flag-5'>加速</b>卡供电的影响

    瞬变对AI加速卡供电的影响

    图形处理单元(GPU)、张量处理单元(TPU)和其他类型的专用集成电路(ASIC)通过提供并行处理能力来实现高性能计算,以满足加速人工智能(AI
    的头像 发表于 11-16 17:23 650次阅读
    瞬变对<b class='flag-5'>AI</b><b class='flag-5'>加速</b>卡供电的影响

    【KV260视觉入门套件试用体验】Vitis AI 构建开发环境,并使用inspector检查模型

    测评计划: 一、开箱报告,KV260通过网线共享PC网络 二、Zynq超强辅助-PYNQ配置,并使用XVC(Xilinx Virtual Cable)调试FPGA逻辑 三、硬件加速之—使用PL
    发表于 10-14 15:34

    多通道高性能视频采集与加速系统|2023集创赛紫光同创杯优秀作品

    性能的数据链路设计方案使FPGA可以通过高速PCI-Express接口与主机进行数据传输和通信,满足对高质量、实时的视频采集和处理的需求。 三、
    发表于 09-21 17:34

    【KV260视觉入门套件试用体验】5、简单几步体验Vitis AI

    和高层次 API 可实现自定义模型的极速部署l可配置的高效率 DPU 内核能够充分满足边缘及云端对吞吐量、时延和电源的不同需求关于该平台的详细介绍请参考:https://china.x
    发表于 09-18 21:54

    AI引擎上实现逐块可配置的快速傅里叶变换应用说明

    电子发烧友网站提供《在AI引擎上实现逐块可配置的快速傅里叶变换应用说明.pdf》资料免费下载
    发表于 09-13 11:48 7次下载
    在<b class='flag-5'>AI</b>引擎上实现逐块<b class='flag-5'>可配置</b>的快速傅里叶变换应用说明

    基于LSM303AGR的超紧凑高性能电子罗盘模块

    磁场检测的中断信号,并自动补偿由较高应用层产生的硬磁偏移。它可配置通过检测独立的惯性唤醒/自由落体事件以及通过器件自身的位置生成中断信号。中断发生器的阈值和时序可由终端用户动态设定。
    发表于 09-13 07:02

    平面磁件如何提高电力电子器件性能

    在竞争激烈的当今市场中,可再生能源、储能、电源适配器、电源充电器和数据处理应用需要具有更高功率密度的低成本、高效率解决方案提高性能,以满足不断增长的电信、汽车、医疗保健和航空航天行业
    发表于 09-06 06:38

    印刷电路板(PCB)可配置逻辑功能

    NXP 双 PCB 可配置器件是一款具有施密特触发器输入的多门、多功能逻辑器件。每个器件包含两个可配置门,每个
    发表于 08-29 14:04 318次阅读
    印刷电路板(PCB)<b class='flag-5'>可配置</b>逻辑功能

    Gaudi Training系统介绍

    ,这就转化为对训练系统高效扩展的日益增长的需求。 典型的深度学习训练算法包括多种类型的算子,这些算子加起来要进行数十亿次运算。这些大量的操作可以通过使用先进GPU提供的固有并行处理
    发表于 08-04 06:48

    ARM946E-S (Rev0) 系统DSP增强处理器产品概述

    )AHB(高级高性能总线)接口。它是ARM9E-S Thumb®系列高性能32位系统(SoC)处理器的一员,非常适合各种嵌入式应用。指令
    发表于 08-02 17:50

    智能网卡简介及其在高性能计算中的作用

    相关任务。因此,智能网卡通过处理网络操作提高整个系统效率。随着SmartNIC技术的不断发展,各种行业参与者积极提出先进的解决方案,以满足
    发表于 07-28 10:10

    GaN器件在Class D的应用优势

    ℃,同时用功率分析仪去监测系统效率系统效率能够维持在95.7%。 图5 100V-50V BUCK 100W工况器件温度 在Class
    发表于 06-25 15:59

    SPI的风格:汽车中的新兴协议

    SPI接口正在成为汽车应用中的热门选择,包括传感器、显示控制台、导航系统通过SPI闪存启动等等。SPI低引脚数和可配置时钟速率可满足新兴
    的头像 发表于 05-26 14:35 1483次阅读
    SPI的风格:汽车中的<b class='flag-5'>新兴</b>协议