0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么我们要在嵌入式设备越来越多地使用AI?

广州虹科电子科技有限公司 来源:智能感知解决方案 作者:虹科智能感知团队 2021-07-04 13:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

到目前为止,人工智能(包括训练和推理)主要为数据中心开发。随着“边缘AI”这个新兴领域的出现,这个趋势正在发生变化。在不久的将来,智能手机机器人无人机、监控摄像头和工业相机等设备都将配备AI处理功能。如果直接在成像设备上进行推理,事情就会变得有趣得多。离开了大数据中心,这种大功率技术如何在资源优化的嵌入式设备中高效及可持续地使用呢?目前,市场上已经有一些解决方案能够在边缘设备上有效加速神经网络。但在灵活度方面,只有少部分解决方案才能跟上快速发展的AI技术的步伐。

边缘智能

简单来说,通过神经网络和机器学习算法,边缘智能设备能够在网络“边缘设备上”完成推理任务。问题是,为什么我们要在嵌入式设备越来越多地使用AI以及为什么整个行业开始关注深度学习和深度神经网络?

对于这个问题,答案与AI本身无关,而与带宽、延时、安全性或者分散式数据处理这些话题相关。这就涉及到了现代工业4.0应用的核心主题和挑战。把大量传感器或者相机数据过滤或者转换成边缘设备上已有的可用信息,以减少共享通信信道的内在带宽竞争,是一项重要的任务。即时数据处理能够在图像捕捉设备上直接做出处理决定,不会出现数据通信延时。从技术或者安全性的角度而言,甚至很难实现与中央处理器(可能在云端)进行可靠、持续的通信。以这种方式在边缘设备上封装获得的数据有助于分散数据储存和处理,减少整个系统受到攻击的可能性。毕竟,生成和传输的数据安全性对于每个组织而言都至关重要。

分布式系统智能对作业相关的任务进行了清晰的区分。比如,一个工厂可能有几百个工位,每个工位都需要图像分类服务,对不同组的目标进行分析。但是,在云端托管多个分类器并非免费。节省成本的解决办法就是训练云端的所有分类器,把模型发送到边缘设备,这些边缘设备已根据各个工位的情况进行过调整。每个模型的性能比在所有工位做出预测的分类器更好。此外,相对于在实现数据中心这一功能,这种简单的方案还缩短研发周期。所有这些都表明应该将推理下放至边缘设备。

挑战

为什么“实际上”神经网络不适合嵌入式使用,“在边缘设备上”使用它们面临哪些挑战?在边缘设备上进行AI推理任务并不容易。总的来说,效率是边缘计算的核心。通常,边缘设备可用的计算、存储和能源资源都是有限的。因此,计算必须高效进行,同时在低延时的情况下提供高性能,这两者好像自相矛盾。我们也通过运行卷积神经网络(CNN)来解决这一矛盾。CNN以高密度计算而著称,处理一个输入时需要进行数十亿次计算。CNN架构本身需要数百万个参数描述,因此原则上并非边缘计算的理想候选方案。所谓的“参数高效”网络(如MobilNet、EfficientNet和SqueezeNet)由少量参数描述,适合嵌入式使用。这极大减少了内存和计算需求。不仅如此。为了进一步减少存储需求,必须压缩网络。例如,经过所谓的“剪枝”训练,可以删除不重要的参数,通过“量化”,也可以减少描述参数的位元数量。CNN内存减少对处理时间产生积极的影响。然后就是最后一个需要优化的层面。

虽然使用了参数高效和压缩网络,但是为了在边缘高效运行AI,必须继续使用一种为这些架构特别订制的计算系统。为此,需要考虑两个基本系统属性。除了已经提到的效率外,该系统还应具备灵活性以支持CNN架构的新技术发展。这一点很重要,尤其是在AI领域,每月都会研发出新的架构和层类型。今天的新技术明天可能就会成为昨日黄花。有哪些平台可供选择呢?

平台选择

基于CPU的系统无疑提供最大灵活性。但与此同时,在运行CNN时,CPU效率非常低,能耗也很高。

GPU通过并行计算核心以较高功率运行CNN。GPU在图像处理方面比CPU专业,而且还拥有较高的灵活性。然而,GPU能耗大,因此在边缘设备上运行会存在很多问题。

编程FPGA架构可以在现场重新配置,因此可以适应新的CNN架构。FPGA支持并行运行模式,因此能够高效运行。然而,FGPA编程要求具备较高程度的硬件知识。

作为定制的集成电路,全套ASIC解决方案在效率方面明显更胜一筹,因为它经过专门优化,能够有效执行给定的CNN架构。但是,如果新的或变更后的CNN架构得不到支持,灵活性就是一个问题。

FPGA技术具有“高性能,灵活和节能”等优势,因此在当前AI开发阶段,最适合用来在边缘设备上实现CNN加速器。

对于特殊的应用场合或CNN,通过新的配置文件更新即可在设备运行期间随时对它进行修改这一特点,使其成为一种可以长期使用的解决方案,因此,它适合工业应用场合。使用FPGA技术的最大挑战就是编程复杂,只能由专业人士完成。

开发策略

为了在“视觉边缘设备”(即:IDS NXT相机)中运行神经网络,我们决定在FPGA技术的基础上开发CNN加速器。我们称它为“深海核心”。但是为了以后尽可能简单地使用FPGA,我们只开发一种通用架构,而不是为了不同的CNN类型开发几种专门优化的配置。如果CNN由受支持的层组成,加速器能够运行任何CNN网络。然而,因为所有的常规层(卷积层、附加层、各种池化层或压缩激励层)已经得到支持,所以几乎所有重要的层类型都能使用。这就完全解决了编程困难的问题,因为用户不需要任何专业知识就能创建新的FPGA配置。通过对IDS NXT相机进行固件更新,深海核心不断进化以支持CNN领域发生的新变化。

深海核心

通用CNN加速器如何运作?要运行一个受训的神经网络,哪些步骤是必要的?加速器只需要一种显示构成CNN网络各层的“二进制描述”。这也不需要编程就能实现。但是,经过Keras训练的神经网络处于一种加速器无法理解的特殊的“Keras高级语言”状态。因此,必须将神经网络转换为类似“链表”的二进制格式。CNN网络的每一层都变成节点端描述符,对各层进行精确地描述。最终结果是CNN(以二进制表示)的完整串联列表。整个转换过程由工具自动化完成。不需要任何专业知识。生成的二进制文件会进入相机的内存并由深海核心进行处理。CNN网络现在就可以在IDS NXT相机上运行。

运行的灵活性

将CNN表示作为链表在加速器灵活性方面具有明显的优势。它可以实现在动态网络之间随时无缝切换,而且还没有延迟。相机的工作内存可以加载数个以“链表”形式存在的不同神经网络。选择要运行的CNN之前,深海加速器必须指向其中一个表的起始位置。唯一要做的是更改其中一个表内存的“指针值”。FPGA寄存器的这种简单写入操作随时都可以快速进行。

以下示例解释了快速切换CNN网络的重要性。比如您的一条产品线同时运行两种类型的产品。而您想要检查产品质量。首先确认产品位置,然后在已确认的产品类别基础上,根据产品特定的缺陷对质量进行分类。

要解决该任务,可以通过对各个产品组的所有潜在失败案例进行预训练,从而训练庞大的CNN网络来找到对象并同时对它们分类。这个方法成本高昂,还会增加网络规模并且可能导致运行缓慢,但是确实可行。它的难点在于如何达到足够的精确度。凭借随时可以改变主用CNN网络这一特性,您可以将不同目标的本地化和分类区分开,结果是单个CNN更容易训练。要识别对象,您只需区分两个分类并提供它们的位置。对于产品相关的属性和缺陷分类,需额外训练两个网络。根据本地化的产品,相机应用程序会自动决定要激活哪个分类网络,以确定相应的产品质量。通过这种方法,边缘设备处理的任务变得相对简单,参数也很少。结果就是,单个网络规模大幅缩小,需要区分的功能也减少很多,导致效率提升,能耗减少,非常适合在边缘设备上执行。

性能强,效率高

IDS NXT推理相机中基于FPGA的CNN加速器通过带64位计算核心的Xilinx Zynq Ultrascale SoC来运行。很多知名图像分类网络(例如MobileNet、SqueezeNet或EfficientNet)可以达到每秒67帧的帧率。对于边缘计算而言,有些网络架构(Inception 或ResNet)被认为过于复杂,但是也能达到每秒20帧,已经能够满足很多应用程序的需要。FPGA能够进一步开发深海加速器的性能。固件更新对所有现场的相机都有利。

然而,对于边缘计算来说,更为重要的是能效。它表示每使用一瓦电,系统每秒可以处理的图像数量。因此能效对于比较不同边缘解决方案而言是一个很好的指标。以下图表比较了不同的CNN加速器。

实现FPGA的深海核心,配备Jetson TX 2A的GPU 解决方案,配备最新Intel Core-i7 CPU的传统CPU解决方案,Raspberry Pi嵌入式CPU解决方案以及以Intel Movidius AI芯片为代表的ASIC解决方案。

一体化推理相机解决方案

为了使基于FPGA的CNN加速器更易于使用,虹科提供了完整的推理相机解决方案,让每个人都可以轻松使用这种技术。无需任何在深度学习,图像处理或相机/FPGA编程方面的任何专业知识,用户即可训练和运行神经网络,并且可以立即启用基于AI的图像处理。简单上手的工具降低了入门门槛,让用户在几分钟内就可以创建推理任务并立即在相机上运行。整个概念不仅涉及智能相机平台虹科 NXT(配备以FPGA技术为基础的CNN加速器“深海核心”),还包括易用的神经网络训练软件。所有组件均由虹科合作伙伴IDS直接开发,可实现完美协作。这不仅简化了工作流程,还提高了整个系统的效率。

可持续的边缘智能

本文列举的所有神经网络加速方案都有各自的优点和缺点。如果终端用户必须处理必要的组件以便将AI用于机器视觉任务,则倾向于他们使用完全集成的AI加速器,例如Intel Movidius。即用型芯片解决方案效率高,能够实现只有大批量采购才能获得的单价,并且由于存在大量的功能文档记录,因此可以快速、相对轻松地集成到系统中。但是,有一个问题。AI环境如今发展势头强劲,日新月异,而即用型芯片解决方案开发周期过长。为了开发在今天能够普遍使用并且高度灵活的“边缘智能”,系统组件必须满足其他要求。FPGA集灵活性、性能、能效和可持续性于一身。毕竟,衡量工业产品的一个最重要的标准就是“工业适用性”,而确保“工业适用性”的因素包括长期可用性和简单以及长期的可维护性。如今,易用的虹科NXT推理相机平台与FPGA CNN加速器相结合,提供了一种可持续的边缘智能端到端解决方案,使终端用户无需担心单个组件和AI更新。

责任编辑:lq6

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 嵌入式
    +关注

    关注

    5209

    文章

    20656

    浏览量

    337026
  • AI
    AI
    +关注

    关注

    91

    文章

    41107

    浏览量

    302593

原文标题:虹科智能感知 | 未来AI的推理加速器

文章出处:【微信号:Hongketeam,微信公众号:广州虹科电子科技有限公司】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MathWorks 加入 EDGE AI FOUNDATION,推进面向工程化系统的嵌入式 AI 发展

    嵌入式设备,并通过系统级仿真验证其性能。 EDGE AI FOUNDATION 执行董事 Pete Bernard 表示:“MathWorks 的加入将进一步强化我们让边缘
    的头像 发表于 04-17 15:46 113次阅读

    RZ/V2M:助力嵌入式设备的Vision AI高性能芯片

    RZ/V2M:助力嵌入式设备的Vision AI高性能芯片 在当今嵌入式设备飞速发展的时代,Vision
    的头像 发表于 04-01 13:50 191次阅读

    嵌入式AI开发必看:杜绝幻觉,才是工业级IDE的核心底气

    中难以被发现,一旦上线将直接导致设备停机、产线瘫痪,甚至引发安全事故。 ▌传统IDE校验能力缺失:当前主流嵌入式IDE缺乏针对工业场景的专业校验逻辑,无法验证AI代码在实时性、可靠性、硬件兼容性等方面
    发表于 03-18 13:49

    快问快答:为什么越来越多海外客户选择中国国产气密性检测品牌?

    如果把时间拉回十年前,「中国检测设备」在海外市场常被贴上几个标签:•成本导向•用于辅助或低端环节•难以长期稳定运行而今天,越来越多海外客户正在主动指定或优先评估中国气密性检测品牌。这种转变,并非偶然
    的头像 发表于 02-27 11:54 380次阅读
    快问快答:为什么<b class='flag-5'>越来越多</b>海外客户选择中国国产气密性检测品牌?

    嵌入式系统安全设计原则

    随着物联网、工业控制和智能设备的普及,嵌入式系统的安全问题越来越突出。一个小小的漏洞,就可能导致设备被入侵、数据泄露,甚至对人身安全产生威胁。因此,从设计阶段开始就考虑安全,是每一个
    的头像 发表于 01-19 09:06 475次阅读
    <b class='flag-5'>嵌入式</b>系统安全设计原则

    嵌入式软件测试找bug的常见方法和秘诀

    对可靠性的要求比较高。嵌入式系统安全性的失效可能会导致灾难性的后果,即使是非安全性系统,由于大批量生产也会导致严重的经济损失。这就要求对嵌入式系统,包括嵌入式软件进行严格的测试、确认和验证。随着
    发表于 01-12 07:07

    arm嵌入式主板优缺点

    嵌入式主板是嵌入设备里面做控制、数据处理使用的CPU板 ,常见的有两类,即基于X86的嵌入式主板和基于RISC的ARM 嵌入式主板。今天
    发表于 01-08 07:08

    【深圳】嵌入式AI实战:半天上手,人形检测模型部署+优化全流程

    我们举办一场纯干货的嵌入式AI实战培训!全程动手操作,半天时间让你从零上手,完成AI模型的部署与优化。为什么值得你来?现场提供硬件:无需自带设备
    的头像 发表于 12-16 18:31 76次阅读
    【深圳】<b class='flag-5'>嵌入式</b><b class='flag-5'>AI</b>实战:半天上手,人形检测模型部署+优化全流程

    嵌入式AI现在如何?

    这几年嵌入式AI的渗透真是越来越明显了,就像不知不觉间蔓延开来的水迹,润物细无声地融进了我们手边常用的物件里。你低头看看手里的手机,它已经不声不响地成了个本地
    的头像 发表于 11-26 10:38 1195次阅读
    <b class='flag-5'>嵌入式</b><b class='flag-5'>AI</b>现在如何?

    嵌入式与FPGA的区别

    ,现在招聘的岗位虽然越来越多,但需要本科以上理工类相关专业才行,而大厂更是要985/211的相关专业的硕士,因此fpga的门槛很高,可替代性差; 如果是嵌入式与FPGA要选一个,个人是比较建议嵌入式的。但具体要选哪个,更多还是看
    发表于 11-20 07:12

    嵌入式开发的关键点介绍

    嵌入式开发在现代科技中扮演着非常重要的角色。随着物联网的发展,嵌入式系统的需求也越来越大。嵌入式开发不仅需要开发人员具备深入的硬件知识和编程经验,还需要不断学习新的技术和工具,以满足不
    发表于 11-13 08:12

    为什么越来越多的场所选择智能闸口控制系统?它有哪些优势?

    在物流行业快速发展的今天,传统人工闸口已难以满足高效通行的需求。智能闸口控制系统凭借AI、物联网等先进技术,正逐渐成为港口、物流园区、海关等场所的首选方案。那么,智能闸口究竟有哪些优势,让越来越多
    的头像 发表于 08-14 10:56 551次阅读

    RK3576 vs RK3588:为何越来越多的开发者转向RK3576?

    电子RK3576低功耗、低成本、墨水平板优化 IoT/嵌入式设备RK3576能效比高,长期运行稳定 高端工控/边缘计算RK3588四通道内存,高带宽需求 RK3576 的核心优势:✅ 功耗极低(1.2W
    发表于 05-30 08:46

    嵌入式应用中常见的安全威胁

    越来越多嵌入式设备存在互联需求,在安全应用开发中,除功能安全外,应用还需考虑信息安全。
    的头像 发表于 04-28 14:45 1307次阅读
    <b class='flag-5'>嵌入式</b>应用中常见的安全威胁

    飞凌嵌入式2025嵌入式及边缘AI技术论坛圆满结束

    飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术领域的技术专家、企业代表和工程师用户,共享
    的头像 发表于 04-28 13:57 4344次阅读
    飞凌<b class='flag-5'>嵌入式</b>2025<b class='flag-5'>嵌入式</b>及边缘<b class='flag-5'>AI</b>技术论坛圆满结束