0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Lattice sensAI再获重大更新

电子工程师 来源:FPGA设计论坛 作者:FPGA设计论坛 2020-11-11 09:42 次阅读

从家庭控制中智能门铃和安全摄像头的存在检测,到零售应用中用于库存的对象计数,再到工业应用中物体和存在检测,越来越多的网络边缘应用正在不断推动新型AI解决方案面市。根据IHS Markit(现Omida)的预测,2018-2025年物联网设备数量将达到400亿,截至2022年,所有企业产生的数据中近50%会在传统数据中心或云端以外的地方进行处理。

但与此同时,市场一方面要求设计人员开发出性能比以往更高的解决方案;另一方面,延迟、带宽、隐私、功耗和成本问题又限制了他们依赖云的计算资源来执行分析。如何解决系统对于日益严格的功耗(毫瓦级)和小尺寸(5mm2到100mm2)要求?如何能够快速获得相应的硬件和软件工具、参考设计、演示示例和设计服务?莱迪思公司为此做出了有益的尝试。

图1 sensAI架构框图

Lattice sensAI再获重大更新

作为莱迪思推出的业界第一款用于网络边缘设备端AI处理的完整解决方案集合,sensAITM提供了供开发人员评估、开发和部署基于FPGA机器学习/人工智能解决方案所需的全部资源,包括模块化硬件平台、演示示例、参考设计、神经网络IP核、软件开发工具和定制化设计服务。

2019年上半年,sensAI通过更新迎来10倍性能提升,这是由多个优化促成的,包括通过更新CNN IP和神经网络编译器、新增8位激活量化、智能层合并以及双DSP引擎等特性。而最令人感到兴奋的是它新增并优化了用于快速实现网络边缘常见AI应用的参考设计,为关键词检测、人脸识别、人员侦测、人员计数等赋予了更强大的特性。

图2 在训练过程中支持8位量化可在神经网络模型训练过程中实现更高的精度

为了演示关键词检测系统的功能,工程师使用了搭载iCE40 UltraPlus FPGA的HiMax HM01B0 UPduino shield开发板。该开发板有两个直连到FPGA的I2S麦克风、用于FPGA设计的外部闪存、权重激活存储器、以及LED指示灯用以指示是否检测到关键词。用户可以直接对麦克风说话,一旦检测到关键词,LED就会亮起。

图3 关键词检测演示系统

图4左侧是针对低功耗运行进行优化、采用CMOS图像传感器的人员侦测演示,通过VGG8网络提供64 x 64 x 3的分辨率,该系统以每秒5帧的速率运行,使用iCE40 UltraPlus FPGA功耗仅为7mW;右侧是性能经优化的人员计数应用演示,同样也使用CMOS图像传感器,通过VGG8网络提供128 x 128 x 3的分辨率。该演示以每秒30帧的速率运行,使用ECP5-85K FPGA功耗为850mW。

图4 这些参考设计展示了sensAI提供的功耗与性能可选方案

Lattice人员识别参考设计方案也应用于售卖机上检测人员的出现,唤醒售卖机的内核。通过减少非人员靠近造成的误触发,或人员路过造成的误触发,达到减小功耗的目的。

2020年5月,sensAI又成功升级至3.0版本。

在此前支持ECP5/ECP5-5G和iCE40 UltraPlus 模块化硬件平台的基础上,新推出的sensAI 3.0版本支持CrossLink-NX系列FPGA,运行sensAI软件的CrossLink-NX FPGA比之前版本降低了一半的功耗,同时实现性能翻倍,从而为监控/安防、机器人、汽车和计算领域的智能视觉应用带来功耗和性能上的再次突破。同时,它还拥有定制化卷积神经网络CNN IP并新增支持MobileNet v2、SSD和ResNet模型,这些灵活的加速器IP可简化常见CNN网络的实现,经优化后可更加充分利用FPGA的并行处理能力,开发人员可轻松编译经过训练的神经网络模型并将其下载到CrossLink-NX FPGA中。

CrossLink-NX FPGA采用28nm FD-SOI工艺制造,与同类FPGA竞品相比,功耗可降低75%。在CrossLink-NX FPGA上运行解决方案时,sensAI可提供多达2.5Mb的分布式内存、RAM块以及额外的DSP资源,MIPI I/O提供瞬时启动的性能可在不到3ms的时间内完成自我配置,而整个器件的配置也只需8ms。在基于CrossLink-NX的对象计数演示中,——基于VGG的对象计数演示拥有10帧/秒的性能,功耗仅为200mW。

图6sensAI支持多种AI算法模型

当AI遇见超低功耗FPGA

拥有5K LUT的iCE40 UltraPlus FPGA可实现网络边缘实时在线的智能应用所需的神经网络模式匹配。其拥有5280个4输入LUT、自定义I/O、多达80Kb和1Mb的嵌入式存储器,睡眠电流低至75uA,工作电流仅为1-10mA,功耗低至1mW,硬件平台尺寸小至5.5mm2。为了满足各类应用的需求,还采用了包括从专为电子消费品和IoT设备优化的超小尺寸2.15 mm x 2.50 mm x 0.45 mm WLCSP封装,到低成本应用的0.5mm间距7x7mm QFN封装在内的多种封装选项。

功耗优化遥遥领先的原因,得益于其采用的分布式异构处理(Distributed Heterogenous Processing,DHP)架构。由于不使用云端执行算法,而是使用内置的数字信号处理器(DSP)执行重复的数字处理任务,因此大幅减少了功耗极大的应用处理器(AP)的计算负载,从而实现更长时间的睡眠模式以延长电池使用时间。另一方面,内置的神经网络软IP和编译器实现了灵活的机器学习/人工智能应用,消除了云端智能应用带来的延迟,降低了整个系统解决方案的成本。

图7 iCE40 UltraPlus采用的分布式异构处理(DHP)架构

图8和图9描述了不同FPGA之间存在的资源差异如何影响到人脸检测和人员检测应用的性能和功耗。图8左侧的32x32输入示例中,橙色部分代表卷积层上运行的周期。在四个示例中,UltraPlus的乘法器数量最少,其他三片ECP5 FPGA的乘法器数量依次递增。随着乘法器数量的增加,卷积层所需的周期数减少;右侧的90x90输入示例中,在每个柱形图的底部有大面积的蓝色区域。这是由于设计更为复杂,需要占用外部DRAM,性能就有所折中。

图8 在UltraPlus和ECP5 FPGA上实现入门级和提高级人脸检测时的性能、功耗和占用面积

人员侦测应用的情况类似,两组分别采用了64x64输入和128x128输入的情况。同样,较多的乘法器会减少卷积层的负担,而依赖DRAM则会影响性能。

图9 在UltraPlus和ECP5 FPGA上实现简单和复杂人员检测时的性能、功耗和占用面积

其实,设计AI模型的最常见做法就是使用处理器,可能是GPU或者DSP,也有可能是微控制器MCU)。不过,低端MCU可能连简单的AI模型也无法处理,高性能处理器又可能会违反设备的功耗和成本要求,但这正是低功耗FPGA发挥作用的地方。与增强处理器来处理算法的方式不同,莱迪思iCE40 UltraPlus FPGA可以作为MCU的协处理器,处理MCU无法解决的复杂任务之余,将功耗保持在要求范围内。

另一种思路是将低功耗FPGA作为单独运行的、完整的AI引擎,此时FPGA中的DSP就起到了关键作用。即便网络边缘设备没有其他的计算资源,也可以在不超出功耗、成本或电路板尺寸预算的情况下添加AI功能,更何况它们还拥有支持快速演进算法所需的灵活性和可扩展性。

无论采取哪种方法,都意味着设计人员可以采用莱迪思sensAI以及一片低功耗的iCE40 UltraPlus FPGA对传感器数据进行预处理,从而最大程度地降低了向SoC或云端传输数据进行分析的成本。例如,如果是用在智能门铃上,sensAI会初步读取来自图像传感器的数据。如果判断为不是人,比如说是一只猫,那么系统就不会唤醒SoC或连接到云端作进一步处理。因此,这种方法可以最大程度降低数据传输成本和功耗。如果预处理系统判断门口的对象是人,则唤醒SoC作进一步处理。这能极大减少系统需要处理的数据量,同时降低功耗要求,这对于实时在线的网络边缘应用来说至关重要。

图10 基于iCE40 UltraPlus FPGA的sensAI会预处理传感器数据以判断该数据是否需要发送到SoC作进一步处理

结语:

莱迪思的FPGA具有独特的优势,可以满足网络边缘设备快速变化的市场需求。设计人员可以在不依赖云端的情况下,快速为网络边缘设备提供更多计算资源的其中一个方法是使用FPGA中本身的并行处理能力来加速神经网络性能。此外,通过使用针对低功耗运行而优化的低密度、小尺寸封装FPGA,设计人员可以满足新的消费和工业应用对功耗和尺寸的严格限制。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1600

    文章

    21281

    浏览量

    592851
  • 探测系统
    +关注

    关注

    0

    文章

    54

    浏览量

    11176
  • 机器学习
    +关注

    关注

    66

    文章

    8095

    浏览量

    130516

原文标题:当AI遇到FPGA,低功耗智能探测系统不再是难题

文章出处:【微信号:gh_9d70b445f494,微信公众号:FPGA设计论坛】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    特斯拉FSD频繁更新,预计将实现78项重大改进

    马斯克预估,以两周为单位更新的频率表明特斯拉接下来共可推出26个FSD版本,比过去四年的总数还要多。这种频繁地更新能让FSD每年增加78项重大改进。
    的头像 发表于 03-19 15:36 165次阅读

    特斯拉FSD v12.3更新搭载全新神经网络,实现重大突破

    根据之前Teslascope提供的信息分析,此更新的受惠范围广泛,覆盖了美国具备FSD Beta测试资格的全部特斯拉车型。仅有的官方更新说明极其简短,仅提及“FSD Beta v12提高了城市街道驾驶功能,建立了单一端对端的神经网络
    的头像 发表于 03-19 10:57 278次阅读

    【基于Lattice MXO2的小脚丫FPGA核心板】02ModelSim仿真

    FPGA开发过程中,对设计好的模块进行仿真可以更详细地了解模块运行时的时序逻辑,帮助开发者更好地了解模块的运行,为后续的模块调试和优化提供依据。Lattice的FPGA开发工具Diamond配套有
    发表于 02-29 08:25

    持续为玩家带来惊喜,英特尔锐炫再迎重大驱动更新

    时间内,驱动的更新频率就高达 50 余次!大大加强了玩家的游戏体验。经历了去年 8 月份的重大更新后,Intel Arc 的 Game On 驱动不仅是为 30 余款新游戏带来了 Day 0 的即时支持,还在不断地为 70 多款
    的头像 发表于 02-28 17:08 164次阅读
    持续为玩家带来惊喜,英特尔锐炫再迎<b class='flag-5'>重大</b>驱动<b class='flag-5'>更新</b>

    【基于Lattice MXO2的小脚丫FPGA核心板】工程创建和固件烧录

    基于Lattice MXO2 LPC的小脚丫FPGA核心板 - Type C接口 开发板的硬件规格如下: 核心器件:Lattice LCMXO2-4000HC-4MG132 132脚BGA封装
    发表于 01-31 21:01

    再获近亿元新融资!启明创投成为艾拉比新的投资方

    作为汽车“智能化”软件技术产品及服务供应商、中国自主OTA(Over-the-Air 空中下载技术)创新企业,艾拉比正在以领跑之势,成为汽车OTA升级领域的实力先锋。今年以来,艾拉比融资消息不断,4月,艾拉比宣布获得尚颀资本投资,山高投控跟投;8月,艾拉比再获聚卓资本投资,老股东国科新能继续增资,总额过亿元。
    的头像 发表于 12-18 17:54 401次阅读

    了解 Flutter 3.16 功能更新

    带来 Impeller 的预览版、允许添加适用于 DevTools 的扩展程序等等,以及同步推出 Flutter 休闲游戏工具包重大更新 ! Flutter 休闲游戏工具包重大更新
    的头像 发表于 12-16 15:55 368次阅读
    了解 Flutter 3.16 功能<b class='flag-5'>更新</b>

    详解XGBoost 2.0重大更新

    另外还有一点是基于树的模型可以轻松地可视化和解释,这进一步增加了吸引力,特别是在理解表格数据结构时。通过利用这些固有的优势,基于树的方法——尤其是像XGBoost这样的高级方法——非常适合处理数据科学中的各种挑战,特别是在处理表格数据时。
    的头像 发表于 11-14 16:22 253次阅读
    详解XGBoost 2.0<b class='flag-5'>重大</b><b class='flag-5'>更新</b>!

    魔视智能宣布再获北汽极狐量产定点

    继去年12月宣布获得北汽极狐两款车型量产定点,本月,自动驾驶新势力Tier 1魔视智能MOTOVIS再传好消息,宣布再获北汽极狐量产定点,为北汽极狐品牌的阿尔法S、阿尔法T两款车型提供软硬一体
    的头像 发表于 10-12 09:04 753次阅读

    再获新融资,宏景智驾B轮总融资超6亿元

    。 今年5月,宏景智驾官宣完成近5亿元B轮融资,短短4个月后再获顶尖投资机构的认可和支持,这是其对宏景智驾自动驾驶技术实力和量产前景的信任。 至此,宏景智驾B轮总融资额超6亿元,投资方囊括了合肥产投、中安资本、典实资本、沙特阿美Properity7、中信金石
    的头像 发表于 09-13 19:45 607次阅读
    <b class='flag-5'>再获</b>新融资,宏景智驾B轮总融资超6亿元

    25年来重大更新!尼康推出***

    上市销售。 尼康表示,NSR-2205iL1 代表了尼康5倍步进技术在过去二十五年中的最重大更新,将可
    的头像 发表于 09-04 11:13 567次阅读

    PSA固件更新API 0.7资料

    方面的总和造成了重大的集成和维护挑战,其中有N个设备SDK需要与M更新客户端集成。 本文档描述了用于更新固件的标准接口。通过为固件更新提供一致的接口,
    发表于 08-09 06:22

    莱迪思半导体推出全新Lattice Drive解决方案集合

    莱迪思半导体今日宣布推出Lattice Drive解决方案集合,帮助客户加速开发先进、灵活的汽车系统设计和应用。Lattice Drive将莱迪思针对不同市场应用的软件解决方案集合拓展到了汽车市场
    的头像 发表于 07-21 15:22 643次阅读

    Lattice Insights:赋能FPGA应用设计和开发

    和设计体验。莱迪思半导体官方培训平台Lattice Insights旨在实现这种体验,帮助FPGA开发人员充分利用莱迪思FPGA开发他们的解决方案。
    的头像 发表于 06-01 10:08 626次阅读

    在 I/O 看未来 | Google Play 更新一览

    重大更新,来帮助您和我们一起稳步向前。这些更新聚焦于: 成为在您业务的整个生命周期中,帮助您扩大用户群体的最佳合作伙伴 成为您大规模且高效地从用户变现的最佳平台,以及 成为在 Android 平台
    的头像 发表于 05-17 20:45 347次阅读
    在 I/O 看未来 | Google Play <b class='flag-5'>更新</b>一览