0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国产FPAI芯片的AI系统方案

国产FPGA之家 来源:国产FPGA之家 作者:国产FPGA之家 2023-11-28 11:32 次阅读

各位亲爱的老铁,继上次《漫谈人工智能与国产FPAI芯片》唠完已经过去一个多月了;真的是时间不等人呀,2023年马上就要over了,最后一个月,大家要继续努力卷呀,come on!!!

漫谈人工智能与国产FPAI芯片

今天,小弟和大家谈一谈某国产FPAI芯片的AI系统方案以及参考设计实例。

1)FPAI芯片架构:博采众长、兼容并蓄

首先,我们简单了解下FPAI(Field Programmable AI)芯片。FPAI芯片,创新性地采用了异构融合架构,即在一颗die上集成了高性能SOC(PS)、大容量FPGA(PL)、AI加速引擎(AI)三大模块。该异构融合架构,可谓“博采众长、兼容并蓄”,融合了各异构模块优势,特别适合AI计算。其中,高性能SOC优势在于控制和通用计算,使得能在单芯片上运行完成完整的AI计算;大容量FPGA优势在于可重构和高速接口,解决了长尾算子的难题,适应了AI算法不断的迭代升级趋势;AI加速引擎优势在于高性能、低功耗地完成卷积等计算密集型算子的计算。

wKgaomVlX1eAKB36AAAuMxzdbw0341.png

图1 FPAI芯片架构:异构融合

具体的,以下是某款国产FPAI芯片,该芯片资源很丰富。PS部分,有四核处理器CPU视频编解码模块VPU、图像处理模块GPU等;PL部分,有444K的逻辑资源,16个高速接口GTX;AI部分,有高达27.52TOPS的int8算力,精度支持int8和int16,配合AI编译器支持快速部署

wKgZomVlX1eAJaxWAAFDL0NK_bo458.png

图2 某国产FPAI芯片资源

综上,该颗FPAI芯片支持丰富的AI应用场景,特别适合边缘融合端的AI应用场景。

2)FPAI系统方案:好马配好鞍,好船配好帆

从芯片到系统产品,还需设计硬件,开发FPGA程序,开发软件程序,部署AI网络等。系统方案及对应的参考实现,提供了一整套完整的解决方案参考,能够帮助用户方便、快速、高效、可靠地完成自己产品的设计。

所谓“好马配好鞍,好船配好帆”,不同芯片需要适合的系统方案以及对应的参考设计。

首先,FPAI芯片是PS+PL+AI的架构,对外接口管脚位于PS、PL模块,因此依据外部数据流输入的管脚,设计了PS_IN、PL_IN的系统方案,以此对应不同的内部控制流数据流方案;然后,FPAI芯片的AI峰值算力达27.52Tops,能够支持多路数据流的不同的AI计算,视频编解码模块能支持多路视频流的压缩,可编程逻辑资源也支持多输入的高速数据流接口,因此依据以上算力特点,设计了多源的系统方案,以此也符合了边缘融合端的AI应用特点;此外,PCIe加速板卡的系统方案,配合主机服务器,完成AI的推理计算加速。

综上,基于FPAI芯片的架构、算力、资源、输入数据流来源、应用场景等特点,分别制定了如下4种系统方案,基本能够涵盖FPAI单芯片下的各种应用场景。

(1)PS_IN系统方案

(2)PL_IN系统方案

(3)多源系统方案

(4)PCIe加速卡系统方案

wKgaomVlX1eAKnJEAAF2kI2rtrE813.png

图3 FPAI芯片的系统方案

一个系统方案可能有多个具体的参考实现,但对应的设计架构是一致的,可能只是具体内部实现有区别。参考设计会提供一整套参考方案,包括硬件设计、FPGA设计、软件设计的代码和相应文档。因此,想要基于FPAI设计系统的朋友,可以依据自身的应用场景需求,选择上述系统方案的参考设计。

3)多路PL_IN+VPU编码的参考设计实例

好了,说了这么多,大家等不及要看具体的参考设计实例吧。以下会介绍多源系统方案的一个参考设计实例:多路PL_IN+VPU编码的参考设计,分别从参考设计概述、硬件板卡介绍、FPGA工程介绍、软件工程介绍、实例功耗介绍等5部分来介绍该实例。

3.1参考设计概述

输入:4路SDI摄像头,默认分辨率和帧率设置1080p@30Hz;

输出:SD卡,H.265/H.264格式文件格式;

VPU:分辨率1080p,YUV422输入, 输出 H.265/H.264,默认编码帧率设置30Hz;

检测:运行示例网络Yolov5s AI检测,带检测结果的视频压缩到SD卡。

性能:4路1080p@30Hz输入,AI+VPU编码,每一路30fps。

wKgZomVlX1eAe19iAABwCx85uLI399.png

图4 多路PL_IN+VPU编码的参考实现框图

3.22

悟空硬件开发板简介

如下图,采用SDI接口摄像头输入4路视频到板卡,悟空硬件板卡上主芯片FPAI芯片;SD卡,储存和启动Linux操作系统启动文件和根文件系统;1GB PS DDR和2GB PL DDR,用于运行操作系统和AI;通过子卡接入的4路SDI视频接口;网口、串口、JTAG调试接口等。

wKgZomVlX1eAfjysAAzOUSBCM58684.png

图5 悟空硬件开发板

3.32

FPGA设计介绍

首先,整体数据流如图所示:

wKgZomVlX1eAGTBoAACNsqz4PaI100.png

图6 多路PL_IN+VPU编码的数据流

Step1:对应图中的数据流1,Cam0~Cam3为4路不同的SDI摄像头视频流,帧率1080p@30Hz。对于每一路SDI摄像头视频流,复制成两路,一路经过resize、image_make模块完成AI预处理后存入PL_DDR,供AI检测使用;另一路经过resize、rgb565转为yuv422(可选)通过HP接口存入PS_DDR,供后续画上检测结果后VPU压缩用或者HDMI显示用。

Step2:对应图中的数据流2,启动AI访问PL_DDR完成AI的计算。

Step3:对应图中的数据流3,最后一层特征图,经过icore_post模块处理后,通过HP接口写入PS_DDR。PS完成剩余后处理计算,得出AI检测结果,画在PS DDR上的视频帧上。

Step4:对应图中的数据流4,启动VPU,对含有结果的视频帧压缩成H.264/H.265格式。

Step5:对应图中的数据流5,将压缩视频流写回SD卡。

Step6(可选):对应图中数据流6,将检测框的视频显示到HDMI显示屏。

其次,介绍以下子数据流通路的实现

(1)Camera -> PLDDR的逻辑通路实现

wKgZomVlX1eAO8DBAAD_i0URAFw389.png

图7 子逻辑通路Camera -> PLDDR

输入的4路视频流帧率为1080p@30Hz,均以serdes 差分对接入FPGA端口,通过rx_sdi模块解析为rgb888数据格式。然后经过frame_trans模块resize成AI计算所需要的尺寸。

在一些应用场景中,输入数据可能预先存储在了PS DDR中,因此本工程也预留了2路独立的PSIN数据通路,通过HP口读取数据,转变成AI_MATE接口规范好的数据总线格式。这两路PSIN数据通过img_data_crossbar_0/1模块分别与CAM2/3视频流数据进行仲裁,各自选出1路输入给AI_MATE端。

(2)Camera -> PSDDR的逻辑通路实现

wKgaomVlX1eAG9WnAAC7NB9yyBE870.png

图8 子逻辑通路Camera -> PSDDR

将CAM视频流数据resize成VPU压缩需要的尺寸,注意此处的resize与CAM->PL DDR通路中的resize相互独立,即AI计算尺寸和VPU压缩尺寸独立配置。为了减少写入PS DDR的数据量,这里将rgb565数据格式转为yuv422(16bit),相比于rgba(32bit)格式,数据量可减少50%,而图像色度分量完整保留,基本不影响图像质量。

每一路CAM数据均需要通过HP口写入PS DDR,PS端共有4个HP口,有很多模块会对它发起请求,因此工程中在BlockDesign中调用axi interconnect IP进行仲裁。

最终,实现的FPGA资源占用情况如下所示:

wKgaomVlX1eAbhpGAABHZdtr6C0798.png

图9 FPGA实现资源占用情况

3.42

软件设计介绍

参考实现软件整体流程可以归结如下:

摄像头输入视频数据 > AI检测 > AI结果绘制 > vpu编码h264/h265视频 > 输出数据流

软件中按功能将代码封装为多个模块:摄像头模块、神经网络模块、VPU模块。则在实现一次完整数据流通路对应的模块调用为:摄像头模块取帧 > 神经网络模块计算与后处理 > 摄像头模块得到图像数据 > vpu模块压缩 > vpu模块输出数据。

在AI调度过程中,采用了任务队列的实现方式。主要参考了生产者消费者设计模式,前处理、icore前向、后处理运行在各自的线程中,互相之间通过任务队列的方式通信

对于多路的情况,则会使用多个前处理线程与多个后处理线程,以4路为例,4路不同的输入图像数据、icore推理结果会存放在ddr的不同位置,不同路之间数据不会相互干扰。任务队列还提供了可以控制不同路是否做AI或者设置优先级的功能。

wKgaomVlX1eADHQhAAOnsGigQ6E033.png

图10 软件任务队列调度框图

具体的AI神经网络部署,基于icraft编译器,直接编译生成json和raw文件,就能够更新参考设计的AI网络部署。

3.52

实例结果介绍

性能:能够稳定完成4路1080p@30Hz视频的AI检测和视频编码。

功耗:整体芯片功耗(含DDR)是12.32W。

wKgZomVlX1eAV1dTAACjt7ltKOc800.png

表1 多路PL_IN+VPU编码的功耗

4)小结:海阔凭鱼跃,天高任鸟飞

好了,经过以上的参考设计实例的介绍,相信大家对FPAI芯片的系统方案以及参考设计有了更深层次的了解。

近几年,边缘端AI计算的市场份额逐年增长明显,越来越多的落地应用需求提出。“海阔凭鱼跃,天高任鸟飞”,如何选择一款AI芯片及系统方案,能够满足边缘融合端的各种应用场景,能够适应算法迭代的需求,能够解决长尾算子的问题,形成高性能、低功耗、灵活可靠的产品?相信FPAI芯片及系统方案,会是一个不错的选择!

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1602

    文章

    21320

    浏览量

    593202
  • 芯片
    +关注

    关注

    447

    文章

    47788

    浏览量

    409144
  • 半导体
    +关注

    关注

    328

    文章

    24506

    浏览量

    202147
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264061
收藏 人收藏

    评论

    相关推荐

    谈一谈FPAI芯片AI系统方案以及参考设计实例

    首先,我们简单了解下FPAI(Field Programmable AI芯片FPAI芯片,创新性地采用了异构融合架构,即在一颗die上集
    的头像 发表于 11-28 11:33 1120次阅读
    谈一谈<b class='flag-5'>FPAI</b><b class='flag-5'>芯片</b>的<b class='flag-5'>AI</b><b class='flag-5'>系统</b><b class='flag-5'>方案</b>以及参考设计实例

    AI系统供电电源芯片及解决方案

    AI在这几年发展特别迅速,大家普遍比较关注的点在于AI的算力、算法和大数据。这三大核心元素确实很重要,但其实还有一个我们大家没怎么关注,但却不可或缺的元素也在不断发展中,那就是AI系统
    的头像 发表于 08-30 08:00 4733次阅读

    国产芯片RK3066 RK3188 RK3288 这些芯片性能怎么样呢

    RK3066做POS方案系统android操作系统,有配套POS机软件。有谁用过国产芯片的POS机系统
    发表于 12-29 14:18

    想找合伙人,一起做国产芯片的POS 机方案

    合伙找POS机方案商,本人做POS机方案系统使用android4.4.2系统CPU 选国产的rockchip
    发表于 12-29 14:42

    手把手教你设计人工智能芯片系统--(全阶设计教程+AI芯片FPGA实现+开发板)

    追捧,获得高薪高酬。2、目前国内没有系统化的、专业性的AI芯片设计课程,学习资料也仅有相关论文没有详细的教程教材,并且这些资料大部分限于理论,难以应用于实践;本课程将开放某AI
    发表于 07-19 11:54

    通用型AI语音识别芯片音旋风611如何?

    近日,国产原生芯片品牌探境科技宣布全球首款通用型AI语音识别芯片——音旋风611(英文名称:Voitist611)目前正式进入批量供货量产并已获得大量客户的认可和采用。这款
    发表于 09-11 11:52

    【免费直播】AI芯片专家陈小柏博士,带你解析AI算法及其芯片操作系统

    智慧化进程。人工智能芯片是人工智能发展的基石,是数据、算法和算力在各类场景应用落地的基础依托。“无芯片AI”已经深入人心,成为业界共识。本次直播将述说AI
    发表于 11-07 14:03

    【免费直播】让AI芯片拥有最强大脑—AI芯片的操作系统设计介绍.

    智慧化进程。人工智能芯片是人工智能发展的基石,是数据、算法和算力在各类场景应用落地的基础依托。“无芯片AI”已经深入人心,成为业界共识。本次直播将述说AI
    发表于 11-07 14:18

    苹果自研射频芯片?OPPO自研NPU芯片芯片国产替代需要跨越三个误区!

    。该芯片基于DSA架构和台积电先进6nm工艺制造,通过AI算力与算法的结合,在高分辨、高色数无损成像、AI算法和HDR动态范围等方面,将手机计算影像的表现推上了一个新的台阶。系统厂商、
    发表于 01-02 08:00

    有哪些合适的国产芯片推荐?

    有哪些合适的国产芯片推荐?1.有一个3.7V&100mAh的锂电池,如果要转换成±12V,有哪些合适的国产芯片推荐?2.有一个12V&100mAh的锂电池,如果要转换成-12V,有哪些
    发表于 01-06 17:47

    显控和AI计算机方案趋势

    本帖最后由 我爱方案网 于 2022-11-15 16:25 编辑 根据瑞芯微和北京君正等芯片原厂的技术分析,我爱方案网整理了显控技术向AI计算发展的四个特点。显控往高端发展与边
    发表于 11-15 16:22

    新思科技发布业界首款全栈式AI驱动型EDA解决方案Synopsys.ai

    能够在芯片开发的每个阶段(从系统架构到设计和制造)都采用AI技术,并从云端访问这些解决方案。值得一提的是,Synopsys.ai已经成功帮助
    发表于 04-03 16:03

    首颗国产车规级AI芯片即将量产 国产汽车芯片即将迎来一大突破

    3 月 8 日讯,国产汽车芯片突破,首款车规级 AI 芯片即将正式前装量产。
    发表于 03-09 09:49 2622次阅读

    国产AI芯片加持百度飞桨应用落地,国产替代已不遥远

    AI时代,深度学习框架和操作系统类似,起着承上启下的作用,连接芯片与应用。拥有强大算力的AI芯片加持,
    发表于 07-10 17:55 607次阅读
    <b class='flag-5'>国产</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>加持百度飞桨应用落地,<b class='flag-5'>国产</b>替代已不遥远

    国产AI芯片企业迎风成长

    景中广受关注,也是门槛较高的一个领域,在对AI芯片提出更高挑战的同时,也增加了AI芯片的需求。在自动驾驶领域,目前全球已有英伟达、英特尔等不少芯片
    的头像 发表于 09-23 11:19 1302次阅读
    <b class='flag-5'>国产</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>企业迎风成长