0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何通过DLP FPGA实现低延时高性能的深度学习处理器设计呢?

FPGA研究院 来源:Java学研大本营 2023-12-27 09:13 次阅读

图像识别和分析对于产品创新至关重要,但需要高工作负载,对服务质量要求严格。解决方案如GPU无法满足低延迟和高性能要求。DLP FPGA是一种可行的选择,本文将探讨如何实现这种技术。

图像识别和分析在各种产品创新中具有重要作用。然而,这些应用通常涉及高工作负载,对服务质量有严格要求。目前的解决方案,如GPU,无法同时兼顾低延迟和高性能要求。

为了在应用深度学习的同时提供良好的用户体验,可以在FPGA上架构一个超低延迟和高性能的DLP(深度学习处理器)。

DLP FPGA可以同时支持稀疏卷积和低精度数据计算,同时定义了一个定制的ISA(指令集架构),以满足对灵活性和用户体验的要求。使用Resnet18(稀疏内核)的延迟测试结果显示,FPGA的延迟只有0.174ms。

在本文中,我们将简要讨论如何通过新的DLP FPGA实现这样的结果。

1 架构

新开发的DLP有4种模块,根据其功能进行分类:

计算:卷积、批量归一化、激活和其他计算

数据路径:数据存储、移动和重塑

参数:存储权重和其他参数,解码

指令:指令单元和全局控制

722dcef6-a447-11ee-8b88-92fbcf53809c.png

DLP中的Protocal Engine(PE)可以支持:

Int4数据类型输入。

Int32数据类型输出。

Int16量化

这种PE能提供超过90%的效率。此外,DLP的重量加载支持CSR解码器和数据预取。

2 训练

需要重新训练来开发一个高精确度的模型。下面有4个主要步骤来获得稀疏权重和低精度数据特征图。

7249ec94-a447-11ee-8b88-92fbcf53809c.png

我们用一种有效的方法将Resnet18模型训练到稀疏和低精度(1707.09870)。我们方法中的关键部分是离散化。我们专注于压缩和加速深度模型,其网络权重由非常小的比特数表示,被称为极低比特神经网络。然后我们将这个问题建模为一个离散约束的优化问题。

借用乘法交替方向法(ADMM)的思想,我们将连续参数与网络的离散约束解耦,并将原来的硬问题铸成几个子问题。我们建议使用梯度外算法和迭代量化算法来解决这些子问题,与传统的优化方法相比,这些算法会导致更快的收敛。

在图像识别和物体检测方面的大量实验证明,当涉及到极低比特的神经网络时,所提出的算法比最先进的方法更有效。

3 ISA/编译器

如前所述,对于大多数在线服务和使用场景,仅有低延迟是不够的,因为算法模型会经常变化。正如我们所知,FPGA的开发周期非常长;通常需要几周或几个月的时间来完成一个定制的设计。为了解决这一挑战,我们设计了工业标准架构(ISA)和编译器,以减少模型升级的时间,使之仅为几分钟。

724d82aa-a447-11ee-8b88-92fbcf53809c.png

SW-HW共同开发平台由以下项目组成:

编译器:模型图分析和指令生成。

API/驱动:CPU-FPGA DMA图片重塑,重量压缩。

ISA控制器:指令解码、任务调度、多线程流水线管理。

4 硬件

DLP是在FPGA卡上实现的,它有PCIe和DDR4内存。DLP与该FPGA卡相结合,可以使在线图片搜索等应用场景更高效用户体验更好。

5 结果

72d3cc7a-a447-11ee-8b88-92fbcf53809c.jpg

使用Resnet18的FPGA测试结果表明,我们的设计实现了超低水平的延迟,同时在低于70W的芯片功率下保持了非常高的性能。

72e94fbe-a447-11ee-8b88-92fbcf53809c.png










审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18275

    浏览量

    222158
  • FPGA
    +关注

    关注

    1602

    文章

    21320

    浏览量

    593195
  • 图像识别
    +关注

    关注

    8

    文章

    447

    浏览量

    37908
  • dlp
    dlp
    +关注

    关注

    6

    文章

    330

    浏览量

    60684
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119908

原文标题:使用FPGA制作低延时高性能的深度学习处理器

文章出处:【微信号:FPGA研究院,微信公众号:FPGA研究院】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FPGA构建高性能DSP

    为设计提供可编程逻辑解决方案所固有的灵活性特点,以及定制门阵列(如ASIC)解决方案所具有的高性能及集成度。  增强DSP处理能力的传统方法是采用多个处理器。选择此类方案的缺点是成本昂贵,需要众多附加
    发表于 02-17 11:21

    FPGA处理器的优势

      传统的、基于通用DSP处理器并运行由C语言开发的算法的高性能DSP平台,正在朝着使用FPGA处理器和/或协处理器的方向发展。这一最新发
    发表于 09-29 16:28

    FPGA干货分享六】基于FPGA处理器的算法加速的实现

    APU接口。通过FPGA中嵌入一个处理器,现在就有机会在单芯片上实现完整的处理系统。带APU接口的PowerPC使得在
    发表于 02-02 14:18

    FPGA 嵌入式处理器实现高性能浮点元算

    仿真或者专用软逻辑 FPU 在 PowerPC 上自如地实现浮点运算。图 1 显示了通过 FCB 将 PowerPC 440 处理器连接至 Virtex-5 APU-FPU 的典型实施方案。图 1
    发表于 08-03 11:15

    【详解】FPGA深度学习的未来?

    的未来方向提出关键建议,帮助解决今后深度学习所面临的问题。2. FPGA传统来说,在评估硬件平台的加速时,必须考虑到灵活性和性能之间的权衡。一方面,通用
    发表于 08-13 09:33

    采用Sitara处理器PRU-ICSS的高性能脉冲序列输出 (PTO)

    控制和同步无需使用外部 ASIC 或 FPGA借助 Sitara 处理器在 PRU-ICSS 上实现包含源代码形式的 PRU-ICSS 固件并可供客户采用通过 TMDSICE3359
    发表于 12-17 16:03

    SEP3203处理器实现FPGA数据通信接口设计

    AHB总线宽度。由于FPGA与SEP3202处理器之间只有16位数据总线,所以设计中源地址数据宽度设为16位,目的地址数据宽度设为32位。程序如下:5 性能分析为了实现系统的流水线操作
    发表于 04-26 07:00

    快速调节器用于高性能处理器

    DN87- 快速调节器用于高性能处理器
    发表于 05-28 07:30

    飞思卡尔高性能ColdFire微处理器简介

    最新款的ColdFire微处理器在大约380 mW的功率上提供了410 Dhrystone MIPS(DMIPS)的内核性能,能够轻松满足开发人员的系统功率预算,同时实现卓越的系统级性能
    发表于 07-18 06:23

    怎么实现多内核处理器开发趋势下的高性能视频系统设计?

    怎么实现多内核处理器开发趋势下的高性能视频系统设计?
    发表于 06-03 06:19

    基于Cortex-A53架构的低功耗高性能处理器RK3328有哪些功能

    基于Cortex-A53架构的低功耗高性能处理器RK3328有哪些功能
    发表于 03-09 06:27

    什么是深度学习?使用FPGA进行深度学习的好处?

    频率低于 CPU 和 GPU,除非设计实现,否则性能往往较差。与 CPU 和 GPU 相比实施成本高,FPGA 上支持深度学习的软件较少很多
    发表于 02-17 16:56

    基于FPGA的1024点高性能FFT处理器的设计钟冠文

    基于FPGA的1024点高性能FFT处理器的设计_钟冠文
    发表于 03-19 11:36 10次下载

    FPGA和DSP两种处理器之间实现SRIO协议的方法

    ,并通过 电路设计 和利用处理器的开发工具 编程 实现了两种处理器间的高速通信。经测试,该系统具有较高的传输效率。 引言 随着高性能信号
    的头像 发表于 03-20 15:00 1406次阅读

    中科亿海微推出高性能FPGA加速卡系列产品

    产品概述中科亿海微面向低延时高带宽的数据加速应用推出高性能FPGA加速卡系列产品。产品采用高性能混合并行计算FPGA架构设计,具有高带宽、高
    的头像 发表于 07-20 18:04 602次阅读
    中科亿海微推出<b class='flag-5'>高性能</b><b class='flag-5'>FPGA</b>加速卡系列产品