并行MACC运算 - DSP48E2 Slice 上优化 INT8 深度学习运算分析

在卷积神经网络（CNN）中，卷积层一般主要使用同一组权重，从而形成 a x w 和 b x w 类型的并行MACC 运算。因此除输入共享外，还可以使用权重共享（见图 7）。

图 7 ：权重共享和输入共享比较

创建 INT8 链接 MACC 的其他方法
INT8 MACC 还能用 FPGA 架构内与 DSP Slice 频率近似的 LUT 来构建。根据 FPGA 的使用情况，这可以显著提升深度学习性能，在某些情况下性能可提升三倍之多。许多情况下相对于其他非 FPGA 架构而言，在计算可用深度学习运算时这些可用的计算资源并未考虑在内。

赛灵思 FPGA 中的编程架构是独有的，因为它能并行且高效地处理多样化工作负载。例如赛灵思 FPGA能并行执行 CNN 图像分类、网络加密和数据压缩。我们的深度学习性能竞争分析并未将 MACC LUT 考虑在内，因为一般 LUT 用于执行 MACC 功能比用于执行其他并行功能时更有价值。

竞争分析

在本竞争分析中，将英特尔（前 Altera）的 Arria 10 和即将推出的 Stratix 10 器件与赛灵思的 Kintex UltraScale 和 Virtex UltraScale+ 进行了对比。对这种高计算强度的比较，选择的器件均为每个产品系列中 DSP 密度最高的器件：Arria 10 (AT115)、Stratix 10 (SX280)、Kintex UltraScale (KU115)、Virtex UltraScale+ (VU9P) 和 Virtex UltraScale+ (VU13P) 器件。比较的重点是能用于包括深度学习在内的众多应用的通用 MACC 性能。

英特尔的 MACC 性能基于运用预加法器的算子。但是这种实现方案产生的是乘积项和非唯一单独乘积项之和，因此英特尔的预加法器不适用于深度学习运算。

英特尔器件的功耗使用英特尔的 EPE 功耗估算工具估算，并假设在以下最坏情况下：
1. 在最大频率 (FMAX) 下 DSP 利用率为 90%
2. 时钟速率为 DSP FMAX 时逻辑利用率为 50%
3. 时钟速率为 DSP FMAX 的一半时,block RAM 利用率为 90%
4. 4 个 DDR4 和 1 个 PCIe Gen3 x 8
5. DSP 触发率为 12.5%
6. 80°TJ

图 8 所示为深度学习运算的能效比较。凭借 INT8 优化，赛灵思 UltraScale 和 UltraScale+ 器件在 INT8精度上相比 INT16 运算（KU115 INT16/KU115 INT8）能效提升 1.75 倍。与英特尔的 Arria 10 和 Stratix 10器件相比，赛灵思器件在深度学习推断运算上能效高出 2-6 倍。

图 8 ：INT8 深度学习能效对比：赛灵思对比英特尔

结论
本白皮书探讨了如何在赛灵思 DSP48E2 Slice 上优化 INT8 深度学习运算，从而实现 1.75 倍的性能提升。赛灵思 DSP48E2 Slice 可用于在共享相同内核权重的同时实现并行 INT8 MACC。为高效地实现 INT, 需要采用 24 位输入宽度，这项优势只有赛灵思 UltraScale 和 UltraScale+ FPGA DSP Slice 能够提供支持。赛灵思非常适合用于深度学习应用中的 INT8 工作负载（例如图像分类）。赛灵思不断创新新的基于软/硬件的方法，以加快深度学习应用的发展。

如需了解有关数据中心深度学习的更多信息，敬请访问： https://china.xilinx.com/accelerationstack

参考资料
1. 1.Dettmers, 8-Bit Approximations for Parallelism in Deep Learning, ICLR 2016
https://arxiv.org/pdf/1511.04561.pdf
2. Gysel et al, Hardware-oriented Approximation of Convolutional Neural Networks, ICLR 2016
https://arxiv.org/pdf/1604.03168v3.pdf
3. Han et al, Deep Compression:Compressing Deep Neural Networks With Pruning, Trained Quantization And Huffman Coding, ICLR 2016
https://arxiv.org/pdf/1510.00149v5.pdf
4. Rosenblatt, F., The Perceptron:A Probabilistic Model for Information Storage and Organization in the Brain, Psychological Review, Vol. 65, No. 6, 1958

阅读全文

上一页 1 23全文

本文导航

第 1 页：DSP48E2 Slice 上优化 INT8 深度学习运算分析
第 2 页：计算规则
第 3 页：并行MACC运算

dsp(343842) dsp(343842)
Xilinx(119166) Xilinx(119166)
深度学习(119797) 深度学习(119797)

基于INTEL FPGA硬浮点DSP实现卷积运算详解

卷积是一种线性运算,其本质是滑动平均思想,广泛应用于图像滤波。而随着人工智能及深度学习的发展，卷积也在神经网络中发挥重要的作用，如卷积神经网络。本参考设计主要介绍如何基于INTEL 硬浮点的DSP

2018-07-23 09:09:45

7322

FPGA中如何充分利用DSP资源，DSP48E1内部详细资源介绍

FPGA中DSP资源是宝贵的且有限，我们在计算大位宽的指数、复数乘法、累加、累乘等运算时都会用到DSP资源，如果我们不了解底层的DSP特性，很多设计可能都无法进行。逻辑综合往往是不可控的，为了能够

2020-09-30 11:48:55

26638

深入理解DNN加速器中的基本单元——DSP

DSP48E2是zynq器件中使用的DSP类型，其主要结构包括一个27bit前加器，27x18bit的乘法器，一个48bit的可以执行加减法，累加以及逻辑功能的ALU。

2022-08-02 09:16:27

3378

探讨机器学习与深度学习基本概念与运算过程

人工智慧隶属于大範畴，包含了机器学习（Machine Learning）与深度学习（Deep Learning）。如下图所示，我们最兴趣的深度学习则是规範于机器学习之中的一项分支，而以下段落将简单介绍机器学习与深度学习的差异。

2020-12-18 15:45:31

3870

7系列FPGA DSP48E1片的特点

乘法器和一个三输入加法器/减法器/累加器。DSP48E1乘法器具有非对称的输入，接受18位2的补数操作数和25位2的补数操作数。乘法器阶段以两个部分乘积的形式产生一个43位2的补码结果。这些部分积在X

2021-01-08 16:46:10

7系列FPGA DSP48E1片的特点什么？

7系列FPGA DSP48E1片的特点什么

2021-03-05 06:26:41

DSP48E1 Slice的最大频率是什么

我正在实例化DSP切片并进行简单的乘法然后加法（（A * B）+ C）。根据DSP48E1用户指南，当使用所有三个流水线寄存器时，它给出了最高频率为600 MHz。但就我而言，它使用流水线寄存器

2020-06-12 06:32:01

DSP48E1不会推断预加法器

嗨，我有一个如下的指令：（D-A）* B + C.端口A，B，C，D与DSP48E1输入引脚相对应。我试图将整个操作打包在DSP单元中。（顺便说一句，我的数据宽度是8位）在布局和布线完成后，我

2019-04-01 14:25:40

DSP48E1作为延迟移位寄存器

to use a DSP48E1 slice to delay data up to 48bits wide by three cycles and hence only use 1 DSP48 rather

2019-04-18 06:40:33

DSP48E1的属性详解

DSP48E1属性

2021-01-27 06:21:23

DSP48E1的属性详解

和RSTB复位（如图2-7和图2-8所示）。　　　　P端口　　每个DSP48E1片都有一个48位的输出端口p。这个输出可以通过PCOUT路径内部连接（级联连接）到相邻的DSP48E1片。PCOUT连接

2020-12-23 16:54:08

DSP学习经验

Memory，开启cache。　　　　如DSP能对SDRAM的不同4个bank可以同时访问，此时你可以将需要同时运算的数据放入不同的bank　　　　（8）开启仿真软件的编译优化选项　　　　在菜单相应的地方勾上

2011-10-19 10:31:23

DSP和51之我见--顺便说说DSP除法优化

，51的指令是一条一条的执行，DSP的指令可以多条并行处理，从而获得了更快的计算速度。2、运算能力。很多DSP器件硬件支持浮点数乘法，同时有硬件循环指令。硬件浮点乘法极大的提高了运算能力。硬件循环指令

2012-01-11 09:28:20

INT8量化常见问题的解决方案

一、int8的输出和fp32模型输出差异比较大解决方案：检查前后处理是否有问题，int8网络输入输出一般需要做scale处理，看看是否遗漏？通过量化可视化工具分析int8的输出和fp32

2023-09-19 06:09:33

深度学习存在哪些问题？

深度学习常用模型有哪些？深度学习常用软件工具及平台有哪些？深度学习存在哪些问题？

2021-10-14 08:20:47

深度学习技术的开发与应用

时间安排大纲具体内容实操案例三天关键点1.强化学习的发展历程2.马尔可夫决策过程3.动态规划4.无模型预测学习5.无模型控制学习6.价值函数逼近7.策略梯度方法8.深度强化学习-DQN算法系列9.

2022-04-21 14:57:39

深度学习框架只为GPU?

CPU优化深度学习框架和函数库机器学***器

2021-02-22 06:01:02

深度学习模型是如何创建的？

具有深度学习模型的嵌入式系统应用程序带来了巨大的好处。深度学习嵌入式系统已经改变了各个行业的企业和组织。深度学习模型可以帮助实现工业流程自动化，进行实时分析以做出决策，甚至可以预测预警。这些AI

2021-10-27 06:34:15

Arm Neoverse V1的AWS Graviton3在深度学习推理工作负载方面的作用

机器学习 (ML) 是云和边缘基础设施中增长最快的部分之一。在 ML 中，深度学习推理预计会增长得更快。在本博客中，我们比较了三种 Amazon Web Services (AWS) EC2 云实例

2022-08-31 15:03:46

AutoKernel高性能算子自动优化工具

1. 简介随着人工智能的普及，深度学习网络的不断涌现，为了让各硬件(CPU, GPU, NPU,…)能够支持深度学习应用，各硬件芯片需要软件库去支持高性能的深度学习张量运算。目前，这些高性能计算库

2021-12-14 06:18:21

BM1684架构介绍

L2cache 2.2 峰值算力峰值算力： FP32峰值算力 = 64 * 16 * 2(FP32 MAC) * 2 * 0 55G / 1024 = 2.2 TOPS INT8峰值算力 = 64

2023-09-19 08:11:10

Nanopi深度学习之路(1)深度学习框架分析

学习，也就是现在最流行的深度学习领域，关注论坛的朋友应该看到了，开发板试用活动中有【NanoPi K1 Plus试用】的申请，介绍中NanopiK1plus的高大上优点之一就是“可运行深度学习算法的智能

2018-06-04 22:32:12

Nanopi深度学习之路(2)深度学习框架安装前的系统配置

`Nanopi深度学习之路这一系列的日记内容如下：1. 根据深度学习任务配置Nanopi2。2. 在Nanopi2上安装Keras和TensorFlow。3. 在Nanopi2上部署一个训练好的深度

2018-06-05 17:29:51

TDA4对深度学习的重要性

DSP（Digital Signal Processor）和 EVE（Embedded Vision/Vector Engine），用于加速计算深度学习神经网络。相比于上一代TDA2/TDA3系列

2022-11-03 06:53:11

UltraScale DSP48 Slice架构的优势是什么？

UltraScale DSP48 Slice架构的优势是什么？UltraScale内存架构的优势是什么？

2021-05-24 06:34:00

Xilinx Vertex-4 DSP应用程序xapp706是否可在Spartan-6上移植

the slice, can't I use the DSP48A1 macro itself to test this Xapp706 application?

2019-07-04 15:36:07

Xilinx大神都懂的数字运算单元—DSP48E1

，这样的输入选择有助于构建多种类型，高流水化的DSP应用。 2. DSP48E1使用 (1)DSP原语使用的每个端口及位宽如下所示： ①表示的数据通道，运算数据的输入。 ②寄存器配置通道，我们可以通过

2023-06-20 14:29:51

yolov5量化INT8出错怎么处理？

model_deploy.py --mlir yolov5l.mlir --quantize INT8 --calibration_table yolov5l_cali_table --chip

2024-01-10 06:40:14

【NanoPi K1 Plus试用体验】搭建深度学习框架

，使其更紧凑和更易debug，并提供了扩展的便利性。课程内容基本上是以代码编程为主，也会有少量的深度学习理论内容。课程会一步一步从Keras环境安装开始讲解，并从最基础的Keras实现线性回归

2018-07-17 11:40:31

【PYNQ-Z2试用体验】剪枝量化好帮手，深鉴科技Deepin套件DNNDK使用(结项)

caffe模型（浮点），得到int8的模型，再通过sdk编程，直接部署到FPGA上，这个过程本质上应该还是使用了SDSoC的相关工具。大佬们开发了DPU这个深度学习的IP，在不远的将来要放置到

2019-03-21 15:09:29

【TL6748 DSP申请】齿轮故障诊断（基于振动数据采集分析处理）

申请理由：1）由于刚接触到DSP不久，希望通过DSP的开发板能够快速入门，前期实现一些基本的功能；2）在学习到DSP的一些基本知识后，将逐渐运用DSP的实际项目中，先试着尝试解决一些振动数据分析

2015-09-10 11:20:00

【米尔FZ3深度学习计算卡试用体验】DPU搭建

计算公司赛灵思（NASDAQ：XLNX）宣布，收购北京人工智能（AI）芯片初创公司深鉴科技。深鉴科技拥有业界较为领先的机器学习能力，专注于神经网络剪枝、深度压缩技术及系统级优化。深鉴科技原本是一家芯片

2020-12-10 15:23:40

【资料上新】迅为基于3568开发板的NPU开发资料全面升级

开始的，相比传统的CPU和GPU，在深度学习运算能力上有比较大幅度的提升。接下来在RV1109和RV1126上使用了第二代NPU，提升了NPU的利用率。第三代NPU应用在RK3566和RK3568上

2022-06-23 15:05:22

什么是深度学习？

深度学习是什么意思

2020-11-11 06:58:03

什么是深度学习？使用FPGA进行深度学习的好处？

，即使使用具有一定低位宽的数据，深度学习推理也不会降低最终精度。目前据说8位左右可以提供稳定的准确率，但最新的研究表明，已经出现了即使降低到4位或2位也能获得很好准确率的模型和学习方法，越来越多的正在

2023-02-17 16:56:59

什么是基于Spartan-3 FPGA的DSP功能优化方案？

本文阐述了Spartan-3 FPGA针对DSP而优化的特性，并通过实现示例分析了它们在性能和成本上的优势。

2019-10-18 07:11:35

以MegCC为例介绍如何开发一个深度学习编译器

矩阵乘，则可使用 B 与 A 矩阵乘之后进行转置进行替换，可节约一次转置运算。b. 算子融合是常见的深度学习的优化手段。算子融合虽然不能减少计算量，但是可以减少访存量，提高计算访存比，从而提升性能

2023-02-09 16:35:34

如何分析和比较XST综合工具生成的报告

1323％DSP48E1的数量168641％设备利用率摘要（估计值）[ - ]逻辑利用用过的可得到采用切片寄存器的数量38695068736056％切片LUT的数量15269234368044％完全

2019-03-25 14:27:40

如何使用DSP45E1模块实现Multply-Add操作？

嗨，我想使用DSP45E1模块实现Multply-Add操作，其中一个要求是我需要DSP模块上的3级流水线。查看UG479 7系列DSP48E1 Slice用户指南（UG479） - Xilinx

2020-07-21 13:52:24

如何简化DSP48E1片操作

　　DSP48E1片的数学部分由一个25位的预加器、2个25位、18位的补法器和3个48位的数据路径多路复用器（具有输出X、Y和Z）组成，然后是一个3输入加法器/减法器或2输入逻辑单元（参见图2

2021-01-08 16:36:32

如何简化DSP48E1片操作

简化DSP48E1片操作

2021-01-27 07:13:57

如何解决通用Xilinx FPGA DSP片和逻辑单元上的问题？

切片是整个切片数量的一部分还是它们在FPGA上共享资源？2）如果我们没有进行任何DSP操作，那么DSP48E Slice是否可以用于实现某些常规逻辑，或者这些DSP Slice是否专门用于实现DSP

2019-04-04 06:36:56

求DSP48E1和BRAM36K / BRAM18K之间水平关系的信息？

DSP48E1磁贴（由2个切片和互连组成）与5个CLB具有相同的高度1 DSP48E1瓷砖与一个BRAM36K具有相同的高度1 DPS48E1 Slice水平对齐BRAM18K我读到了xilinx asmbl架构

2020-07-25 11:04:42

求大神指教：在labview的公式节点中如何定义一个静态变量（例如：static int8 i=0;这样可以吗？）

求大神指教：在labview的公式节点中如何定义一个静态变量（例如：static int8 i=0;这样可以吗？）

2016-04-13 21:37:29

深圳公司招聘DSP高手1名

的体系结构,熟练使用相关开发调试工具,擅长软件性能分析和优化,能在紧约束条件下充分利用硬件资源,深度优化提升软件效率; 8、勇于承担责任，良好的沟通能力和团队合作精神； 9、较好的英文阅读能力。有兴趣的朋友，请联系我，企鹅号码：1537906585

2016-05-04 17:40:52

请提供DSP48 slice中的Multipumping示例

嗨，我正在使用两个使用级联链路连接的DSP48切片来执行所需的操作。我想尝试多泵操作以有效地使用DSP48切片。请提供DSP48 slice中的Multipumping示例。提前致谢

2019-08-06 10:42:26

请问DSP28335 int8怎么自己宏定义？

本帖最后由一只耳朵怪于 2018-6-13 16:29 编辑大家好，使用28335也有1年多了，这个数制问题一直困扰我，就是如何自己定义8位的int型整数？在网上搜到的 typedef CPU_INT08U uint8; //[0 255]，这个能用么？谢谢大家～

2018-06-13 04:13:04

请问tms320c6670中TCP3D的软量都是INT8字型的？

本帖最后由一只耳朵怪于 2018-6-25 14:58 编辑不能是INT16字型的？INT8精度不够呀~

2018-06-25 01:12:25

请问在新CPU上推断INT8模型的速度是否比旧CPU快？

与采用旧 CPU 的推理相比，在新 CPU 上推断的 INT8 模型的推理速度更快。

2023-08-15 08:28:42

High Performance DSP Solutions

High DSP Performance Platform– The DSP48E Slice– Essential DSP Building Blocks• Imaging Algorithms

2009-04-09 22:05:31

MPEG4-SP在DSP上的优化分析

本文简要介绍了MPEG4-SP在DSP TM1300上的实现和优化过程。分析了其性能优化原理，给出了性能优化中使用到的几个技巧，最终取得了满意的优化效果。

2009-05-09 14:14:45

CDMA网络深度覆盖的天线应用与RSSI指标优化分析

CDMA网络深度覆盖的天线应用与RSSI指标优化分析，很好的网络资料，快来学习吧。

2016-04-19 11:30:48

System generator DSP48E1 (1)：端口说明

、乘加(MACC, )，乘加，三输入加法等等。该架构还支持串联多个DSP48E1 slice，避免使用fpga逻辑功能的繁琐。 System generator DSP48E1 模块参数双击dsp48e1模块

2017-02-08 01:07:12

595

S2C的KU115逻辑模块具备很强的DSP原型功能

UltraScale DSP48E2 Slice 完美结合在一起。Prodigy KU 逻辑模块理想适用于计算密集型应用；根据 S2C 的介绍，该模块提供的 DSP 资源比市场上任何原型板都要多。除了数千

2017-02-08 12:19:14

884

Xilinx可编程逻辑器件设计与开发（基础篇）连载14：Spartan

为了适应越来越复杂的DSP运算，Spartan-6在Spartan 3A DSP模块DSP48A 基础上，不断进行功能扩展，推出了功能更强大的DSP48A1 SLICE。

2017-02-11 08:53:13

992

Xilinx可编程逻辑器件设计与开发（基础篇）连载24：Spartan

为了适应越来越复杂的DSP运算，Virtex-6中嵌入了功能更强大的DSP48E1 SLICE，简化的DSP48E1模块如图5-16所示。

2017-02-11 09:17:13

1391

Xilinx INT8 优化开发嵌入式视觉

赛灵思 INT8 优化为使用深度学习推断和传统计算机视觉功能的嵌入式视觉应用提供最优异的性能和能效最出色的计算方法。与其他 FPGA/DSP 架构相比，赛灵思的集成 DSP 架构在 INT8 深度学习运算上能实现 1.75 倍的性能优势。

2017-09-22 17:27:11

5280

盘点几种深度学习库

类库，用数组向量来定义和计算数学表达式。它使得在Python环境下编写深度学习算法变得简单。在它基础之上还搭建了许多类库。Keras是一个简洁、高度模块化的神经网络库，它的设计参考了Torch，用Python语言编写，支持调用GPU和CPU优化后的Theano运算。

2017-11-16 14:20:45

2873

深度学习在IoT大数据和流分析中的应用

这篇论文对于使用深度学习来改进IoT领域的数据分析和学习方法进行了详细的综述。

2018-03-01 11:05:12

7452

解读深度学习与大数据分析研究进展

在研究基于大数据框架将深度学习的分布式实现后，王万良指出，人工智能是大数据分析领域的研究主流，基于深度学习的大数据分析方法发展最为迅速，GPU成为深度学习的更高效的硬件平台，研究分布式计算智能优化算法将解决大数据优化问题，能够提升算法的效果并降低计算复杂度。

2018-09-26 16:56:13

8879

利用DSP48E2 Slice中的宽MUX产品反馈

了解如何为UltraScale +设计添加额外的安全级别。该视频演示了如何防止差分功耗分析（DPA），以在比特流配置之上增加额外的安全性。

2018-11-27 06:24:00

2667

Virtex-7 FPGA系列DSP Slice功能的讨论

本视频介绍了7系列FPGA的DSP Slice功能。此外，还讨论了Pre-Adder和Dynamic Pipeline控制资源。

2018-11-26 06:02:00

6700

赛灵思INT8优化为嵌入式视觉应用性能和计算方法

赛灵思的 DSP 架构和库针对 INT8 运算进行了精心优化。本白皮书介绍如何使用赛灵思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice，在共享相同内核权重的同时处理两个并行的 INT8 MACC 运算。

2019-07-29 11:19:32

2303

赛灵思INT8优化为嵌入式视觉应用提供性能和计算方法

要使用可编程逻辑上的 DSP 实现中值滤波器，可以对算法做改动。每次比较运算可以分为减法运算及后续的符号位检查。对减法运算，DSP48E2 Slice 能够以四个 12 位或两个 24 位模式进行运算。要充分利用 DSP48E2 Slice，可以并行运算多个像素。

2019-07-30 08:59:46

2913

晶心科技和Deeplite携手合作高度优化深度学习模型解决方案

晶心科技今日宣布将携手合作，在基于AndeStar™ V5架构的晶心RISC-V CPU核心上配置高度优化的深度学习模型，使AI深度学习模型变得更轻巧、快速和节能。

2019-12-31 16:30:11

1002

Intel Xe独立显卡获得新技能将支持Int8整数数据

Intel近日发布了最新版的高性能深度学习优化库DNNL 1.2，证实即将推出的全新Xe架构独立GPU的一项新技能，那就是支持Int8整数数据类型。

2020-02-04 15:31:19

1258

深度学习中多种优化算法

在深度学习中，有很多种优化算法，这些算法需要在极高维度（通常参数有数百万个以上）也即数百万维的空间进行梯度下降，从最开始的初始点开始，寻找最优化的参数，通常这一过程可能会遇到多种的情况

2020-08-28 09:52:45

2268

DSP48的演变史

DSP48最早出现在XilinxVirtex-4 FPGA中，但就乘法器而言，Virtex-II和Virtex-II Pro中就已经有了专用的18x18的乘法器，不过DSP48可不只是乘法器，其功能

2020-10-30 17:16:51

5770

什么是深度学习，深度学习能解决什么问题

深度学习是机器学习与神经网络、人工智能、图形化建模、优化、模式识别和信号处理等技术融合后产生的一个领域。

2020-11-05 09:31:19

4711

DSP48E1详解（3）： DSP48E1属性

A、B、C、CARRYIN、CARRYINSEL、OPMODE、BCIN、PCIN、ACIN、ALUMODE、CARRYCASCIN、MULTSIGNIN以及相应的时钟启用输入和复位输入都是保留端口。D和INMODE端口对于DSP48E1片是唯一的。本节详细描述DSP48E1片的输入端口

2022-07-25 18:00:18

4429