卷积神经网络能用INT4为啥要用INT8？-电子发烧友网

性能挑战

企业日益重视基于 AI 的系统在数据中心、汽车、工业和医疗等领域中的产品化。

这带来了两大挑战：

AI 推断需要完成的计算量成数量级增加，同时还要保持价格、功耗、时延和尺寸大小不变。 AI 科学家继续日复一日地在算法和模型上开展创新，需要各种不同的硬件架构提供最佳性能。

方案概述

对于 AI 推断，在提供与浮点媲美的精度的同时，int8 的性能优于浮点。然而在资源有限的前提下，int8 不能满足性能要求，int4 优化是解决之道。通过 int4 优化，与现有的 int8 解决方案相比，赛灵思在实际硬件上可实现高达 77% 的性能提升。赛灵思4 位激活和 4 位权重 (4A4W) 全流程硬件友好型量化解决方案可实现更优异的精度/资源权衡取舍。

该白皮书介绍了在Zynq UltraScale+ MPSoC 和 Zynq-7000 SoC 系列（16nm和28nm）上面向CNN4位XDPU实现的低精度加速器。这种加速器通过高效地映射卷积计算，充分发挥其DSP功能。这种解决方案可提供优于XDPU两倍的解决方案级性能。在ADAS系统中执行2D检测任务时，这种实现方案能在ZynqUltraScale+MPSoCZCU102板上实现230fps的推断速度，与8位XDPU相比性能提高1.52倍。

此外，在用于ADAS系统中的不同任务时，该解决方案可实现媲美全精度模型的结果。

技术导读

对持续创新的强烈需求需要使用灵活应变的领域专用架构 (DSA)。优化 AI 推断性能和降低功耗的主要趋势之一是使用较低精度和混合精度。为降低硬件设计复杂性，模型量化被当作关键技术应用于各类硬件平台。大量工作被投入用于最大限度地降低 CNN 运算量和存储成本。这项研究充分地证明，对于大多数计算机视觉任务，在不严重牺牲精度的情况下，权重和激活可以用 int8 表达。

然而对于某些边缘应用而言，硬件资源仍然不足。在对边缘应用使用较低的位宽（如 1 位、2 位）时，一些常见的硬件设计解决方案使用简化的乘法器。尽管这些解决方案时延低、吞吐量大，但它们与全精度模型相比，仍然存在较大的精度差距。因此，在模型精度和硬件性能之间寻求平衡变得至关重要。

赛灵思运用几种常见的网络结构（ResNet50V1、ResNet50V2 、MobilenetV1和MobilenetV2），在 ImageNet 分类任务上通过使用几种不同的量化算法进行了实验。结果显示精度随着位宽减少而下降。尤其是在位宽低于 4 时精度下降显著。此外，赛灵思也使用 Williams 等介绍的 Roofline 模型，分析不同位宽下的硬件性能。

在ZCU102上以不同位宽运行Roofline模型

如图 1 所示，以赛灵思 ZCU102 评估板为例，随着 MAC 的精度降低，硬件成本降低，性能得到提高。此外，实验结果还显示，低比特量化可通过降低存储器需求提高性能。这在 ResNet-50 神经网络的卷积运算强度上得到证实。该网络分别用 8 位精度和 4 位精度进行了运算。因此，int4 在模型精度和硬件性能之间实现了最佳权衡。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98746
AI

AI

+关注

关注
87

文章
26443

浏览量
264044
adas

adas

+关注

关注
307

文章
2056

浏览量
207848

原文标题：卷积神经网络能用 INT4 为啥要用 INT8 ？- 最新白皮书下载

文章出处：【微信号：FPGA-EETrend，微信公众号：FPGA开发圈】欢迎添加关注！文章转载请注明出处。

INT8量化常见问题的解决方案

一、int8的输出和fp32模型输出差异比较大解决方案：检查前后处理是否有问题，int8网络输入输出一般需要做scale处理，看看是否遗漏？通过量化可视化工具分析int8的输

发表于 09-19 06:09

在Xilinx器件上具有INT4优化的卷积神经网络

电子发烧友网站提供《在Xilinx器件上具有INT4优化的卷积神经网络.pdf》资料免费下载

发表于 09-13 09:30 •0次下载

在Xilinx器件上具有<b class='flag-5'>INT4</b>优化的<b class='flag-5'>卷积</b><b class='flag-5'>神经网络</b>

《 AI加速器架构设计与实现》+第一章卷积神经网络观后感

的卷积进行升维和降维（如图4），还可以调整直连的位置来对其做出调整，介绍图形结合，比较利于理解。对于初端块，举例了不同初端块结构（如图5），了解到神经网络中的\"跳跃连接块\"

发表于 09-11 20:34

卷积神经网络主要包括哪些卷积神经网络组成部分

卷积神经网络主要包括哪些卷积神经网络组成部分卷积神经网络（CNN）是一类广泛应用于计算机视觉

发表于 08-21 17:15 •1095次阅读

卷积神经网络模型搭建

卷积神经网络模型搭建卷积神经网络模型是一种深度学习算法。它已经成为了计算机视觉和自然语言处理等各种领域的主流算法，具有很大的应用前景。本篇文章将详细介绍

发表于 08-21 17:11 •610次阅读

卷积神经网络的介绍什么是卷积神经网络算法

卷积神经网络的介绍什么是卷积神经网络算法卷积神经网络涉及的关键技术

发表于 08-21 16:49 •1425次阅读

卷积神经网络层级结构卷积神经网络的卷积层讲解

卷积神经网络层级结构卷积神经网络的卷积层讲解卷积神经网络

发表于 08-21 16:49 •4425次阅读

卷积神经网络的基本原理卷积神经网络发展卷积神经网络三大特点

卷积神经网络的基本原理卷积神经网络发展历程卷积神经网络三大特点

发表于 08-21 16:49 •1441次阅读

卷积神经网络三大特点

卷积神经网络三大特点卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习模型，其具有三大特点：局部感知、参数共享和下采样。一、局部感知

发表于 08-21 16:49 •3602次阅读

卷积神经网络模型原理卷积神经网络模型结构

卷积神经网络模型原理卷积神经网络模型结构卷积神经网络是一种深度学习

发表于 08-21 16:41 •660次阅读

卷积神经网络模型有哪些？卷积神经网络包括哪几层内容？

卷积神经网络模型有哪些？卷积神经网络包括哪几层内容？卷积神经网络（Convolutional

发表于 08-21 16:41 •1508次阅读

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

发表于 08-21 16:41 •1935次阅读

卷积神经网络的应用卷积神经网络通常用来处理什么

卷积神经网络的应用卷积神经网络通常用来处理什么卷积神经网络（Convolutional Ne

发表于 08-21 16:41 •3988次阅读

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法卷积

发表于 08-17 16:30 •917次阅读

类GPT模型训练提速26.5%，清华朱军等人用INT4算法加速神经网络训练

使用 INT4 算法实现所有矩阵乘法的 Transformer 训练方法。模型训练得快不快，这与激活值、权重、梯度等因素的要求紧密相关。 神经网络训练需要一定计算量，使用低精度算法（全量化训练或 FQT 训练）有望提升计算和内存的效率。FQT 在原始的全精度计算图中增加

发表于 07-02 20:35 •447次阅读

搜索历史

卷积神经网络能用INT4为啥要用INT8？

评论

INT8量化常见问题的解决方案

在Xilinx器件上具有INT4优化的卷积神经网络

《 AI加速器架构设计与实现》+第一章卷积神经网络观后感

卷积神经网络主要包括哪些卷积神经网络组成部分

卷积神经网络模型搭建

卷积神经网络的介绍什么是卷积神经网络算法

卷积神经网络层级结构卷积神经网络的卷积层讲解

卷积神经网络的基本原理卷积神经网络发展卷积神经网络三大特点

卷积神经网络三大特点

卷积神经网络模型原理卷积神经网络模型结构

卷积神经网络模型有哪些？卷积神经网络包括哪几层内容？

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

卷积神经网络的应用卷积神经网络通常用来处理什么

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法

类GPT模型训练提速26.5%，清华朱军等人用INT4算法加速神经网络训练