0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能引发的图像分类算法

454398 来源:赛灵思 作者:Quenton Hall 2020-11-16 16:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Quenton Hall,赛灵思公司工业、视觉、医疗及科学市场的 AI 系统架构师

在上一篇文章中,我们简要介绍了更高层次的问题,这些问题为优化加速器的需求奠定了基础。作为一个尖锐的问题提醒,现在让我们通过一个非常简单的图像分类算法,来看一看与之相关联的计算成本与功耗。

利用 Mark Horowitz 提供的数据点,我们可以考虑图像分类器在不同空间限制下的相对功耗。虽然您会注意到 Mark 的能耗估计是针对 45nm 节点的,但业界专家建议,这些数据点将继续按当前的半导体工艺尺寸进行调整。也就是说,无论工艺尺寸是 45nm 还是 16nm,与 FP32 运算相比,INT8 运算的能量成本仍然低一个数量级。

人工智能引发能源问题,我们该怎么办?
数据来源:Bill Dally(斯坦福),Cadence 嵌入式神经网络峰会,2017 年 2 月 1 日

功耗可按以下方式进行计算:

功耗 = 能量(J)/运算*运算/s

从这个等式中我们可以看出,只有两种方法能够降低功耗:要么减少执行特定运算所需的功耗,要么减少运算的次数,或者一起减少。

对于我们的图像分类器,我们将选择ResNet50作为一个目标。ResNet 提供了近乎最先进的图像分类性能,同时与众多具有类似性能的可比网络相比,它所需的参数(权重)更少,这便是它的另一大优势。

为了部署 ResNet50,我们每次推断必须大约 77 亿运算的算力。这意味着,对于每一幅我们想要分类的图像,我们将产生 7.7 * 10E9 的“计算成本”。

现在,让我们考虑一个相对高容量的推断应用,在该应用中,我们可能希望每秒对 1000 幅图像进行分类。坚持沿用 Mark 的 45nm 能量估算,我们得出以下结论:

功耗 = 4pJ + 0.4pJ/运算*7.7B运算/图像 * 1000图像/s

= 33.88W

作为创新的第一维度,我们可以将网络从 FP32 量化到 8 位整数运算。这将功耗降低了一个数量级以上。虽然在训练期间 FP32 的精度有利于反向传输,但它在像素数据的推断时间几乎没有创造价值。大量研究和论文已经表明,在众多应用中,可以分析每一层的权重分布并对该分布进行量化,同时将预量化的预测精度保持在非常合理的范围内。

此外,量化研究还表明,8 位整数值对于像素数据来说是很好的“通用”解决方案,并且对于典型网络的许多内层,可以将其量化到 3-4 位,而在预测精度上损失最小。由 Michaela Blott 领导的赛灵思研究实验室团队多年来一直致力于二进制神经网络 (BNN) 的研究与部署,并取得了一些令人瞩目的成果。(如需了解更多信息,请查看 FINN 和 PYNQ)

如今,我们与DNNDK的重点是将网络推断量化至 INT8。现代赛灵思 FPGA 中的单个 DSP 片可以在单个时钟周期内计算两个 8 位乘法运算,这并非巧合。在 16nm UltraScale+ MPSoC 器件系列中,我们拥有超过 15 种不同的器件变型,从数百个 DSP 片扩展到数千个 DSP 片,同时保持应用和/OS 兼容性。16nm DSP 片的最大 fCLK 峰值为 891MHz。因此,中型 MPSoC 器件是功能强大的计算加速器。

现在,让我们考虑一下从 FP32 迁移到 INT8 的数学含义:

功耗 = 0.2pJ+0.03pJ/运算*7.7B运算/图像*1000图像/s

= 1.771W

Mark 在演讲中,提出了一个解决计算效率问题的方法,那就是使用专门构建的专用加速器。他的观点适用于机器学习推断。

上述分析没有考虑到的是,我们还将看到 FP32 的外部 DDR 流量至少减少四倍。正如您可能预料到的那样,与外部存储器访问相关的功耗成本比内部存储器高得多,这也是事实。如果我们简单地利用 Mark 的数据点,我们会发现访问 DRAM 的能量成本大约是 1.3-2.6nJ,而访问 L1 存储器的能量成本可能是 10-100pJ。看起来,与访问内部存储器(如赛灵思 SoC 中发现的 BlockRAM 和 UltraRAM)的能量成本相比,外部 DRAM 访问的能量成本至少高出一个数量级。

除了量化所提供的优势以外,我们还可以使用网络剪枝技术来减少推断所需的计算工作负载。使用赛灵思Vitis AI 优化器工具,可以将在 ILSCVR2012(ImageNet 1000 类)上训练的图像分类模型的计算工作负载减少 30-40%,精度损失不到 1%。再者,如果我们减少预测类的数量,我们可以进一步增加这些性能提升。现实情况是,大多数现实中的图像分类网络都是在有限数量的类别上进行训练的,这使得超出这种水印的剪枝成为可能。作为参考,我们其中一个经过剪枝的 VGG-SSD 实现方案在四个类别上进行训练,需要 17 个 GOP(与原始网络需要 117 个 GOP 相比),在精度上没有损失!谁说 VGG 没有内存效率?

然而,如果我们简单地假设我们在 ILSCVR2012 上训练我们的分类器,我们发现我们通常可以通过剪枝减少大约 30% 的计算工作负载。考虑到这一点,我们得出以下结论:

功耗 = 0.2pJ+0.03pJ/运算*7.7B运算/图像0.7*1000图像/s

= 1.2397W

将此值与 FP32 推断的原始估计值 33.88W 进行比较。

虽然这种分析没有考虑到多种变量(混合因素),但显然存在一个重要的优化机会。因此,当我们继续寻找遥遥无期的“解决计算饱和的灵丹妙药”时,考虑一下吴恩达断言“AI 是新电能”的背景。我认为他并不是在建议 AI 需要更多的电能,只是想表明 AI 具有极高的价值和巨大的影响力。所以,让我们对 ML 推断保持冷静的头脑。对待机器学习推断应保持冷静思考,既不必贸然跟风,也无需针对高性能推断设计采用液态冷却散热。

在本文的第三篇中我们还将就专门构建的“高效”神经网络模型的使用以及如何在赛灵思应用中利用它们来实现更大的效率增益进行讨论。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • dsp
    dsp
    +关注

    关注

    559

    文章

    8214

    浏览量

    363966
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106796
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296590
  • 半导体工艺
    +关注

    关注

    19

    文章

    107

    浏览量

    26893
  • MPSoC
    +关注

    关注

    0

    文章

    202

    浏览量

    25077
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍这对开发人员意味着什么,以及使用 Neuton 模型如何改进您的开发和终端
    发表于 08-31 20:54

    迅为iTOP-RK3568人工智能开发板mobilenet图像分类模型推理测试

    想快速验证MobileNet图像分类模型的实际运行效果?迅为iTOP-RK3568人工智能开发板,让模型推理测试高效又省心。
    的头像 发表于 08-28 15:53 1266次阅读
    迅为iTOP-RK3568<b class='flag-5'>人工智能</b>开发板mobilenet<b class='flag-5'>图像</b><b class='flag-5'>分类</b>模型推理测试

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    的深度学习,构建起从基础到前沿的完整知识体系,一门实验箱就能满足多门课程的学习实践需求,既节省经费又不占地 。 五、代码全开源,学习底层算法 所有实验全部开源,这对于想要深入学习人工智能技术的人来说
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    的深度学习,构建起从基础到前沿的完整知识体系,一门实验箱就能满足多门课程的学习实践需求,既节省经费又不占地 。 五、代码全开源,学习底层算法 所有实验全部开源,这对于想要深入学习人工智能技术的人来说
    发表于 08-07 14:23

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能
    发表于 07-14 11:23

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10

    谷东智能亮相2025深圳国际人工智能展览会

    近日,以 “智联万物·端启未来” 为主题的 2025 全球人工智能终端展暨第六届深圳国际人工智能展盛大开幕。这场人工智能领域的盛会汇聚了众多国内外领军企业,展示了人工智能终端技术的最新
    的头像 发表于 05-26 17:11 1900次阅读

    开售RK3576 高性能人工智能主板

    ,HDMI-4K 输出,支 持千兆以太网,WiFi,USB 扩展/重力感应/RS232/RS485/IO 扩展/I2C 扩展/MIPI 摄像头/红外遥控 器等功能,丰富的接口,一个全新八核拥有超强性能的人工智能
    发表于 04-23 10:55

    支持实时物体识别的视觉人工智能微处理器RZ/V2MA数据手册

    DRP-AI 采用了一种由动态可重构处理器(DRP)和 AI-MAC组成的人工智能加速器,该加速器可加速人工智能推理,实现高速的人工智能推理和低功耗,无需散热器或散热风扇就能进行实时图像
    的头像 发表于 03-18 18:12 742次阅读
    支持实时物体识别的视觉<b class='flag-5'>人工智能</b>微处理器RZ/V2MA数据手册

    人工智能对智慧园区的提升和帮助

    ,进一步提升了智慧园区的运营效率、安全性和用户体验,为园区的可持续发展提供了强有力的支持。以下是人工智能对智慧园区的提升和帮助的具体体现。 1.提升运营效率 人工智能通过自动化技术和智能算法,显著提高了智慧园区的运
    的头像 发表于 03-13 14:39 739次阅读

    一文速览:人工智能(AI)算法与GPU运行原理详解

    本文介绍人工智能的发展历程、CPU与GPU在AI中的应用、CUDA架构及并行计算优化,以及未来趋势。 一、人工智能发展历程 当今,人工智能(Artificial Intelligence)已经深刻
    的头像 发表于 02-14 10:28 1394次阅读
    一文速览:<b class='flag-5'>人工智能</b>(AI)<b class='flag-5'>算法</b>与GPU运行原理详解

    我国生成式人工智能的发展现状与趋势

    (Generative Artificial Intelligence, GenAI)推动人工智能算法智能(Algorithmic Intelligence,AI)进入语言智能(Li
    的头像 发表于 02-08 11:31 2121次阅读

    AI人工智能系统怎么助力电子行业发展

    一、数据处理方面 AI人工智能系统在数据处理领域有着重要的作用。它能够高效地处理海量的数据。例如,在金融行业,每天都会产生大量的交易数据,AI系统可以对这些数据进行快速的收集、整理和分析。它可以运用
    的头像 发表于 01-23 09:55 636次阅读

    Embarcadero:人工智能驱动发展我们的期望是什么

    发展的方向。 这是一张在simplified.com上,通过提示“屏幕上有人工智能的笔记本电脑”而生成的人工智能图像。这一实现令人印象深刻,但同样任重道远。图像和电影比文本更难处理。难
    的头像 发表于 01-15 10:46 646次阅读

    人工智能推理及神经处理的未来

    、个性化和效率的社会需求,又进一步推动了人工智能技术的集成。此外,不断发展的监管体系,则强调了合乎伦理道德的人工智能、数据隐私和算法透明度的重要性,进而指导人工
    的头像 发表于 12-23 11:18 869次阅读
    <b class='flag-5'>人工智能</b>推理及神经处理的未来