0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习推断应用为什么应该考虑专用硬件?

YCqV_FPGA_EETre 来源:赛灵思 作者:Quenton Hall 2021-03-10 15:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2014 年,斯坦福大学教授 Mark Horowitz 发表了一篇题目为“计算的能源问题(以及我们该怎么办)”的论文。这篇具有深远意义的论文,讨论了当前半导体行业所面临的最热门的、与登纳德缩放比例定律 (Dennard Scaling )和摩尔定律 (Moore’s Law) 失效相关的挑战。

如果可以的话,我想借用并改编一下 Mark 的论文标题,这样我就可以就机器学习推断应用为什么应该考虑专用硬件,分享一下我的一些观点。

专用硬件加速实在必行

首先,让我们考虑一下问题的症结所在。大约在2005 年,处理器内核时钟频率的增长进入了瓶颈。缩小工艺尺寸和降低内核电压不再像以前一样能够为我们带来优势。其根本的问题,就是计算已经达到了功率密度(W/mm2)的极限。

如果我们在同一个裸片上放置更多的内核,我们就可以在相同的功耗预算下增加运算数量,但其前提是我们还还要在一定程度上降低时钟频率,以抵消额外内核所消耗的能量。AMD英特尔都是在 2005-2006 年期间发布了他们的首个双核处理器,这并不是巧合。然而,随着我们继续尝试增加内核的数量,我们必须考虑每个运算所消耗的能量和每个运算所需的芯片面积。此外,我们还需要确保我们能够通过 N 来有效地实现并行算法,其中 N 是内核的数量。对于所有的算法来说,这一问题的通用解决方案,或者说“计算饱和的灵丹妙药”仍然是一个难以捉摸的问题,现在最好的解决方法就是应用“自适应硬件”。

事实证明,无论您的处理器设计是使用多核 CPUGPU 还是 SoC 实现的,在处理器级的总体功耗分布都将大致相同。

所以假若我们估算出以下的情况便较为接近真实情况:

内核 = 30%

内部存储器(L1、L2、L3)= 30%

外部存储器(DDR)= 40%

在上面的分析中,我们没有考虑的是还存在另外一个总体优化的方式,那就是专用硬件加速器优化的实现方式。我们可以对专用硬件进行优化以极高效地执行特定的功能。通常情况下,这种硬件是为了减少外部存储器访问而设计的,其同时减少了时延与功耗。我们可以对专用硬件进行优化,以便给定算法的数据运动部分使用本地化存储器 (BlockRAM、UltraRAM) 来进行中间结果的存储。

设计高效的加速器是多维度的设计问题:

我们如何实现硬件优化来处理我们的特定算法?(Mark 很好地回答了这一问题,即必须将算法从“所有算法的空间”移动到“受限空间”。)

我们如何保持携带数据的加速器,以确保我们的计算加速器在每个时钟周期都是饱和的?

我们如何最大限度地减少通信开销?

我们如何优化正在处理的运算符的动态范围?

我们如何最大限度地减少外部存储器,甚至是本地存储器的使用?

我们如何消除指令处理管道开销?

我们如何安排操作以确保数据重用,从而使存储器流量最小化,并且使存储器访问相关的运算数量最大化?

自适应硬件的战略优势这里,我们将讨论和评估赛灵思的自适应硬件及 DNNDK 如何应对上述这些尖锐的问题和挑战,特别是当它涉及到机器学习推断时。在进行下一次设计之前,我建议您回顾一下 Mark 有关这个主题的精彩演讲,然后再考虑如何在您的下一次设计中使用自适应硬件来实现您的战略优势。

在这篇文章的第 2 部分中,我们将讨论和评估赛灵思的自适应硬件及 DNNDK (现在已经发布Vitis AI 统一软件平台) 如何应对这些挑战,特别是当它涉及到机器学习推断时。

原文标题:人工智能引发能源问题,我们该怎么办?(一)

文章出处:【微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41976

    浏览量

    303077
  • 人工智能
    +关注

    关注

    1821

    文章

    50511

    浏览量

    267744

原文标题:人工智能引发能源问题,我们该怎么办?(一)

文章出处:【微信号:FPGA-EETrend,微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华北工控正式推出电力巡检机器专用AI计算机方案

    近期,华北工控(NORCO)正式推出电力巡检机器专用AI计算机方案——嵌入式AI主板 **MITX-6155** ,并提供全方位定制生产与服务。这款170mm×170mm的紧凑型主板,搭载12
    的头像 发表于 05-15 10:01 1663次阅读

    全志科技MR153系列四核机器专用芯片发布

    机器人产品开发流程的痛点出发,全志MR153系列芯片以更精简的硬件设计、更可靠的安全合规、更优的低功耗表现,优化了大部分智能机器人的核心开发难题。同时,凭借高度灵活的软硬件配置,MR
    的头像 发表于 03-19 10:08 900次阅读
    全志科技MR153系列四核<b class='flag-5'>机器</b>人<b class='flag-5'>专用</b>芯片发布

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 776次阅读

    SWD端口复用为GPIO功能

    使用库函数把SWD下载端口PA13 PA14 分别复用为UART0_RXD UART0_TXD的方法 SWD一般用于MCU的调试,用户使用Keil MDK或IAR等开发工具时,可使用该调试接口进行
    发表于 01-29 06:56

    机器视觉系统关键硬件之一-工业相机(以Dalsa为例)

    机器视觉系统的硬件之一工业相机的原理及主要参数。
    的头像 发表于 01-15 17:31 453次阅读
    <b class='flag-5'>机器</b>视觉系统关键<b class='flag-5'>硬件</b>之一-工业相机(以Dalsa为例)

    一看就懂的硬件学习教程

    本文献给那些刚开始或即将开始设计硬件电路的人。时光飞逝,离俺最初画第一块电路已有3年。刚刚开始接触电路板的时候,与你一样,俺充满了疑惑同时又带着些兴奋。在网上许多关于硬件电路的经验、知识让人目不暇接
    发表于 01-08 08:16

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 411次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    总结学习硬件设计要点

    以为把某些口诀当秘笈地记下来,就以为练成了神功,这都是不现实的。前期的学习都必须以理论为核心,少量的实践以帮助理解理论,后面就可以逐渐增加实践,理论和实践是相辅相成,缺一不可的。2、当硬件电路出了
    发表于 01-06 06:40

    芯导科技AI智能交互硬件方案介绍

    AI智能交互硬件是通过集成人工智能技术(如大语言模型、多模态交互、机器学习等),赋予传统玩具智能化交互能力的新型产品。其核心特点是‌拟人化交互和自适应学习‌,能够理解用户语言、动作甚至
    的头像 发表于 12-03 17:00 2764次阅读
    芯导科技AI智能交互<b class='flag-5'>硬件</b>方案介绍

    NPB 2.0:网络可视化告别“专用硬件”?

    传统的基于专用硬件的实现方案,例如使用TAP交换机/分流器等采集设备,其初期购置和维护成本显而易见,并且随着网络规模的扩大,采购和运维费用都将继续增长。NPB 2.0是基于 SONiC 的开放网络技术栈的前沿实践。
    的头像 发表于 11-24 16:45 1793次阅读
    NPB 2.0:网络可视化告别“<b class='flag-5'>专用</b><b class='flag-5'>硬件</b>”?

    risc-v中浮点运算单元的使用及其设计考虑

    RISC-V浮点运算单元(floating-point unit,简称FPU)是一种专门用于执行浮点运算的硬件加速器,其作用是提高浮点运算速度,在科学计算、图像处理和机器学习等应用领域有着广泛
    发表于 10-21 14:46

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3180次阅读

    AI芯片:加速人工智能计算的专用硬件引擎

    人工智能(AI)的快速发展离不开高性能计算硬件的支持,而传统CPU由于架构限制,难以高效处理AI任务中的大规模并行计算需求。因此,专为AI优化的芯片应运而生,成为推动深度学习、计算机视觉、自然语言
    的头像 发表于 07-09 15:59 2082次阅读

    大模型在半导体行业的应用可行性分析

    的应用,比如使用机器学习分析数据,提升良率。 这一些大模型是否真的有帮助 能够在解决工程师的知识断层问题 本人纯小白,不知道如何涉足这方面 应该问什么大模型比较好,或者是看什么视频能够涉足这个行业
    发表于 06-24 15:10

    电子硬件工程师如何从零开始学习?(文末免费分享从零开始学习资料)

    经常有用户咨询,如何学习和提升电子硬件能力,有没有适合小白学习的资料等等;电子硬件工程师是一个结合理论、实践和创新能力的职业,需要掌握电路设计、元器件选型、PCB设计、嵌入式系统、测试
    的头像 发表于 06-04 07:36 2899次阅读
    电子<b class='flag-5'>硬件</b>工程师如何从零开始<b class='flag-5'>学习</b>?(文末免费分享从零开始<b class='flag-5'>学习</b>资料)