0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习推断应用为什么应该考虑专用硬件?

YCqV_FPGA_EETre 来源:赛灵思 作者:Quenton Hall 2021-03-10 15:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2014 年,斯坦福大学教授 Mark Horowitz 发表了一篇题目为“计算的能源问题(以及我们该怎么办)”的论文。这篇具有深远意义的论文,讨论了当前半导体行业所面临的最热门的、与登纳德缩放比例定律 (Dennard Scaling )和摩尔定律 (Moore’s Law) 失效相关的挑战。

如果可以的话,我想借用并改编一下 Mark 的论文标题,这样我就可以就机器学习推断应用为什么应该考虑专用硬件,分享一下我的一些观点。

专用硬件加速实在必行

首先,让我们考虑一下问题的症结所在。大约在2005 年,处理器内核时钟频率的增长进入了瓶颈。缩小工艺尺寸和降低内核电压不再像以前一样能够为我们带来优势。其根本的问题,就是计算已经达到了功率密度(W/mm2)的极限。

如果我们在同一个裸片上放置更多的内核,我们就可以在相同的功耗预算下增加运算数量,但其前提是我们还还要在一定程度上降低时钟频率,以抵消额外内核所消耗的能量。AMD英特尔都是在 2005-2006 年期间发布了他们的首个双核处理器,这并不是巧合。然而,随着我们继续尝试增加内核的数量,我们必须考虑每个运算所消耗的能量和每个运算所需的芯片面积。此外,我们还需要确保我们能够通过 N 来有效地实现并行算法,其中 N 是内核的数量。对于所有的算法来说,这一问题的通用解决方案,或者说“计算饱和的灵丹妙药”仍然是一个难以捉摸的问题,现在最好的解决方法就是应用“自适应硬件”。

事实证明,无论您的处理器设计是使用多核 CPUGPU 还是 SoC 实现的,在处理器级的总体功耗分布都将大致相同。

所以假若我们估算出以下的情况便较为接近真实情况:

内核 = 30%

内部存储器(L1、L2、L3)= 30%

外部存储器(DDR)= 40%

在上面的分析中,我们没有考虑的是还存在另外一个总体优化的方式,那就是专用硬件加速器优化的实现方式。我们可以对专用硬件进行优化以极高效地执行特定的功能。通常情况下,这种硬件是为了减少外部存储器访问而设计的,其同时减少了时延与功耗。我们可以对专用硬件进行优化,以便给定算法的数据运动部分使用本地化存储器 (BlockRAM、UltraRAM) 来进行中间结果的存储。

设计高效的加速器是多维度的设计问题:

我们如何实现硬件优化来处理我们的特定算法?(Mark 很好地回答了这一问题,即必须将算法从“所有算法的空间”移动到“受限空间”。)

我们如何保持携带数据的加速器,以确保我们的计算加速器在每个时钟周期都是饱和的?

我们如何最大限度地减少通信开销?

我们如何优化正在处理的运算符的动态范围?

我们如何最大限度地减少外部存储器,甚至是本地存储器的使用?

我们如何消除指令处理管道开销?

我们如何安排操作以确保数据重用,从而使存储器流量最小化,并且使存储器访问相关的运算数量最大化?

自适应硬件的战略优势这里,我们将讨论和评估赛灵思的自适应硬件及 DNNDK 如何应对上述这些尖锐的问题和挑战,特别是当它涉及到机器学习推断时。在进行下一次设计之前,我建议您回顾一下 Mark 有关这个主题的精彩演讲,然后再考虑如何在您的下一次设计中使用自适应硬件来实现您的战略优势。

在这篇文章的第 2 部分中,我们将讨论和评估赛灵思的自适应硬件及 DNNDK (现在已经发布Vitis AI 统一软件平台) 如何应对这些挑战,特别是当它涉及到机器学习推断时。

原文标题:人工智能引发能源问题,我们该怎么办?(一)

文章出处:【微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296597
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261515

原文标题:人工智能引发能源问题,我们该怎么办?(一)

文章出处:【微信号:FPGA-EETrend,微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    risc-v中浮点运算单元的使用及其设计考虑

    RISC-V浮点运算单元(floating-point unit,简称FPU)是一种专门用于执行浮点运算的硬件加速器,其作用是提高浮点运算速度,在科学计算、图像处理和机器学习等应用领域有着广泛
    发表于 10-21 14:46

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 2633次阅读

    大模型在半导体行业的应用可行性分析

    的应用,比如使用机器学习分析数据,提升良率。 这一些大模型是否真的有帮助 能够在解决工程师的知识断层问题 本人纯小白,不知道如何涉足这方面 应该问什么大模型比较好,或者是看什么视频能够涉足这个行业
    发表于 06-24 15:10

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1178次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>

    全志科技机器专用芯片MR527与MR813特性概述

    全志科技机器专用芯片MR527是八核高性能机器专用芯片; MR527系列芯片集成了8核Arm® Cortex®-A55 CPU、NPU、-GPU、MCU等多个高性能计算单元,具有强
    的头像 发表于 04-24 14:58 2998次阅读
    全志科技<b class='flag-5'>机器</b>人<b class='flag-5'>专用</b>芯片MR527与MR813特性概述

    **【技术干货】Nordic nRF54系列芯片:传感器数据采集与AI机器学习的完美结合**

    和更多外设接口。无论是运行还是休眠状态,功耗表现都非常出色! 3. 在传感器数据采集与AI机器学习中的优势? 答:主频高、功耗低,内置专用核处理数据采集,还配备AI加速器,让AI算法运行更高效! 4.
    发表于 04-01 00:00

    请问STM32部署机器学习算法硬件至少要使用哪个系列的芯片?

    STM32部署机器学习算法硬件至少要使用哪个系列的芯片?
    发表于 03-13 07:34

    为什么无法从源代码推断OpenVINO™构建中的VPU?

    为什么无法从源代码推断OpenVINO™构建中的 VPU
    发表于 03-06 07:12

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 619次阅读

    嵌入式机器学习的应用特性与软件开发环境

    作者:DigiKey Editor 在许多嵌入式系统中,必须采用嵌入式机器学习(Embedded Machine Learning)技术,这是指将机器学习模型部署在资源受限的设备(如微
    的头像 发表于 01-25 17:05 1210次阅读
    嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

    如何快速学习硬件电路

    对于想要学习硬件电路的新手来说,一开始可能感到有些困难,但只要掌握了正确的学习方法和技巧,就能够快速地成为一名优秀的硬件电路工程师。 首先,新手需要了解基本的电路知识,例如电阻、电容、
    的头像 发表于 01-20 11:11 1949次阅读
    如何快速<b class='flag-5'>学习</b><b class='flag-5'>硬件</b>电路

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。 01 传统机器
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 699次阅读

    zeta在机器学习中的应用 zeta的优缺点分析

    在探讨ZETA在机器学习中的应用以及ZETA的优缺点时,需要明确的是,ZETA一词在不同领域可能有不同的含义和应用。以下是根据不同领域的ZETA进行的分析: 一、ZETA在机器学习
    的头像 发表于 12-20 09:11 1626次阅读

    考虑深圳国企岗位的基带硬件工程师吗?

    基带工程师(岗位进去主要做信创类和5G手持终端模块类等) 考虑可微信联系:Bonnie2017060132 职位介绍 1、从事MTK/高通等平台的手机硬件设计。能够独立完成器件选型,原理图
    发表于 12-12 14:49