0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

许多不同的硬件架构在深度学习市场中共存

0BFC_eet_china 来源:未知 作者:伍文辉 2017-12-22 08:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在深度神经网络(DNN)发展的简短历史中,业界不断尝试各种可提升性能的硬件架构。通用CPU最容易编程,但每瓦特性能的效率最低。GPU针对平行浮点运算进行了优化,性能也比CPU更高几倍。因此,当GPU供货商有了一大批新客户,他们开始增强设计,以进一步提高DNN效率。例如,Nvidia新的Volta架构增加专用矩阵乘法单元,加速了常见的DNN运算。

即使是增强型的GPU,仍然受其图形专用逻辑的拖累。此外,尽管大多数的训练仍然使用浮点运算,但近来的趋势是使用整数运算进行DNN推论。例如Nvidia Volta的整数性能,但仍然建议使用浮点运算进行推论。芯片设计人员很清楚,整数单元比浮点单元更小且功效更高得多;当使用8位(或更小)整数而非16位或32位浮点数时,其优势更加明显。

相较于GPU,DSP则是针对整数数学而设计的,特别适用于卷积神经网络(CNN)中的卷积函数。向量DSP使用宽SIMD单元进一步加速推论计算,例如,Cadence的C5 DSP核心包括四个2048位宽度的SIMD单元;因此,核心在每个周期内可以完成1,024个8位整数乘法累加(MAC)作业。在16nm设计中,它能每秒处理超过1兆个MAC运算。联发科技(MediaTek)即取得了Cadence的DSP IP授权,用于其最新智能手机处理器的DNN加速器。

新架构的机会

最有效率的架构是从头开始设计DNN,消除其它应用的特性,并针对DNN需要的特定计算进行优化。这些架构能建置于专用ASIC或销售至系统制造商的芯片(这些芯片称为专用标准产品或ASSP)中。最显著的DNN ASIC是Google的TPU,它为推论任务进行了优化,主要包括65,536个MAC单元的脉动数组和28MB内存,以容纳DNN权重和累加器。TPU使用一个简单的四阶流水线,而且只执行少数指令。

多家新创公司也在为DNN开发客制架构。英特尔(Intel)去年收购了其中的一家(Nervana),并计划在今年年底前出样其第一款ASSP;但该公司尚未透露该架构的任何细节。Wave Computing为DNN开发了数据流处理器。其它为此获得众多资金的新创公司包括Cerebras、Graphcore和Groq。我们预计这些公司至少有几家会在2018年投产组件。

另一种建置优化架构的方法是利用FPGA。微软(Microsoft)广泛采用FPGA作为其Catapult和Brainwave计划的一部份;百度(Baidu)、Facebook以及其它云端服务器供货商(CSP)也使用FPGA加速DNN。这种方法避免了数百万美元的ASIC和ASSP投片费用,并提供了更快的产品验证时程;只要设计改动,FPGA就能在几分钟内重新编程和设计。但它们作业于较低的时钟速率,并且比ASIC所能容纳的逻辑块更少得多。图1总结了我们对这些解决方案之间相对效率的看法。

许多不同的硬件架构在深度学习市场中共存
图1:根据不同的硬件设计,各种深度学习加速器之间的性能/功耗比至少存在两个数量级的差异

有些公司藉由客制程度更高的加速器来强化现有设计,从而提供了一定的空间与弹性,例如,Nvidia专为自动驾驶车设计的Xavier芯片增加了一个整数数学模块以加速DNN推论。Ceva和新思科技(Synopsys)设计了类似的单元,以便增强其SIMD DSP核心。这些模块只包含大量的整数MAC单元,从而提高了数学运算效率。然而,由于他们并未置换底层的GPU或DSP架构,所以也不像从头设计那么有效率。

客制设计的挑战之一在于深度学习算法持续迅速发展中。时下最流行的DNN开发工具TensorFlow两年前才出现,数据科学家们已经在评估新的DNN结构、卷积函数和数据格式了。对于两年后的DNN来说,如今为现有工作负载客制的设计可能不再是理想的选择,或甚至无法发挥作用。为了解决这个问题,大多数的ASIC和ASSP设计都是可编程且灵活的,但是FPGA提供了最大灵活度。例如,微软已经将专有的9位浮点格式定义为其Brainwave深度学习平台的一部份。

融会贯通各种选择

纵观深度学习发展史,半导体产业通常首先在通用CPU中实现新应用。如果应用适用于现有的专用芯片,如GPU和DSP,那么接下来可能会转移到这两者。随着时间的推移,如果新应用发展成一个规模市场,业界公司就会开始开发ASIC和ASSP,虽然这些组件可能保留一定的可编程性。只有当算法变得极其稳定时(例如MPEG),才能真的看到以固定功能逻辑的应用建置。

深度学习目前也正按这一发展路线展开。GPU和DSP显然是适用的,而且因需求够高,所以ASIC开始出现。几家新创公司和其它公司正在开发即将在2018年及其后出货的ASSP。至于少量或利基应用,FPGA通常更受欢迎;深度学习已经显示出足以为ASIC投片带来的前景了。

然而,哪一种DNN架构将会胜出?如今看来还不够明朗。尽管深度学习市场正迅速成长,但仍远低于PC、智能手机和汽车市场。因此,ASIC和ASSP的商业案例看起来还微不足道。相形之下,像英特尔和Nvidia这样的公司可以采用来自其它市场的高性能处理器,并增强其深度学习,透过大量的软件支持和持续的更新以提供具竞争力的产品。未来几年,我们将会看到许多不同的硬件架构在深度学习市场中共存。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5615

    浏览量

    124884
  • 硬件架构
    +关注

    关注

    0

    文章

    32

    浏览量

    9360
  • dnn
    dnn
    +关注

    关注

    0

    文章

    61

    浏览量

    9572

原文标题:谁才是深度学习架构之王?

文章出处:【微信号:eet-china,微信公众号:电子工程专辑】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业触摸显示屏核心触控原理与硬件架构全解析

    特性,能够适配粉尘、振动、高低温、电磁干扰、潮湿等复杂工业场景。其稳定运行的核心,依托于成熟的触控工作原理与模块化、高集成度的硬件架构。本文将深度拆解工业触摸显示屏主流触控原理、完整硬件
    的头像 发表于 06-01 16:13 143次阅读

    2026深度解析:领先业界的FPGA硬件定制伙伴推荐

    随着2026年的到来,国产FPGA板卡定制服务领域已从早期的“填补空白”迈入“引领创新”的新阶段。自主可控、异构计算与垂直行业深度智能化的多重驱动下,市场对FPGA定制服务的需求不再仅限于
    发表于 05-18 15:05

    深度学习为什么还是无法处理边缘场景?

    选择视而不见甚至直接加速。 之所以出现这个问题,是因为深度学习模型大多建立统计学基础之上,它们通过观察数以千万计的图像学习识别物体的特征。然而,真实世界的道路场景是无限多样的,这种基
    的头像 发表于 05-04 10:16 2331次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>为什么还是无法处理边缘场景?

    2026年低代码平台市场综合评测:国内10大低代码平台深度解析

    至24周。本文结合Gartner、中国信通院等权威机构数据,全面解析低代码市场现状,并深度测评国内10大主流低代码平台,为企业选型提供精准参考。 一、2026年低代码平台市场综合数据 1.全球
    发表于 03-30 16:02

    nRF7002是如何实现PTA共存

    Packet Traffic Arbitration(分组流量仲裁)模块 它是 nRF70 系列(包括 nRF7002)内部的一个硬件模块,用来 Wi‑Fi 和 短距无线(Bluetooth LE
    发表于 02-12 10:08

    机器学习深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型
    的头像 发表于 01-07 15:37 434次阅读
    机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    穿孔机顶头检测仪 机器视觉深度学习

    ,能适用恶劣工况,粉尘、高温、氧化皮等恶劣环境中均可正常工作。 测量原理 利用顶头与周围的物质(水、空气、导盘等)红外辐射能量的差异,用热成像相机拍摄出清晰的图片,再通过深度学习短时间内深度
    发表于 12-22 14:33

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    行业市场具备深度学习能力的视觉系统占比已突破40%,催生大量复合型技术岗位需求: • 岗位缺口:视觉算法工程师全国缺口15万+,缺陷检测专项人才招聘响应率仅32% • 薪资水平:掌握LabVIEW+
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    行业市场具备深度学习能力的视觉系统占比已突破40%,催生大量复合型技术岗位需求: • 岗位缺口:视觉算法工程师全国缺口15万+,缺陷检测专项人才招聘响应率仅32% • 薪资水平:掌握LabVIEW+
    发表于 12-03 13:50

    请问UART硬件FIFO深度是多少?如何避免数据溢出?

    UART 硬件 FIFO 深度是多少?如何避免数据溢出?
    发表于 11-21 06:59

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    、Transformer 模型的后继者 二、用创新方法实现深度学习AI芯片 1、基于开源RISC-V的AI加速器 RISC-V是一种开源、模块化的指令集架构(ISA)。优势如下: ①模块化特性②标准接口③开源
    发表于 09-12 17:30

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 讨论人工智能(AI)或深度学习时,经常会出现“
    的头像 发表于 09-10 17:38 1170次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4494次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    ARM入门学习方法分享

    的关键。一旦你掌握了ARM的基本概念和汇编语言,你可以开始进行一些简单的ARM项目。你可以尝试编写一些简单的程序,如LED闪烁、按键输入等,以加强你的实践能力。 五、学习硬件知识:要深入理解ARM架构
    发表于 07-23 10:21

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多
    的头像 发表于 06-10 14:24 1534次阅读
    Transformer<b class='flag-5'>架构</b>概述