0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU面临挑战及应用场景解析

sakobpqhz 来源:算力基建 2023-02-06 11:45 次阅读

1、TPU 主要思路:针对人工智能算法需求裁剪计算精度

机器学习算法上,TPU比传统的加速方案(谷歌之前使用GPU加速方案)在能耗效率上提升一个数量级,相比传统解决方案领先7年(摩尔定律三代节点)。

例如在GPU中,通常支持IEEE754-2008标准浮点数操作,这一浮点数字宽为32位,其中尾数字宽为23+1(使用隐藏尾数技术)位。 如果数据通道中使用8位字宽的低精度尾数,则GPU中各个计算部件所需的晶体管和功耗均会大大减少。

例如,在GPU计算核心中,面积最大,功耗最高的计算部件是ALU,ALU中最重要的部件是浮点MA(乘加混合)单元,现有技术下这一单元的延迟与尾数的字宽log2N成大致正比,而面积/功耗/晶体管数量大体上与N2log2N成正比。 如果字宽由24比特减少到8比特,那么MA的面积可降至约1/14左右,约一个数量级。 由图可知ALU占据了GPU芯片面积的很大比例,因此单单优化ALU即可获得足够提高。

poYBAGPgd9-ASwKBAAHu3EEGYrQ730.png

除了降低字宽所带来的关键组件优化,GPU原有组件中针对图像处理的组件如光栅、材质贴图单元,均可以根据人工智能的计算需求选择优化或裁剪。 对普通GPU进行深度定制处理,削减在神经网络算法不需要的数据位宽和功能即可达到谷歌所宣称的“能耗效率上提升一个数量级”,因此业内有专家认为谷歌采用了此种思路。

2、从谷歌 TPU 设计思路看人工智能硬件发展趋势

目前的GPU加速方案以及FPGA加速方案在人工智能计算领域都存明显缺点:

在计算单元上,GPU的内置计算单元主要针对图像处理设计,计算精度过高存在浪费; FPGA的LUT功能过于弱小,没有针对低精度浮点计算优化;

在NOC架构上,FPGA和GPU原始设计匹配的目标均与神经网络计算存在很大差异性,因此用于人工智能计算加速都存在一定缺憾。

以上表现在计算需求雷达图上即为图:GPU(蓝线)和FPGA(红线)均不能较好的覆盖住人工智能的需求(绿线)。 除了进程交互问题外,实时性和计算延迟同样是人工智能加速的一个重要问题。 在人工智能的一些应用场景,如无人驾驶汽车中,汽车的运行速度可能高达40m/s,在计算中额外0.1s的延迟意味着汽车多行驶4米,这就是生与死的差距。 GPU的延迟和实时性较差从长期来看会影响其应用在类似无人驾驶这样在实时性和延迟要求较高的场景中。

pYYBAGPgd96AeC6eAADqtQBZsfA438.png

3、GPU/FPGA 用于神经网络计算的弱点:片上网络

在人工智能硬件领域,FPGA加速同样是一条有竞争力的技术路径。 早在中国搜索引擎巨头百度就尝试与Altera合作探索使用FPGA加速神经网络运算用于搜索结果的优化中,微软也在bing搜索服务中做了相似的探索。 Auviz Systems公司在2015年发布了一份研究数据,在神经网络计算中,高端FPGA可处理14个或更多图像/秒/瓦特,而同期一个高端的GPU仅能处理4个图像/秒/瓦特。

但目前学术界已有共识,不管是FPGA还是GPU,由于其最初设计匹配的计算模型与神经网络计算模型存在不同,其并行计算核心之间的通信架构-NOC(Network on Chip,片上网络)应用在神经网络运算中均存在缺点。

由于FPGA/GPU针对的并行计算模型不同,其片上网络的实现方式也就不同:

GPU最初针对图像处理SIMT类任务优化,各个处理核心之间的通信较少且形式简单,因此计算节点主要通过片上共享存储通信,原理如图: A/C计算节点分别向片上共享存储的不同地址写入数据,然后B/D通过读数据的方式完成A->B/C->D的通信。 这种片上网络每次通信涉及读写片上共享存储各一次,不仅速度慢,当通信量更多(原本不会发生在图形处理任务中)的时候存储的读写端口还会因堵塞成为系统性能的关键瓶颈。

FPGA包含大量细粒度,可编程,但功能较弱的LUT(Look up table查找表)计算节点,各个LUT之间通过网格状NOC连接,网格的节点具备Routing(路由)功能。 FPGA可以提供计算单元间直接通讯功能:A节点可通过路由网络沿着红色箭头将数据传输至芯片上任意计算节点B,且传输路径动态可编程。 因此网格NOC相比共享内存方案能提供大的多的片上通讯容量,相比之下也不易出现瓶颈节点堵塞问题。 Auviz Systems能够得出FPGA在神经网络处理中优于高端GPU的方案的结论,很大程度依靠FPGA的片上通信能力而不是羸弱的LUT计算能力。

poYBAGPgd96AJVlkAADj1gZqpSQ892.png

神经网络作为一种并行计算程序,适配的计算节点通讯硬件是提升性能的关键要素之一。 目前FPGA和GPU的片上网络架构均不完全匹配神经网络的实际需求,相比之下GPU的共享内存连接的匹配度更差一些。 学术界对于定制特殊的NOC去匹配神经网络加速需求已有一定研究,但之前因神经网络算法本身没有商用化,因此定制NOC硬件这一思路也停留在实验室内。 随着人工智能实用化和产业化的发展,这些技术将对现有的GPU/FPGA方案形成威胁和替代。

02 GPU 未来较适应场景解析

GPU虽然不能处理所有大规模并行计算问题,但在其适应的特定计算领域,特别是图形优化处理上依然具备绝对性能优势。 GPU未来较为适合拓展应用场景应为VR/AR(虚拟现实/增强现实)、云计算+游戏结合、以及云计算服务器中为特定的大数据分析提供加速。 在这些领域的增长点有可能是独立GPU突破现有增长迟缓障碍的新增长领域。

1、VR 应用:持续增长的优势领域

在VR(Virtual Reality,虚拟现实)设备性能指标中,图像显示性能是其核心竞争力。 在VR中降低从用户头部动作到画面改变的延迟至20毫秒以下是防止用户眩晕的必要条件; 而达到这点除了需要软件和OS优化以外,足够的硬件图像计算能力是基础。 表1举例了VR图形显示的要求以及大众级显卡能够提供的图形显示水平:

poYBAGPgd96ACil-AAEE8oFOS74849.png

正因目前大众显卡无法提供VR所需的图形处理计算能力,现有的两大主流头显Oculus Rift和HTC VIVE均要求配套的PC配置顶级显卡,如Nvidia GTX970或AMDR9 290级别的显卡。 从长期来看,VR/AR设备将拉动中高端GPU市场的持续增长。

VR以及AR(增强现实)更广阔的应用在于独立一体机上:独立一体机具备移动能力,让VR/AR超脱出了客厅应用这一范畴,与移动互联网结合后成为每个人都需要消费电子产品。 但移动一体机对计算芯片的能耗,体积乃至散热都有着严格的要求。 目前SoC(System on Chip, 片上系统)上集成GPU在移动一体机上的优势是独立GPU显卡暂时无法动摇的。

2、云计算/大数据应用

亚马逊风靡全球的计算平台EC2中,Nvidia GPU已经被作为一个重要的并行计算组件提供给客户,用作大规模并行浮点数计算。 用户每使用一个实例可调用两个Nvidia Tesla m2050 GPU。 在EC2中调用GPU的原理是AWS的管理程序Hypervisor被直接跳过,而DomU OS和应用可以直接通过IO与GPU通信,充分发挥GPU在浮点数的并行计算能力。

3、GPU,云和游戏服务结合

在现如今互联网基础设施已经完善的市场,把GPU和云计算以及游戏结合在一起是游戏产业下一个具有吸引力的发展方向。

对于游戏开发者,不需要担心盗版问题; 对于游戏运营商,云服务可以获得更精确的客户资料,开展新式计费; 对于游戏玩家,无需购买昂贵高端游戏主机或PC,初始投资少; 对于游戏玩家,云服务游戏更具备移动性。

目前云计算+GPU+游戏这个模式限于现有网络基础设施限制,依然没有大规模商用,但Nvidia依然对其抱有厚望并积极推动。 从这个侧面也可以看出,Nvidia自己也知道GPU未来最主要的应用领域依然是游戏的图像处理上。

GPU还有一块市场是军用GPU市场,这一市场与民用GPU市场有着很大不同。 民用GPU追求画面性能的极致,以最好的画面满足消费者,特别是游戏玩家的需求; 而军用GPU更多的要求在于高可靠性、高耐用性、抗高空辐射、能在野战环境下安全使用。 需求的导向不同导致GPU从工艺到芯片设计理念都截然不同。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5862

    浏览量

    103269
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4424

    浏览量

    126724
  • 人工智能
    +关注

    关注

    1776

    文章

    43894

    浏览量

    230634
  • 机器学习
    +关注

    关注

    66

    文章

    8132

    浏览量

    130577
  • TPU
    TPU
    +关注

    关注

    0

    文章

    132

    浏览量

    20548

原文标题:GPU面临挑战及应用场景解析

文章出处:【微信号:算力基建,微信公众号:算力基建】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【F3使用场景】F3经典使用场景

    摘要: 概括F3经典使用场景1. 人工智能深度学习客户,推理应用最近两年,人工智能在全球掀起了巨大的应用热潮,除了互联网巨头,如Google,Facebook,Alibaba之外,涌现出
    发表于 05-17 20:33

    =>的使用场景有哪些

    使用场景
    发表于 10-27 13:25

    使用空中鼠标系统面临哪些挑战?如何去克服这些挑战

    使用空中鼠标系统面临哪些挑战?如何去克服这些挑战
    发表于 05-10 07:26

    有什么方法可以解决HID设计面临挑战

    HID设计面临哪些挑战?有什么方法可以解决HID设计面临挑战
    发表于 05-17 06:06

    汽车无线安全应用面临哪些设计挑战

    汽车无线安全应用面临哪些设计挑战
    发表于 05-19 06:41

    高速通信面临挑战是什么?

    高速通信面临挑战是什么?
    发表于 05-24 06:34

    RFID原理是什么?RFID技术面临哪些挑战

    RFID原理是什么?RFID技术面临哪些挑战
    发表于 05-26 06:06

    HUD 2.0面临哪些挑战?如何去解决?

    HUD 2.0的发展动力是什么?HUD 2.0面临哪些挑战?如何去解决?
    发表于 06-01 06:44

    ARM的技术特征是什么?应用场景有哪些?

    ARM的技术特征是什么?应用场景有哪些?
    发表于 11-05 07:32

    一文看完GPU八大应用场景,抢食千亿美元市场

    的不断增长,未来GPU应用市场将会被多领域划分,谁将是增长最快的应用市场呢?答案或许就在以下GPU八大应用场景中。游戏设备如果你是一位游戏爱好者,你大概率会知道购买游戏设备,会更看重其GPU
    发表于 12-07 09:59

    GPU八大主流的应用场景

    的不断增长,未来GPU应用市场将会被多领域划分,谁将是增长最快的应用市场呢?答案或许就在以下GPU八大应用场景中。游戏设备如果你是一位游戏爱好者,你大概率会知道购买游戏设备,会更看重其GPU
    发表于 12-07 10:04

    MS9331的应用场景是什么?

    MS9331的应用场景是什么?
    发表于 02-11 06:41

    labview 和 wincc 的区别 使用场景

    labview 和 wincc 的区别 使用场景 都是上位机软件,都可以做监控软件 wincc的名气也比较大 对比的资料较少 写这些文章的人,从自己的从事的行业出发,带有自己的思维 使用的场景 肯定
    发表于 10-27 18:01

    GPU深度学习面临挑战分析

    人工智能的兴起触发了市场对 GPU 的大量需求,但 GPU 在 AI 场景中的应用面临使用寿命短、使用成本高等问题。现场可编程门阵列 (FPGA) 这一可以定制化硬件处理器反倒是更好的
    的头像 发表于 12-11 15:02 2526次阅读

    揭秘GPU: 高端GPU架构设计的挑战

    在计算领域,GPU(图形处理单元)一直是性能飞跃的代表。众所周知,高端GPU的设计充满了挑战GPU的架构创新,为软件承接大模型训练和推理场景
    的头像 发表于 12-21 08:28 430次阅读
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b>架构设计的<b class='flag-5'>挑战</b>