0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

全解GPU软件生态、场景、发展与局限性

智能计算芯世界 来源:智能计算芯世界 2023-01-06 14:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

197bd122-8d8c-11ed-bfe3-dac502259ad0.png

GPU作为一种协处理器,传统用途主要是处理图像类并行计算任务;计算机系统面对的计算任务有着复杂而不同的性能要求,当 CPU 无法满足特定处理任务时,则需要一个针对性的协处理器辅助计算。GPU 就是针对图像计算高并行度,高吞吐量,容忍高延迟而定制的并行处理器。

本文选自“从软件算法生态看GPU发展与局限”,介绍GPU原理、GPU场景等,具体内容如下:

第一章、GPU 简介1.1、GPU是什么? 1.2、为什么需要GPU等协处理器? 1.3、GPU还能干什么? 1.4、GPU不适合干什么? 1.5、GPU总体市场现状第二章、GPU 未来面临挑战应用场景解析2.1 谷歌披露实用的全新人工智能专用协处理器:TPU 2.2 TPU 主要思路:针对人工智能算法需求裁剪计算精度 2.3 从谷歌 TPU 设计思路看人工智能硬件发展趋势 2.4 GPU/FPGA 用于神经网络计算的弱点:片上网络第三章、GPU 未来较适应场景解析3.1 VR应用:持续增长的优势领域 3.2 云计算/大数据应用

3.3 GPU,云和游戏服务结合

第一章、GPU简介

GPU其原始设计针对图像计算的特性进行优化,因此也能兼职一些与图像计算特性接近的大规模并行标准浮点数计算任务,如科学计算与数值模拟。但大规模并行计算并非一个笼统的概念,而是一个可以按照计算性能需求在6个维度上进行细分的大类别。因此GPU绝非解决大规模并行计算问题的万金油,无法很好的支持与图形计算特性相差较大的并行计算任务。

1.1、GPU 是什么?

GPU其他名称有显示核心、视觉处理器、显示芯片。顾名思义,GPU最主要的应用场景就是处理图像显示计算。计算机图像显示流程见图,在这个过程中CPU决定了显示内容,而GPU则决定了显示的质量如何。像GPU这类辅助CPU完成特定功能芯片统称“协处理器”,“协”字表明了GPU在计算机体系中处于从属地位。

19ab6cde-8d8c-11ed-bfe3-dac502259ad0.png

GPU芯片可根据与CPU的关系分为独立GPU和集成GPU。独立GPU通常图形处理能力更高一些,但也有成本更高,功耗和发热较大等问题。近年集成式GPU流行于移动计算平台如笔记本和智能手机。例如高通的智能手机芯片通常将CPU和一个功能较弱的GPU以及其他协处理器通过SoC(System on Chip,片上系统)技术组合在一起。集成GPU图形计算性能相对独立GPU较弱但功耗/成本均针对了移动计算平台的需求做了优化,将长期占据移动计算市场。

19c36fe6-8d8c-11ed-bfe3-dac502259ad0.png

1.2、为什么需要 GPU 等协处理器?

在计算机系统中,之所以出现GPU等协处理器,归根到底在于没有一种芯片设计方案能够满足所有不同类别计算任务所需求的全部性能指标:

计算精度;

计算并行度;

计算延迟;

计算吞吐量;

并行进程之间的交互复杂度;

计算实时性要求;

鱼和熊掌不可兼得;在设计计算机芯片中,以上六个指标不可能在有限的资源约束下同时满足。图的雷达图比较了CPU的设计偏向(蓝线)以及图形计算的要求(红线),越靠近外圈则表示要求高/性能好,如计算延迟低、计算吞吐量大。

19df970c-8d8c-11ed-bfe3-dac502259ad0.png

我们可以发现CPU设计的一部分偏好,如并行进程交互能力强,低计算延迟是图形计算所不需要的;但图形计算要求的高计算并行度,高计算吞吐量是CPU所不能提供的。将CPU应用在图形处理中会造成一部分性能被浪费,而另一些性能CPU无法满足要求(雷达图上红线和蓝线的显著差异);这提供了GPU这种针对图形技术优化芯片性能指标的协处理器的生存空间。 在广义计算系统体系中,其他类别的协处理器,如DSP,FPGA,BP等协处理器之所以独立存在,均因为其所处理的特定计算任务在计算指标雷达图中与CPU以及其他协处理器差异过大。一个协处理器产业是否有足够的市场空间主要取决于其针对的计算任务在性能雷达图中是否独特(否则会被CPU等“兼职”),以及这种计算任务是否有足够大市场需求。

1.3、GPU 还能干什么?

GPU生产厂商针对图形处理的性能要求将资源分配强化两个特定指标:计算并行度和计算吞吐量。除了图形计算以外,还有一些计算任务的性能雷达图落在GPU的性能范围内或相差不甚太远(见图),比如数值仿真模拟、金融类计算、搜索引擎、数据挖掘等。

1a0f49fc-8d8c-11ed-bfe3-dac502259ad0.png

正因看中拓展GPU在特殊计算任务的应用前景,主流的GPU厂商纷纷推出软硬件结合的并行编程解决方案。例如Nvidia推出闭源的CUDA并行计算平台,而AMD推出了基于开放性OpenCL标准的Stream技术。这类技术在软件上提供一个定制的编译器,将计算任务尽可能分解成可独立并行执行的小组件(术语为“线程”);在硬件上对GPU进行小幅度修改,少量提高其在延迟/并行交互等传统弱项的性能。 虽然GPU的并行计算能力与金融数据处理需求存在一定匹配(图4中红线和蓝线相近),但金融核心账本计算中需要远超过一般计算平台的精度。GPU内部搭载的2进制计算单元无法保障账本分毫不差;金融业的核心账本计算业务长期依赖搭载10进制计算单元的IBM Power系列高端处理器。如果改造GPU使其搭载10进制硬件计算单元,则其又无法适应图形计算的需求。这个案例充分说明:并非所有并行计算任务就一定适合GPU计算,而需要根据实际情况区分。

1.4、GPU 不适合干什么?

GPU属于大规模并行计算芯片的一个子类;但其并不能解决所有的大规模并行计算任务。大规模并行计算芯片可粗略划分为两大组成部分:

1)并行计算单元,数目从数个至数千个不等,完成“线程”计算;

2)NoC(Network on Chip,片上通讯网络),负责在计算单元之间传递数据; 针对不同的计算需求场景,大规模并行计算芯片的设计思路大体有两个方向: 1)处理单元优化:包括增减处理器单元数量或改变处理器单元内部的结构等; 2)NoC网络优化:更改网络拓扑、网络路由算法、优化网络控制机制等; 这两个方向上的优化需要分享芯片上有限的资源;强化一个方向的性能/增加某个方向的资源分配往往就意味着需要牺牲另一个方向的性能。 多核CPU、GPU、FPGA是常见的并行计算架构,它们的资源分配倾向示意图见图。

1a2602c8-8d8c-11ed-bfe3-dac502259ad0.png

GPU将主要资源分配给了图形常用计算单元,如浮点数的乘法和加法,而采用了最简单的片上网络拓扑:树状NoC网络,在基本计算单元之间传递数据,见图; 这种片上网络的优缺点分别是:

优点1:消耗的资源最小;

缺点1:通过读写片上存储的方式传递数据,速度较慢;

缺点2:树根结点容易因通讯堵塞成为瓶颈,如图中红线和蓝线分别表示A计算节点向B,C向D传递数据,两个传递过程在根节点和二级共享节点交汇,当片上数据传递频繁时,树状拓扑NoC极易发生堵塞问题。

1a38f7de-8d8c-11ed-bfe3-dac502259ad0.png

GPU之所以采用树状拓扑结构,概因其“主业”-图形计算仅有少量情形需要在计算节点之间做复杂数据通信,因此采用树状拓扑以外的方案是纯粹的浪费。但树状拓扑结构限制了相当多类别的大规模并行计算任务在GPU上发挥,换句话说,下列这些并行计算任务并不是GPU扩展的强项:

带有较多分支判断类的并行计算任务,典型任务如人机交互、电脑和环境交互中的逻辑判断计算等;

并行计算中带有较多串行成分,以及反馈算法的并行计算任务,典型例子如控制系统计算任务;

带有网状结构数据流的并行计算。典型案例为FFT(傅里叶分析)计算任务,CUDA中的FFT优化后可以提供相对CPU约10倍的提速,但当FFT长度超过某个门限后GPU的提升性能就发生下滑(资料来源:NV官网)。DSP芯片往往针对FFT的算法特性提供定制优化,没有GPU存在的问题,因此手机SoC中往往由DSP而不是GPU处理FFT这种网状大规模并行计算。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11221

    浏览量

    222997
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5102

    浏览量

    134480
  • 计算机图像
    +关注

    关注

    2

    文章

    5

    浏览量

    2371

原文标题:全解GPU软件生态、场景、发展与局限性

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    超级电容为什么密度低?

    超级电容能量密度低主要由电极材料和电解质的局限性所致。
    的头像 发表于 11-24 09:22 129次阅读
    超级电容为什么密度低?

    数字疗法的前沿创新:从软件驱动到智能医疗新生态

    局限性、提升慢性病管理依从性的关键力量。   数字疗法是以软件程序为核心、循证医学为基础的医疗干预手段,通过AI、VR、XR等数字技术,为用户提供疾病治疗、健康管理及康复支持服务。 概念界定与演进:从“连接”到“干预”的范式
    的头像 发表于 11-20 08:18 3493次阅读

    PPEC Workbench 平台拓扑覆盖,满足各类电源开发需求

    、DC-AC、AC-DC 等基本变换类型,还涵盖了针对特定场景的定制化拓扑架构。传统拓扑开发模式存在显著局限性: ▌知识壁垒高: 拓扑原理与应用知识分散,新手难以系统掌握品类拓扑,入门周期长。 ▌工具
    发表于 10-23 11:44

    深入解析米尔志T536核心板的实时性技术突破

    ;lt; 10ms< 200μs产线停机、效率下降 二、五大实时方案深度对比:原理、优劣与适用场景2.1 标准Linux内核的局限性工作原理:基于完全公平调度器(CFS),采用红黑
    发表于 10-17 17:41

    格灵深瞳三项成果获得国际顶级学术会议认可

    以OpenAI CLIP为代表的多模态预训练模型,为安防、电商等应用场景提供了强大的跨模态理解基础,但也存在多种技术局限性
    的头像 发表于 09-15 14:43 1187次阅读

    RVSP线缆有哪些缺点或者局限性

    RVSP线缆虽然具有抗干扰能力强、柔软易弯曲等优点,但在实际应用中也存在一些缺点和局限性,以下是详细分析: 一、机械性能局限性 抗拉强度不足 RVSP线缆的铜芯导体较细,且采用软铜线结构,虽然提高了
    的头像 发表于 08-22 09:53 490次阅读

    生态合作 | 匠芯创加入RuyiSDK开发者社区 合力推动RISC-V生态持续发展

    推动RISC-V生态持续发展。RuyiSDK简介RuyiSDK是中国科学院软件研究所开发的开源开发套件,致力于为RISC-V开发者提供完整、栈、功能强大的开发工具链
    的头像 发表于 08-07 15:36 816次阅读
    <b class='flag-5'>生态</b>合作 | 匠芯创加入RuyiSDK开发者社区 合力推动RISC-V<b class='flag-5'>生态</b>持续<b class='flag-5'>发展</b>

    UPS电源—UPS电源优化电力质量局限大揭秘

    在工业自动化及众多关键领域,UPS(不间断电源)作为电力保障的重要设备,对于提升电力质量起到了至关重要的作用。然而,任何技术都有其局限性,UPS电源在优化电力质量方面也不例外。以下是对UPS电源优化电力质量局限性的详细分析.
    的头像 发表于 08-05 19:51 535次阅读
    UPS电源—UPS电源优化电力质量<b class='flag-5'>局限</b>大揭秘

    SOLIDWORKS2025实时预览功能突破传统CAD软件的设计局限

    在工程设计领域,计算机辅助设计(CAD)软件一直是工程师们不可或缺的工具。然而,传统CAD软件在设计过程中的一些局限性,如查找和修改设计元素的繁琐过程,常常限制了设计师的创造力和工作效率
    的头像 发表于 07-31 10:54 523次阅读

    从微米级零件到百米建筑:自由维度扫描对固定式方案的尺度测量能力降维打击

    在三维测量领域,固定式方案曾是主流选择,但面对从微米级零件到百米建筑的尺度测量需求时,其局限性日益凸显。自由维度扫描凭借灵活的架构与先进技术,突破了测量尺度的限制,在尺度测量中展现出对固定式方案
    的头像 发表于 07-17 09:28 299次阅读
    从微米级零件到百米建筑:自由维度扫描对固定式方案的<b class='flag-5'>全</b>尺度测量能力降维打击

    什么是网络变压器?chiplan和网变应用差异

    问题,Chip LAN方案应运而生。Chip LAN方案通过创新的设计和制造工艺,提供了一种更高效、更紧凑且更具成本优势的替代方案。本文将详细介绍Chip LAN方案的技术特点、优势、应用场景以及未来的发展趋势。 一、传统网络变压器的
    的头像 发表于 06-12 09:12 884次阅读

    FinFET技术在晶圆制造中的优势

    本文通过介绍传统平面晶体管的局限性,从而引入FinFET技术的原理、工艺和优势。
    的头像 发表于 04-14 17:23 1274次阅读
    FinFET技术在晶圆制造中的优势

    润和软件推出全场景云-边-端智能生态体系

    目前,数字化与智能化的深度融合正重塑千行万业的竞争格局。江苏润和软件股份有限公司(以下简称“润和软件”)以昇腾AI算力为引擎、openEuler开源系统为基石、OpenHarmony全场景连接为脉络
    的头像 发表于 02-13 10:31 1205次阅读
    润和<b class='flag-5'>软件</b>推出全<b class='flag-5'>场景</b>云-边-端智能<b class='flag-5'>生态</b>体系

    在SMT贴片加工过程中“阴阳板”的拼板设计有什么优点和局限性

      在电子制造行业中,PCB的设计和制造是至关重要的环节。为了提高生产效率和降低成本,有时会采用“阴阳板”拼板的方式进行生产。以下是对“阴阳板”拼板设计在 PCB 制造中优势与局限的总结: 优势
    的头像 发表于 02-08 11:35 949次阅读
    在SMT贴片加工过程中“阴阳板”的拼板设计有什么优点和<b class='flag-5'>局限性</b>

    ChirpIoT技术的优势以及局限性

    ChirpIoT是一种由上海磐启微电子开发的国产无线射频通讯技术,ChirpIoT技术基于磐启多年对雷达等线性扩频信号的深入研究,并在此基础上对线性扩频信号的变化进行了改进,实现了远距离传输的一种无线通信技术。相关产品型号有E29-400T22D、E290-400MM20S、E290-900T20S、E290-400T30S等国产lora模块,该系列无线模块相关性能参数和功能特点可点击查看。 一、ChirpIoT技术的优势 ChirpIoT技术作为一种创新的无线射频通讯技术,具有多个显著的优势,这些优势使得它在
    的头像 发表于 01-23 10:42 762次阅读