0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

​为什么GPU性能效率比峰值性能更关键

颖脉Imgtec 2025-03-13 08:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在评估 GPU 性能时,通常首先考察三个指标:图形工作负载的纹理率(GPixel/s)、浮点运算次数(FLOPS)以及它们能处理计算和AI工作负载的每秒 8-bit tera 运算次数(TOPS)。这些关键数据,结合面积数据、功耗估算和通用功能集,帮助 SoC 设计师比较不同系统配置的性能。

然而,这些指标仅提供了理论性能,并不总是能够很好地反映实际性能。没有任何 GPU 能够始终以100%的利用率运行,因此下一步是探索GPU在实际应用中的特定工作负载性能,通常以每秒帧数(FPS)来衡量,并考虑整体GPU利用率。像Manhattan和Aztec这样的基准测试为实际图形性能提供了一个有用的指南(尽管它们本身并不能完全代表典型的应用程序)。

通常在这个阶段,不同的GPU架构会产生令人惊讶的结果。那些更擅长将理论性能转化为实际性能的架构会脱颖而出,提供远高于其标称TFLOPS预期的帧率(FPS)。


为什么FPS/TFLOPS很重要?通常来说,具有更高TFLOPS的GPU需要更大的硅片面积和更高的功耗。如果一个较小的GPU能够提供与理论上更强大的GPU相同的实际性能,设计师就需要选择:要么以更低的成本提供相同的性能,要么保持成本不变但将额外的性能或效率交给最终用户。基于此,理解GPU的性能效率是了解GPU在终端设备中表现的重要部分。Imagination 的 PowerVR 架构经过数十年的优化,已成为市场上性能最为高效的嵌入式 GPU IP。本文将概述关键的硬件和软件优化,帮助 Imagination 的 GPU 实现比竞争对手的嵌入式产品高出两倍的 FPS/TFLOPS 性能。

e1a5743e-ffa2-11ef-9434-92fbcf53809c.png

1. 大容量、响应迅速的寄存器存储

Imagination GPU 的每个算术逻辑单元(ALU)内都有非常大的寄存器存储,一般为 512KB,通常是竞争对手嵌入式 GPU 设计的两倍。这使得工作负载可以避免从主GPU内存进行长时间的加载/存储操作,这些操作可能会延迟处理工作,从而对GPU利用率和效率产生负面影响。ALU中的寄存器体设计得允许同时访问多个寄存器。这意味着在每个周期中,ALU内的多个单元都可以执行任务。例如,FP32操作可以与复杂操作并行处理,而无需排队等待内存访问。大多数其他嵌入式GPU架构在寄存器访问方面存在限制,这会导致数据需要额外的周期来获取,从而造成处理停滞。

Imagination GPU设计可同时处理多个工作负载。这意味着当需要进行加载/存储时,可以通过替代操作填补处理暂停,从而有效避免延迟问题。

2.专用模块卸载主ALU工作

Imagination 的ALU包含多个固定功能块,使 GPU 能够将冗长的任务(如地址计算)从主ALU 卸载,从而使它们可以自由处理一般工作负载。相比之下,大多数其他嵌入式 GPU 提供商通过 INT32 ALU模拟地址计算和复杂任务,降低了整体 GPU 性能效率。

3. 整体 GPU 架构效率

由于其延迟渲染技术,PowerVR架构自问世以来一直是GPU效率的领导者。在流水线的早期阶段,Imagination GPU 会全面分析每一帧,确定哪些片段是可见的,并仅处理用户可以看到的部分。通过尽早移除不必要的操作,Imagination GPU降低了功耗并提高了性能效率。其他嵌入式GPU架构仍然处理比必要更多的片段,浪费宝贵的计算资源和带宽,从而需要更多功耗。

4. 软件最大化GPU利用率虽然我们主要从图形角度讨论性能效率,但上述内容同样适用于计算和 AI 应用。为了进一步提高 AI 工作负载的性能效率,Imagination 提供了一套高度优化的计算库(imgNN、imgBLAS、imgFFT),用于常见的运算操作,使程序员能够最大化 GPU 利用率。

所有这些特性的结果不言而喻。在下图的所有图形工作负载中,Imagination GPU 的 FPS/TFLOPS超过了同等面积的嵌入式竞争对手设计。在某些情况下,性能效率是其他GPU的两倍。

e1bc72c4-ffa2-11ef-9434-92fbcf53809c.png

图注:基于Imagination内部数据。所有竞争设备以低时钟频率运行,以避免主机 CPU 和系统瓶颈,以便更纯粹地了解竞争 GPU 的能力。
GPU性能在所有细分市场上都在蓬勃发展,不仅用于图形体验,在 AI 时代,还将其用作灵活的并行计算处理器。硬件设计师有两种选择来提供这种额外的性能:一种是简单地构建一个具有更高理论TFLOPS的GPU;另一种选择是选择一个理论TFLOPS较低但高性能效率的 GPU。

声明:本文为原创文章,转载需注明作者、出处及原文链接。

原文链接:https://blog.imaginationtech.com/why-gpu-performance-efficiency-beats-peak-performance

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 嵌入式
    +关注

    关注

    5186

    文章

    20141

    浏览量

    328643
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5097

    浏览量

    134415
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA下一代7nm GPU效率Turing高两倍

    为Ampere的Turing GPU架构的继任者将是图形行业的一项重大交易,它将在总体性能效率上实现预期更大的性能飞跃。该报告再次指出A
    的头像 发表于 01-06 01:56 5585次阅读

    优化任何GPU工作负载的峰值性能分析方法

    弄清楚如何在个人电脑上降低渲染应用程序的GPU帧时间可能是一项具有挑战性的任务,即使是最有经验的PC游戏开发人员也是如此。 本博客文章描述了我们在NVIDIA内部使用的性能分类方法,使用NVIDIA
    的头像 发表于 05-07 10:10 1.9w次阅读
    优化任何<b class='flag-5'>GPU</b>工作负载的<b class='flag-5'>峰值</b><b class='flag-5'>性能</b>分析方法

    NVIDIA火热招聘GPU性能计算架构师

    这边是NVIDIA HR Allen, 我们目前在上海招聘GPU性能计算架构师(功能验证)的岗位,有意向的朋友欢迎发送简历到 allelin@nvidia.comWechat
    发表于 09-01 17:22

    无人机螺旋桨效率的高速电机性能

    针对螺旋桨效率的高速电机性能:用于无人机电子速度控制的无传感器高速磁场定向控制参考设计可以帮助电子速度控制器实现效率上的飞跃,使其速度超过12,000 rpm(>1.2kHz),并且还具
    发表于 06-26 09:47

    GPU加速XenApp/Windows 2016/Office/IE性能会提高吗

    配置文件来了解3D / GPU / HDX性能。 XenApp服务器运行的是带有4个vCPU和48GB RAM的Windows Server 2016映像。在性能测试期间,我一直在使用GPU
    发表于 09-12 16:24

    如何在vGPU环境中优化GPU性能

    大家好,我收到了关于如何在vGPU环境中优化GPU性能的两个请求,并认为这将是我们的GRID论坛上的一个很好的线程,每个人都可以在他们如何微调vGPU环境方面添加他们的经验。让我从一些公共资源开始
    发表于 09-29 14:18

    如何估算FPGA的峰值性能

    嗨,作为博士研究的一部分,我试图估算FPGA的峰值性能,以便与GPU进行比较。我的计算基于Xilinx共同撰写的这篇文章https://www.hpcwire.com/2012/04/16
    发表于 08-13 09:56

    探求NVIDIA GPU极限性能的利器

    1、探求 NVIDIA GPU 极限性能的利器  在通常的 CUDA 编程中,用户主要通过 CUDA C/C++ 或 python 语言实现 CUDA 功能的调用。在 NVIDIA 对 CUDA C
    发表于 10-11 14:35

    如何使用iMX8mmini提高GPU性能

    我正在使用 iMX8mmini 并尝试提高 GPU 性能。使用下面的命令我发现当前 GPU 以 500 MHz 的频率运行。根据数据表或设备树节点,GPU 以 800 MHz 的标称频
    发表于 04-18 07:17

    Mali GPU性能分析工具

    本文档描述了马里GPU性能分析工具2.2版中的已知勘误表。 这是一个贯穿整个产品生命周期的工作文档,因此,随着新信息的发现,其内容可能会被修改。 本文中包含的信息是ARM有限公司的财产,对错误或遗漏
    发表于 09-05 07:08

    Imagination 和台积电携手,共同提升业界领先的 GPU 性能

    的 PowerVR GPU 达到下一代性能的新境界。双方初期的合作已为 PowerVR Series6 GPU 内核提升了 25% 的整体性能,其中部分
    发表于 09-11 15:10 565次阅读

    英特尔深度学习芯片Lake CrestGPU性能更强大

    近日,Intel展示了旗下用于深度神经网络计算(Deep Neural Network,DNN)的Lake Crest家族新芯的进展,基于Nervana平台打造,宣称可以在同样晶体管密度的情况下提供GPU更强大的性能
    发表于 02-06 17:16 2618次阅读

    关于“GPU性能的硅前预测”的5个问题

    人们都很认可“GPU性能非常关键”这一观点。从2011年到2022年,GPU单卡算力提高了10倍以上,而GDDR/HBM带宽提高大约2倍以上。对于国产
    发表于 09-29 10:30 1720次阅读

    GPU性能服务器配置

    GPU性能服务器作为提升计算速度和效率关键设备,在各大应用场景中发挥着越来越重要的作用。在此,petacloud.ai小编为你介绍GPU
    的头像 发表于 10-21 10:42 1305次阅读

    如何提高GPU性能

    在当今这个视觉至上的时代,GPU(图形处理单元)的性能对于游戏玩家、图形设计师、视频编辑者以及任何需要进行高强度图形处理的用户来说至关重要。GPU不仅是游戏和多媒体应用的心脏,它还在科学计算、深度
    的头像 发表于 10-27 11:21 3515次阅读