0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

UWA平台支持PowerVR芯片,新增四大GPU模块分析

颖脉Imgtec 2022-10-19 11:18 次阅读

日前,游戏和VR应用性能优化平台 UWA 宣布新的 GPU Counter 功能更新:增加了对 PowerVR 品牌 GPU 芯片的支持。针对 PowerVR GPUCounter,UWA提供了 GPU 负载、GPU 着色、GPU 带宽、GPU 图元 4 个模块的分析。最新的 UWA SDK 2.4.4 已发布,下载最新版 SDK,并使用搭载 PowerVR GPU IP 芯片的设备进行测试,即可在GOT Online Overview的GPU模块下查看到对应的数据,掌握GPU压力和性能消耗情况。

以下针对PowerVR GPU Counter,围绕UWA所提供的GPU 负载、GPU着色、GPU带宽、GPU图元4个模块的分析进行详细说明。


1、GPU负载

GPU Counter下的GPU负载包含Non Fragment Utilization和Fragment Utilization两个性能指标,分别代表非片段处理占整体GPU处理耗时百分比和片段处理开销占整体GPU处理开销百分比。

9ddd0478-4f29-11ed-b116-dac502259ad0.png

在GPU上运行的工作负载由作业管理器统一协调,该任务管理器负责将工作负载调度到GPU内部的各个处理单元上,它将两个FIFO工作队列,称为作业插槽。其中,一个插槽用于非片段工作负载,另一个插槽则用于片段着色工作负载。当出现GPU瓶颈时,正常情况下Non Fragment Utilization和Fragment Utilization至少有一个是接近100%,如果两者都低于100%,则有可能是Non Fragment和Fragment之间存在数据依赖关系。

当Non Fragment Utilization过高时,开发者可以从顶点数、复杂的Compute Shader的使用情况以及Geometry Shader、Tessellation Shader等角度着手进行优化。当Fragment Utilization过高时,则可以考虑项目中是否存在是否存在片段数目过多、片段Shader过于复杂。


2、GPU着色

包含Overdraw和Cycles/Pixel两个指标。

9df65c16-4f29-11ed-b116-dac502259ad0.png

Overdraw(过度绘制)

该项表示项目运行过程中,单帧中整个屏幕被填充的倍数。倍数越高,则GPU的压力越大。在游戏运行过程中,场景中半透明物体的重合会使得同一个像素点在一帧中会被绘制多次,造成Overdraw过高的情况。如下图所示,UI和粒子特效层叠导致容易出现Overdraw。9e0b3a28-4f29-11ed-b116-dac502259ad0.png

Cycles/Pixel

表示平均每个像素耗费的GPU时钟周期。一般来说,Shader复杂度会极大地影响GPUCycles占用的情况。当画面的Shader复杂度过高时,GPU需要消耗大量的时钟周期对Shader进行运算,容易造成GPU耗时变高,造成卡顿。

因此,通过查看GPU着色模块,就可以快速定位高Overdraw和高Cycles的场景,判断这个场景的GPU压力较高是Overdraw还是Shader复杂度过高造成的,进行有针对性的优化。


3、GPU带宽

CPU一样,GPU带宽也是芯片耗电的重要指标。当GPU持续进行高负载外部读写时,掉电就会过快。

UWA的GPU带宽模块统计了测试过程中单帧的读写带宽总量,通过查看GPU带宽模块,可以快速定位测试过程中带宽较高的场景和原因,并进行进一步测试优化。9e3ef5e8-4f29-11ed-b116-dac502259ad0.png


4、GPU图元处理渲染面是产生GPU压力的重要因素之一,我们可以通过 Overview 模式里的 Triangle 指标来查看和分析哪些画面的渲染面较多。

9e4bc48a-4f29-11ed-b116-dac502259ad0.png

渲染面过多,一方面可能是模型过于复杂,一般可以通过 LOD、HLOD 等常用技术来简化远距离的模型,在不影响画质的情况下显著降低渲染面;另一方面,可能是地形、大建筑物等大面积模型没有进行适当的拆分,导致进入视域体的面片可能不多,但提交GPU的渲染面依然很多。对于第二种情况,我们可以通过新功能“GPU图元”来进行初步的判断。

9e798d84-4f29-11ed-b116-dac502259ad0.png

总图元数:提交到GPU端的图元总数,该数值基本等同于引擎端统计的渲染面片总数。可见图元数:在GPU端通过各种裁剪之后,留下的参与渲染的三角面。可见图元不包括:因为在视域体外而被裁剪的三角面,因为朝向而被裁剪的三角面。因此,在3D场景中,比较理想的情况下,可见图元的数量应该接近或高于 50%(对于大部分模型,有一半三角面会因为朝向被裁剪)。如果某些角度下,可见图元的比例非常低,则很可能存在上文提到的第二种情况,从而可以针对性地检查和优化场景中,这个角度下,被提交到GPU的大面积模型。

GPU图元处理数量过多会对设备的带宽和能耗造成较大的影响,应尽量在程序端完成剔除,并减小送往GPU的图元数。

需要注意的是,基于架构不同,同一参数在不同品牌芯片上的推荐值也会存在差异,不同设备间横向对比的意义不大,更推荐大家在相同的设备上进行纵向对比。同时,由于同品牌芯片的架构之间也会存在差异,UWA目前仅支持部分芯片的GPU Counter数据采集,具体支持设备列表可通过下图或登录UWA官网对“Mali/Power VR/Adreno GPUCounter支持设备”列表进行查询:

https://www.uwa4d.com/main/supported.html9ec4f774-4f29-11ed-b116-dac502259ad0.png以上就是这次关于搭载 PowerVR GPU IP 芯片的新功能介绍了,希望会对开发者们在 GPU 优化上和项目的整体性能监控上有所帮助。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    447

    文章

    47804

    浏览量

    409171
  • vr
    vr
    +关注

    关注

    34

    文章

    9556

    浏览量

    148814
收藏 人收藏

    评论

    相关推荐

    FPGA在深度学习应用中或将取代GPU

    业可行性方面考虑,自动驾驶汽车等应用可能需要多达 7-10 个 GPU(其中大多数会在不到年的时间内失效),对于大多数购车者来说,智能或自动驾驶汽车的成本将变得不切实际。” 机器人、医疗保健和安全
    发表于 03-21 15:19

    OpenHarmony开源GPU库Mesa3D适配说明

    : Dayu200-rk3568 一、背景介绍 OpenHarmony对图形的渲染,支持CPU和GPU两种方式。为了支持流畅的用户体现,GPU适配是必不可少的。OpenHarmony使
    发表于 12-25 11:38

    Moku 3.1版本升级!Moku:Lab、Moku:Pro新增支持逻辑分析

    Moku:Lab、Moku:Pro新增支持逻辑分析仪多仪器并行模式支持同时多窗口界面交互!LiquidInstruments宣布发布Moku3.1版本重要升级。此次更新对Moku:Pro、Moku
    的头像 发表于 11-03 08:16 210次阅读
    Moku 3.1版本升级!Moku:Lab、Moku:Pro<b class='flag-5'>新增支持</b>逻辑<b class='flag-5'>分析</b>仪

    苹果A系列芯片进化史

    A4芯片是苹果公司在2010年4月发布的第一款自主研发芯片,搭载于iPad第一代和iPhone 4等产品中。A4芯片采用了ARM Cortex-A8核心和PowerVR SGX 535
    发表于 10-25 12:38 1016次阅读

    Mali GPU性能分析工具

    本文档描述了马里GPU性能分析工具2.2版中的已知勘误表。 这是一个贯穿整个产品生命周期的工作文档,因此,随着新信息的发现,其内容可能会被修改。 本文中包含的信息是ARM有限公司的财产,对错误或遗漏
    发表于 09-05 07:08

    高精度、低噪声、快速采样——虹科ADC/DAC芯片测试平台

    模块化,可拓展,并配套分析软件ATView和WaveAnalyzer。产品特点支持线性和动态测试DIO同步时钟模块可测试8-24位的数模转换器采样率200/400
    的头像 发表于 08-18 08:07 746次阅读
    高精度、低噪声、快速采样——虹科ADC/DAC<b class='flag-5'>芯片</b>测试<b class='flag-5'>平台</b>

    openharmony怎么调用芯片里的GPU进行视频和图片的编解码?

    openharmony怎么调用芯片里的GPU进行视频和图片的编解码? 比如RK3588等。openharmony 3.2 Release。
    发表于 08-14 15:04

    UWA推出全新GPU性能测评工具,支持多款PowerVR芯片优化

    移动设备GPU性能优化对玩家游戏体验至关重要。侑虎科技UWA一直专注于游戏和VR应用的性能优化,移动设备GPU优化是其关注的重点,为了更好地满足开发者针对不同GPU
    的头像 发表于 08-14 10:13 704次阅读
    <b class='flag-5'>UWA</b>推出全新<b class='flag-5'>GPU</b>性能测评工具,<b class='flag-5'>支持</b>多款<b class='flag-5'>PowerVR</b><b class='flag-5'>芯片</b>优化

    ai芯片gpu芯片有什么区别?

    ai芯片gpu芯片有什么区别? AI芯片GPU芯片是当今比较流行的
    的头像 发表于 08-08 18:02 4131次阅读

    烧录器支持Melexis迈来芯的LED驱动芯片MLX81143KLW

    芯片烧录行业领导者-昂科技术近日发布最新的烧录软件更新及新增支持芯片型号列表,其中昂科发布软件更新支持Melexis迈来芯的LED驱动芯片
    的头像 发表于 08-03 19:19 1013次阅读
    烧录器<b class='flag-5'>支持</b>Melexis迈来芯的LED驱动<b class='flag-5'>芯片</b>MLX81143KLW

    具有多个光子和UWA的无用机器

    电子发烧友网站提供《具有多个光子和UWA的无用机器.zip》资料免费下载
    发表于 07-10 11:02 0次下载
    具有多个光子和<b class='flag-5'>UWA</b>的无用机器

    紫光展锐首颗AI+8K超高清智能显示芯片平台M6780亮相MWC上海

    6月28日,紫光展锐首颗超高清智能显示芯片平台M6780亮相MWC上海展。该芯片平台支持8K解码与HDR全格式,拥有高度集成的CPU、
    的头像 发表于 06-29 09:57 360次阅读

    为什么我们是RISC-V的首选 GPU

    谈起 GPU,很容易想到 Imagination。毫无疑问,鉴于Imagination 在图形处理领域的积累,也成为 RISC-V 的首选 GPU。 凭借 30 多年的 PowerVR GPU
    的头像 发表于 06-08 16:55 499次阅读
    为什么我们是RISC-V的首选 <b class='flag-5'>GPU</b>

    GPU平台生态:英伟达CUDA和AMD ROCm对比分析

    成熟且完善的平台生态是 GPU 厂商的护城河。相较于持续迭代的微架构带来的技术壁垒硬实力,成熟的软件生态形成的强大用户粘性将在长时间内塑造 GPU厂商的软实力。以英伟达 CUDA 为例的软硬件
    的头像 发表于 06-06 14:36 1219次阅读
    <b class='flag-5'>GPU</b><b class='flag-5'>平台</b>生态:英伟达CUDA和AMD ROCm对比<b class='flag-5'>分析</b>

    GPU和CPU谁最强呢?

    GPU是一款专门的图形处理芯片,做图形渲染、数值分析、金融分析、密码破解,以及其他数学计算与几何运算的。GPU可以在PC、工作站、游戏主机、
    的头像 发表于 05-10 10:23 2703次阅读
    <b class='flag-5'>GPU</b>和CPU谁最强呢?