0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

手机GPU光追新解:详谈Imagination刚发布的DXT架构

颖脉Imgtec 2023-01-29 14:24 次阅读

最近Imagination Technologies发布新一代IMG DXT架构GPU IP——这次发布的DXT产品主要是面向手机设备的。如果你对Imagination的GPU IP熟的话,应该知道2019年发布IMG A系列架构,属于这家公司产品和技术层面的一个分水岭,去年的PowerVR架构30周年回顾文章也谈到过。b76e08b6-978f-11ed-ad0d-dac502259ad0.pngAXT(A系列)的基本理念主要是超宽ALU设计,Imagination此前强调它在PPAB(power, performance, area, bandwidth)方面的贡献;而次年的BXT系列,则更多地开始采用去中心化的多核、模块化方案,通过弹性缩放达成了我们现在所说的覆盖从手机到数据中心的GPU设计,并且也开始支持chiplet的设计;CXT系列则带来了PowerVR Photon架构,也就是光追加速,在移动市场上正式提出硬件级光追加速方案。
D系列的发布基本也是符合预期的。其实2019年Imagination的GPU计划表上,D系列的发布时间是2022年——选在今年1月发布也差不多赶在了时间线上。最新发布的IMG DXT,除了性能提升外,从大方向来看应该是进一步提升可扩展性、弹性的一代架构,尤其表现在光追方面;而且通过某些特性(如FSR)达成了效率的进一步提升。本文重点谈谈D系列引入的一些新特性,和部分改进。
新一代DXT概览:更弹性的设计
有关Imagination GPU架构的常规构成及组成元素,这里不再多做着墨,比如说USC(Unified Shading Cluster)模块、TPU(Texture Processing Unit)单元、Raster/Geometry模块这些固定功能单元,和cache、固件处理器(firmware processor)。
总的来说,相比于C系列,这次的DXT一个核心单元内的ALU与TPU性能最多可以提升50%;更重要的是,额外搭配的光追模块(RAC,Ray Acceleration Cluster)在规模和位置方面有了更大的弹性——这一点后文也会详细提到。ba793b84-978f-11ed-ad0d-dac502259ad0.png按照弹性扩展方案,Imagination列举了三种配置示例,如上图所示。在Imagination的定位中,这三种配置分别面向主流机、高端机、旗舰机。每种配置有不同的FP32算力和纹理填充率,以及可选的光线追踪加速硬件。(如DXT 8-256,8表示纹理填充率 8 GTexels/s,256表示FP32算力256 GFLOPS)基础款DXT-8-256据说达成了超过20%的性能密度提升,也就是单位面积性能表现更好。
DXT的弹性扩展能力改进,主要体现在:SPU(Scalable Processing Unit)作为规模化扩展的基本单元,现在可以用上更多的ALU、TPU。所以这代产品能够用更高密度的SPU设计,如上图,可包含3个USC/TPU模块,加上其他共享单元。baa6169a-978f-11ed-ad0d-dac502259ad0.png比如说上一代CXT-48-1536,是三个SPU的设计,那么每个SPU搭配一个RAC(光追加速集群),也就构成了CXTP-48-1536 RT3。而到了这一代,除了三个SPU这样的设计(三个2x 8-256 SPU),现在还可以搭配两个SPU——但是每个SPU是3个USC/TPU单元(即两个3x 8-256 SPU)。则基于每个SPU搭配1个RAC,那么就可以组合为DXT-48-1536 RT2。而且还能用一半的RAC,做成DXT-48-1356-0.5RT2。
也就是说达成此前相同的浮点和纹理性能,现在可以搭配RT1、RT2、RT3不同的配置方案,最大规模单个核心可做RT4(单核最多4个SPU)。另外单个SPU规模做大,实则会比前代达成相同算力所需的面积更小,也就提升了性能密度。与此同时最高性能配置的算力也就提升了。
虽然发布会上,Imagination只提到了DXT-72-2304 RT3,但DXT技术白皮书上说单核能够从过去的CXT-64-2048,做到这一代的DXT-96-3072,性能也就提升了50%。具体的不同配置方案如下:baaee75c-978f-11ed-ad0d-dac502259ad0.png光线追踪与FSR
有关PowerVR Photon架构的光追实现,我们此前也写过不止一篇文章了,包括Imagination定义的光追等级。移动设备要用上光追GPU是手机AP SoC厂商的共识。
Imagination公司技术产品管理高级总监Stephen Barton在采访中说:“我们把RAC单独作为一个IP剥离出来,意味着可以不影响GPU本身的性能,光线追踪可以独立运行,这对移动端的应用很重要。移动端刚开始做光线追踪技术,一定会从混合模式开始。刚开始是大量光线运算和少量光照,随着光线追踪技术越来越成熟,会走向更完整的光线追踪。我们的架构特别适合这样的发展模式,每个阶段都可以为客户提供需要的光线追踪性能。”
“我们的想法是,DXT可以更好地让具有硬件级别、开销真正能够在移动端被接受的光线追踪,铺开到更多的设备。”Imagination公司首席营销官David Harold说,“只有这样,那些针对光线追踪进行内容开发的开发者才会愿意做这方面的开发工作。”babd986a-978f-11ed-ad0d-dac502259ad0.png这说的应该是RAC的灵活性好——我们认为,的确在移动领域都还没有像样的光追游戏的情况下,为光追加速耗费的晶体管会成为所谓的dark silicon。这代架构上,Imagination强调“可扩展的光线追踪”,芯片设计企业可选配的RAC单元规模有了更大的选择范围,包括半个RAC(216 MRay/s,8 GBoxTests/s)。David说,“哪怕先用0.5个RAC单元,也可以把更多光追能力尽可能地带给更多主流机型,增加市场覆盖率,让更多开发者加入进来,让这项技术成为真正意义上的主流技术。”
Imagination在DXT技术白皮书中说,以前架构的配置方案是2个ALU模块共享RAC,而这一代可以由更多的ALU模块共享一个RAC;而且RAC可以迁往GPU的不同层级——前文提及SPU模块的灵活设计,本身就在影响RAC的布局。
另外Stephen还说:“光线追踪等级L1和L2,是目前市面上大家能够看到的绝大多数光线追踪技术达到的等级。而我们提供的L4。”L4等级的光追技术除了两个重要的硬件加速支持,还需要考虑到移动平台的功耗敏感性。所以L4是在L3的BVH遍历的基础上,将具备相干性的光线做分类和聚集(coherency sorting),比如对某些材质反射的同方向光线进行sorting,达成更高的数据复用,提升并行ALU管线利用率。bacc6aac-978f-11ed-ad0d-dac502259ad0.png有关RAC的内部构成,我们此前也撰文谈过了,这里不再细数。其中达成L4的关键是其中的PCG(Packet Coherency Gather)(另外“再加上RS、RTS等”),就是将相干光线聚集起来做计算,“用相同的指令完成并行计算,节省了大量的功耗。”Imagination中国区技术总监艾克说。bad83b5c-978f-11ed-ad0d-dac502259ad0.png伴随这次DXT架构更新而来的另一项重要特性更新是FSR(Fragment Shading Rate)。这个FSR不是AMD FSR,而类似于VRS可变速率着色。关注游戏和图形技术发展的同学对此应该不会陌生。简单来说,是对画面中不重要的区域(比如画面的背景部分),或者不需要高精度渲染的部分,不做原生分辨率级别的渲染,也就能起到降低功耗和负载的效果。
比如竞速游戏,在赛车高速行驶的时候,赛车周围的对象实际上只需要低画质绘制即可,因为这些对象后续会被运动效果做模糊处理。
覆盖两个或更多像素,来降低shader执行率,也就相当于做了更少的工作、需求更低的带宽和更少的功耗,带来帧率提升的同时,对游戏体验又不会有太大的影响。DXT支持不同比例的多像素shader执行复用。不同比例也就对应了不同的画质。据说如果以4x4阵列像素的shader执行复用,则达成大约“93%左右的fragment运算能力的节省”。baea1944-978f-11ed-ad0d-dac502259ad0.pngImagination表示,FSR能够和光追做很好的搭配。感觉和桌面GPU市场参与者说超分和光追做搭配是差不多的意思,大方向都是降低原生画面的渲染精度,将更多资源应用于光线追踪,则能有效提升最终呈现的画面帧率。不过这里还有个关键,FSR/VRS在整个流程里所处的位置,还是比DLSS这类超分技术靠前许多的。
bb175f26-978f-11ed-ad0d-dac502259ad0.png应用FSR以后,也就意味着只需要更少的shader调用和光线发射,需要处理的光线也就更少,更大一片区域的像素结果可被复用。换句话说,就是shader处理和光线数减少了,则显著降低了整体开销。“没有开启FSR的话,可能需要每帧6.9MRays的算力;但如果配上FSR计算,哪些区域运算一次,哪些区域运算两次,哪些区域需要细节表现的,这样一帧画面只需要3.2MRays计算能力。”艾克说,“配合可扩展的RAC,用更小的RAC就能够实现该场景下的游戏光追效果。”
其他关键特性更新
IMG DXT新架构引入同时的其他特性主要还包括下图这些。bb26310e-978f-11ed-ad0d-dac502259ad0.png2D Dual-Rate Texturing强调的是提升TPU后处理效果的性能表现。Imagination说他们观察到许多游戏会花比较多的时间去执行后处理(post-processing)算法,包括实现浅景深、bloom、模糊之类的效果。其中很多负载的瓶颈在TPU吞吐上。但暴力增加TPU单元的硬件资源是不合理的。bb572638-978f-11ed-ad0d-dac502259ad0.png基于Imagination发现的后处理负载与图像处理的一些典型特征,开发团队实施了一种新的TPU模式,在检测到这些特征以后达成后处理性能的翻番。具体的细节推荐去看DXT技术白皮书。据说在特定处理类型中,DXT-48-1536能够达成96-1536的效果,每时钟周期处理双倍数量的双线性过滤纹理采样,也就达成了双倍的执行率。实际上,前述DXT架构优化方案(如光追处理更少的光线)也对后处理效果提出了更高的要求,2D Dual-Rate TPU也就显得自然而然了。bb954d6e-978f-11ed-ad0d-dac502259ad0.pngPipelined Data Masters - 此前解析IMG A系列的文章里就提到过,GPU内有个固件处理器(firmware processor)。这个固件处理器负责高层级调度和负载优先级安排,与Data Master固定功能单元一起实现。GPU内部有各种各样的Data Master,什么2D Data Master、3D Data Master、Compute Data Master、Geometry Data Master...
这些Data Master负责各类型的低层级工作。Imagination在技术白皮书中说,之前的几代架构用的都是single-tasking单任务Data Master。也就是说Data Master首先执行某个特定工作,如果要改换工作就需要固件处理器来做设定。那么在固件处理器设定下一项工作、对寄存器编程时,就会有个空闲时间;设定工作本身还需要数据访问和其他同步任务。
在GPU规模大、SPU数量多的情况下,这带来的性能影响就会比较大,尤其在固件处理器规模不变的情况下。所以这一代新架构实现了Data Master的流水线化(pipelining)——在GPU的上一个工作还在处理执行的情况下,固件就可以设定下一个工作。从此前固件设定工作与渲染任务的串行化,到现在的并行化,提升了GPU的资源利用率。bb9f30d6-978f-11ed-ad0d-dac502259ad0.png以前firmware processor工作导致性能损失bbc9aa28-978f-11ed-ad0d-dac502259ad0.png现在,这部分工作实现了流水线化
此外这个RISC-V架构的固件处理器本身也有40%的性能提升。白皮书上说,DXT这代转向了基于RISC-V的固件处理器——似乎此前A系列发布时就有消息提到这部分就是基于RISC-V的。而Imagination现如今异构处理器策略中,做基于RISC-V的CPU IP其实也已经是众所周知的了。bbeb3c9c-978f-11ed-ad0d-dac502259ad0.png上述PPT中列出最后一项是ASTC HDR支持——实际上Vulkan API之前就强制ASTC(Adaptive Scalable Texture Compression)LDR纹理了,Imagination也持续好几代架构做出了支持。而ASTC HDR一直是个可选项。Imagination认为,未来几年HDR会发展起来,则基于ASTC算法来支持HDR输入压缩纹理,也是自然而然的。于是DTX实现了这一类型的压缩纹理。HDR纹理不用多解释了,也就是画面暗部和亮部的光比可以做到很大。
至于TBDR、PVRIC图像压缩、去中心化的多核架构设计与模块化扩展等等都属于Imagination的常规项目了。有兴趣的读者可以去看看我们之前撰写有关Imagination GPU IP的技术文章。bbfb604a-978f-11ed-ad0d-dac502259ad0.png最后谈谈生态。生态问题涉及的应该是整个Imagination的IP产品,而不仅限于这次的DXT。DXT架构具体变成芯片的未来计划,Imagination在发布会上并未提及。不过艾克给出了一些生态方面的成果:“2021年,我们把光线追踪技术应用到手机领域,同时也推广到O3DE(Open 3D Engine),让开源社区开发者感受到光线追踪技术的演进和发展。”
“我们也和Amazon发布了带有光线追踪效果的演示demo,可展示出全天候的光影变化效果,沉浸感很强。”艾克说,“除此之外,我们也和各大游戏开发者介绍新功能,新游戏发布时我们会去参与测试,让一些功能及时得到应用;产品新特性也介绍给他们,在游戏开发过程里能用起来,建立手机游戏开发生态。”
开发生态工具相关的部分,除了比较基本的对于Vulkan API等提供支持,Stephen提到如光追生态系统建设和储备方面的工作很早就开始了,“2021年CXT发布时也有发布相关的光线追踪工具。”包括分析工具,以及SDK开发包等。David则表示:“我们和包括完美世界、网易、腾讯、Unity,以及OPPO、vivo等在内的合作伙伴都有合作。
现阶段,Imagination要推广自家GPU IP,尤其是最新几代架构的优秀技术,难点仍然在生态扩展上。期待在新的一年其GPU IP在更多类型的设备形态上落地——比如产品之外,DXT架构的应用范围应该是不仅限于手机的,比如VR也会是其应用方向之一——还有像汽车之上的产品应用,能够持续带动Imagination新战略中四大应用领域:Mobile、Consumer、Automotive、Data Center方向的全面开花结果。
作者:黄烨锋 资深产业分析师

EET电子工程专辑

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4422

    浏览量

    126715
  • imagination
    +关注

    关注

    1

    文章

    551

    浏览量

    60888
收藏 人收藏

    评论

    相关推荐

    揭秘GPU: 高端GPU架构设计的挑战

    在计算领域,GPU(图形处理单元)一直是性能飞跃的代表。众所周知,高端GPU的设计充满了挑战。GPU架构创新,为软件承接大模型训练和推理场景的人工智能计算提供了持续提升的硬件基础。
    的头像 发表于 12-21 08:28 430次阅读
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>设计的挑战

    NVIDIA GPU的核心架构架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此
    发表于 11-21 09:40 439次阅读
    NVIDIA <b class='flag-5'>GPU</b>的核心<b class='flag-5'>架构</b>及<b class='flag-5'>架构</b>演进

    Imagination的桌面GPU来了:这次要攻坚Windows游戏市场

    近代图形计算市场上,作为IP供应商Imagination重返高性能桌面市场,应该是2020年IMGB-seriesGPUIP的发布。关注Imagination的读者应该知道,在Imaginat
    的头像 发表于 11-15 08:27 264次阅读
    <b class='flag-5'>Imagination</b>的桌面<b class='flag-5'>GPU</b>来了:这次要攻坚Windows游戏市场

    基于磁贴的GPU架构优缺点

    本指南介绍了基于磁贴的GPU架构的优缺点。它还将ARM马里基于瓷砖的GPU架构设计与台式PC或控制台中常见的更传统的即时模式GPU进行了比较
    发表于 08-02 12:54

    Imagination官方信息速递2023年7月期

    Imagination官方信息速递2023年7月期 白皮书下载 | 通过Photon架构创建身临其境的图形体验 2023 年,Imagination 将基于 PowerVR Photon 架构
    的头像 发表于 08-01 08:35 296次阅读
    <b class='flag-5'>Imagination</b>官方信息速递2023年7月期

    Imagination和CoreAVI在汽车安全关键图形的合作

    展览会上,双方展示了结合 Imagination 的 IP 与 Visteon 和 TI 的创新解决方案的仪表板演示。 END 欢迎加入Imagination GPU与人工智能交流2群
    的头像 发表于 07-19 09:55 233次阅读

    下载白皮书赢奖品 | 通过Photon架构创建身临其境的图形体验

    2021 年,Imagination 推出了 PowerVR Photon 架构,该架构在 CXT GPU 系列中实现了实时光线追踪。光线追踪被认为是计算机图形学的“圣杯”,它使 用模
    的头像 发表于 07-18 11:10 220次阅读
    下载白皮书赢奖品 | 通过Photon<b class='flag-5'>架构</b>创建身临其境的图形体验

    Imagination官方信息速递2023年6月期

    Imagination官方信息速递2023年6月期 【白皮书下载】云游戏的崛起 为了让更多人了解云游戏,Imagination 发布了全新的云游戏白皮书,其中全面介绍了云游戏的概念,分析了云游
    的头像 发表于 06-30 08:35 287次阅读

    为什么我们是RISC-V的首选 GPU

    谈起GPU,很容易想到Imagination。毫无疑问,鉴于Imagination在图形处理领域的积累,也成为RISC-V的首选GPU。凭借30多年的PowerVRGPU,
    的头像 发表于 06-13 10:47 369次阅读
    为什么我们是RISC-V的首选 <b class='flag-5'>GPU</b>

    从移动到桌面全栈式GPU Imagination对云游戏支持的探索

    王晓欣分享了《Imagination从移动到桌面全栈式GPU对云游戏支持的探索》的主题演讲,从半导体IP供应商的角度介绍了Imagination对云游戏的理解及其创新与探索。Imagi
    的头像 发表于 06-12 11:31 409次阅读
    从移动到桌面全栈式<b class='flag-5'>GPU</b>  <b class='flag-5'>Imagination</b>对云游戏支持的探索

    为什么我们是RISC-V的首选 GPU

    谈起 GPU,很容易想到 Imagination。毫无疑问,鉴于Imagination 在图形处理领域的积累,也成为 RISC-V 的首选 GPU。 凭借 30 多年的 PowerVR
    的头像 发表于 06-08 16:55 500次阅读
    为什么我们是RISC-V的首选 <b class='flag-5'>GPU</b>

    从移动到桌面全栈式GPU Imagination对云游戏支持的探索

    王晓欣分享了《Imagination从移动到桌面全栈式GPU对云游戏支持的探索》的主题演讲,从半导体 IP 供应商的角度介绍了 Imagination 对云游戏的理解及其创新与探索。 Imag
    的头像 发表于 06-08 02:25 368次阅读
    从移动到桌面全栈式<b class='flag-5'>GPU</b>  <b class='flag-5'>Imagination</b>对云游戏支持的探索

    Imagination官方信息速递2023年5月期

    Imagination官方信息速递2023年5月期 Imagination推出IMG CXM最小GPU,为家庭娱乐带来无比便捷的用户界面 全新IMG CXM GPU核兼容RISC-V并
    的头像 发表于 06-01 22:35 329次阅读
    <b class='flag-5'>Imagination</b>官方信息速递2023年5月期

    Imagination全新发布IMG CXM GPU,打造RISC-V伙伴的首选GPU

    分享了Imagination最新发布的IMGCXMGPU产品,并表示ImaginationGPU方案赢得了众多RISC-V伙伴的信任,成为他们的首选
    的头像 发表于 05-31 17:14 485次阅读
    <b class='flag-5'>Imagination</b>全新<b class='flag-5'>发布</b>IMG CXM <b class='flag-5'>GPU</b>,打造RISC-V伙伴的首选<b class='flag-5'>GPU</b>

    Imagination全新发布IMG CXM GPU,打造RISC-V伙伴的首选GPU

    及业务发展高级经理黄音现场分享了 Imagination 最新发布的 IMG CXM GPU 产品 ,并表示 ImaginationGPU
    的头像 发表于 05-26 01:35 527次阅读
    <b class='flag-5'>Imagination</b>全新<b class='flag-5'>发布</b>IMG CXM <b class='flag-5'>GPU</b>,打造RISC-V伙伴的首选<b class='flag-5'>GPU</b>