0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么历代AMD显卡在ROP单元数量上都非常保守?

lhl545545 来源:快科技 作者:流云 2020-11-19 10:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当NVIDIA基于新一代Ampere安培架构的GeForce RTX 30系列显卡发布之时,几乎在所有玩家的内心都默默的宣判了AMD的死刑。

因为此前在流处理器数量相同的情况下,同时代的NVIDIA显卡性能是远强于AMD显卡,就算是RDNA构架也不能难幸免。RX 5700 XT无法战胜拥有相同2560个流处理器数量的RTX 2070 Super,前者是7nm,后者是12nm。

新一代RTX 3090一上来就宣告拥有10496个流处理器,带来的震撼可想而知!至于传说中的RDNA2,很早之前大家就知道了,它最多拥有5120个流处理器。恐怕那时没人会觉得RNDA2会威胁到RTX 3090,甚至RTX 3080都可以高枕无忧。

不过如同Zen3处理器带给大家的震撼一样,10月29日发布的RDNA2 GPU的实际性能表现几乎超出了所有人的预料!

RDNA 2虽然是RDNA架构的更新版本,并不是完全重新设计。但在RDNA原有的基础上,RDNA2性能提升1倍,能效提升至少50%,ROP单元翻倍,完整支持DX12 Ultimate等技术特性,支持硬件光线追踪。

可以发现整体布局没有太大变化,当然各个功能模块都是调整优化过的,而最突出的,一是增加了独立的Infinity Cache高速缓存,二是在每个计算单元内加入了专用的光追加速器Ray Accelerator。

至于RDNA 2架构的底层细节,比如说计算单元的变化,AMD这次没有给出更多资料,只是简单提到了几点,包括精简TLB以降低延迟、重新设计32位像素流水线并支持HDR格式、优化几何分派与曲面细分、全方位精细时钟门控、频率树分离与门控、最小化数据转移、重新平衡流水线、高性能库等等,但没有任何图示。

以下是RDNA2构架新技术解析:

1、Smart Access Memory (SAM)显存智取技术

在游戏运行的时候,CPU是不能一次性访问全部显存的,比如RTX 3090有24GB显存,而CPU只能访问其中的256MB。于是有大量数据会回到内存后给CPU处理器完成后再转移到显存,此时不仅浪费了带宽也造成了无谓的资源浪费。

Smart Access Memory (SAM)可以让搭载AMD 500系列芯片组在搭载Zen3 CPU和RDNA2 GPU的时候,让Zen3 CPU可以完整访问全部显存,而且带宽还是PCIe 4.0的速度,理论上最多可以让游戏性能提升13%。

2、Ray Accelerator单元

在RDNA2构架中,加入了硬件光追单元Ray Accelerator!与NVIDIA的完全专用RT Core相比,RDNA2的Ray Accelerator紧密集成到了RNDA2的CU之中,并可以共享很多在光追中通常未被充分利用到的现有HW。

这是AMD放出的RNA 2光追渲染效果图,可以看到RDNA2实时光线追踪效果与传统光栅化渲染的差别。

AMD声称,相比于软件方案,RDNA 2架构的硬件加速光追性能,可以提升10倍之多,同时给出了部分游戏的实际性能,2K分辨率下《使命召唤:现代战争》可以跑出95FPS,《孤岛危机重制版》可达90FPS,《战地5》能有70FPS。

3、全局Infinity Cache

在大容量三级缓存的加持下,Zen3的IPC性能获得了巨大的性能提升。如今AMD将这个理念带入了GPU领域。

传统的GPU构架中,一般只有1.5~4MB的缓存,RDNA2除了4MB的L2缓存之外,还加入了128MB的全局Infinity Cache缓存,所有的CU单元均可以访问。

AMD Infinity Cache 作为一个巨大的带宽放大器,其有效带宽可以达到256 位 16 Gbps GDDR6 显存的 4 倍。在Infinity Cache的带动下,512GB/s带宽的RX 6900 XT的性能表现足以媲美936GB/s带宽的RTX 3090。

4、Fidelity FX超分辨率抗锯齿技术

针对NVIDIA DLSS深度学习超采样抗锯齿技术,AMD也提出了超分辨率(FidelityFX Super Resolution),简称FSR。目前这个技术正在开发中,不久之后会在新驱动中提供支持

历代AMD显卡在ROP单元数量上都非常保守,最顶级型号的GPU最多就只有64个ROP。这一次AMD非常的激进,RX 6800 XT直接就配备了128个ROP,也是GPU历史上第一款拥有128个ROP的显卡。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20392

    浏览量

    255717
  • amd
    amd
    +关注

    关注

    25

    文章

    5725

    浏览量

    140681
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11378

    浏览量

    226511
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    imx6ull 每次卡住如何解决?

    Ubuntu18在IMX6ULL平台上运行时总是卡在10分钟,尝试关机和休眠无法解决问题,有人知道如何解决吗?
    发表于 04-13 07:09

    如何使用AMD Vitis硬件在环功能运行Vitis子系统设计

    到目前为止,本文关于 AMD Versal AIE 验证和 AMD Vitis 新的验证功能的研究,所有内容基于仿真完成。
    的头像 发表于 04-02 10:29 7954次阅读
    如何使用<b class='flag-5'>AMD</b> Vitis硬件在环功能运行Vitis子系统设计

    摩尔线程发布图形显卡驱动程序v330.140

    3月20日,摩尔线程正式发布版本号为v330.140的图形显卡驱动程序。本次更新重磅引入MTVSR实时视频超分技术,并针对多款热门游戏及专业软件进行了深度优化,进一步增强了摩尔线程图形显卡在视频播放、游戏体验及专业创作等场景中的综合表现,为用户带来更流畅、更清晰的视觉体验
    的头像 发表于 03-24 09:52 429次阅读

    技嘉RTX 50系显卡超频表现亮眼 3DMark多项测试获高分

    近日,根据3DMark官网测试数据,技嘉RTX 5070 GAMING OC 12G魔鹰显卡在Time Spy项目中取得27269分的优异成绩。在室温25°C环境下,该卡核心频率极限稳定运行于
    的头像 发表于 03-19 16:29 367次阅读
    技嘉RTX 50系<b class='flag-5'>显卡</b>超频表现亮眼 3DMark多项测试获高分

    如何在 VisionFive v2 使用外部 GPU?

    如果旧的 amd gpu 在 VisionFive V2 运行,我想使用带有开源 amd 驱动程序的 amd gpu。我需要什么以及如何将 GPU 连接到 VisionFive v2
    发表于 03-13 06:38

    GM9-2003/D3000主板图形适配方案:Ventoy启动与显卡兼容性优化指南

    在GM9-2003/D3000飞腾商务主板使用Ventoy工具安装服务器系统时,若搭配AMD R5 230显卡,可能出现启动阶段花屏现象;而切换至MTT S30显卡则显示正常。此问题
    的头像 发表于 01-04 14:36 1462次阅读
    GM9-2003/D3000主板图形适配方案:Ventoy启动与<b class='flag-5'>显卡</b>兼容性优化指南

    智能卡在门禁中的应用

    智能卡在门禁中的应用智能卡在门禁管理中通过内置芯片实现安全认证与权限控制,覆盖身份识别、实时监控、多功能集成等场景,显著提升管理效率与安全性。智能卡(含IC卡、RFID卡等)通过非接触式或接触式认证
    的头像 发表于 12-19 13:58 540次阅读
    智能<b class='flag-5'>卡在</b>门禁中的应用

    IC卡在人员管理中的应用

    IC卡在人员管理中的应用IC卡在人员管理中通过身份识别、权限控制和数据记录实现全流程数字化,核心价值在于提升管理效率、保障安全性并降低人工成本。一、身份识别与权限管控多场景身份核验:员工IC卡作为
    的头像 发表于 12-15 16:13 510次阅读
    IC<b class='flag-5'>卡在</b>人员管理中的应用

    芯片AES硬件运算单元好用吗?

    我看好多芯片支持AES硬件运算单元,感觉用起来的却没有几个,不知道芯源这方面是不是和其他芯片的AES硬件一样呢?我也想知道,这种硬件单元一般用在哪个场合比较多呢
    发表于 12-03 06:27

    AMD Vitis AI 5.1测试版现已开放下载

    AMD Vitis AI 5.1全新发布——新增了对 AMD Versal AI Edge 系列神经网络处理单元( NPU )的支持。Vitis AI 包含优化的 NPU IP、模型编译工具和部署 API,可在嵌入式平台上实现可
    的头像 发表于 11-08 09:24 1539次阅读

    AMD Vitis AI 5.1测试版发布

    AMD Vitis AI 5.1全新发布——新增了对 AMD Versal AI Edge 系列神经网络处理单元 (NPU) 的支持。Vitis AI 包含优化的 NPU IP、模型编译工具和部署 API,可在嵌入式平台上实现可
    的头像 发表于 10-31 12:46 1108次阅读

    AMD Vivado IP integrator的基本功能特性

    我们还将带您了解在 AMD Zynq UltraScale+ MPSoC 开发板与 AMD Versal 自适应 SoC 开发板使用 IP integrator 时,两种设计流程之间存在的差异。
    的头像 发表于 10-07 13:02 2435次阅读
    <b class='flag-5'>AMD</b> Vivado IP integrator的基本功能特性

    AMD Versal自适应SoC使用QEMU+协同仿真示例

    Cortex A72 (QEMU) 运行的固件进行仿真,该固件会访问当前 AMD Vivado Design Suite 仿真中正在进行仿真的 PL 中的 IP。本文将使用 Versal VCK190 和 Vivado 2024.2 来生成仿真环境。
    的头像 发表于 08-06 17:21 2296次阅读
    在<b class='flag-5'>AMD</b> Versal自适应SoC<b class='flag-5'>上</b>使用QEMU+协同仿真示例

    使用AMD Vitis Unified IDE创建HLS组件

    这篇文章在开发者分享|AMD Vitis HLS 系列 1 - AMD Vivado IP 流程(Vitis 传统 IDE) 的基础撰写,但使用的是 AMD Vitis Unifie
    的头像 发表于 06-20 10:06 2718次阅读
    使用<b class='flag-5'>AMD</b> Vitis Unified IDE创建HLS组件

    基于AMD Versal器件实现PCIe5 DMA功能

    Versal是AMD 7nm的SoC高端器件,不仅拥有比16nm性能更强的逻辑性能,并且其PS系统中的CPM PCIe也较上一代MPSoC PS硬核PCIe单元强大得多。本节将基于AMD官方开发板展示如何快速部署PCIe5x8
    的头像 发表于 06-19 09:44 2126次阅读
    基于<b class='flag-5'>AMD</b> Versal器件实现PCIe5 DMA功能