0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AMD全新GPU架构解析 性能提升14%功耗降低23%

旺材芯片 来源:yxw 2019-06-12 14:23 次阅读

E3 2019游戏大会期间,AMD正式发布了基于7nm新工艺、Navi新核心、RDNA新架构的新一代显卡Radeon RX 5700系列,包括RX 5700 XT、RX 5700两款型号,均面向规模最为庞大的甜点级市场和主流游戏玩家。

AMD发布的新一代RX 5700系列显卡基于7nm新工艺和Navi新核心,而在底层是全新的RDNA架构,已经走过七年半的GCN架构就此挥手作别。

这些年来,很多用户玩家尤其是A饭一直期待一个全新的GPU架构,但这种事儿的难度远超一般人想象,某种程度上设计一个新的GPU架构甚至要比设计一个新的CPU架构还要难。RDNA架构就花费了AMD研发团队长达四年的时间,凝聚了无数人的心血,也开启了AMD显卡历史上第五代重大架构的新时代。

2000年前,R100核心是A卡的第一代架构,用的还是固定单元设计,3D几何转换和光照效果如今看起来都极为原始。

2001-2007年的R200-R500是第二代架构,简单的VS纹理着色器、PS像素着色器分离式设计,不同的只是比例不同,整个渲染流水线就像一个单通道的单行道。

2008-2011年的第三代TeraScale架构(代表核心R600)实现了一个飞跃,VS、PS融合为统一着色器,也就是我们常说的流处理器,支持VLIW(超长指令字),然后就是2011-2019年的GCN架构(代表核心Southern Islands),统一着色器加独立的标量、矢量单元,二者比例为1:4。

如今,迎来了全新的RDNA(Radeon DNA),还是统一着色器,但标量和矢量单元走向融合,支持SIMT(单指令多线程) ILP(指令集并行),类似CPU处理器的SIMD(单指令多数据流),单线程性能和指令集执行效率大大提升。

需要强调的是,RDNA是一个全方位重新设计的架构,并不是GCN的又一个升级版,也不是与GCN的混合体,只是集成了GCN架构的指令以保持向下兼容,现有技术仍然可以在RDNA架构上得到支持。

RDNA架构将是AMD GPU显卡未来多年的基石,接下来我们将看到采用7nm+工艺的第二代版本RDNA 2,看路线图有望明年初和我们见面。

除了RDNA新架构,Navi核心还有7nm工艺、GDDR6显存、PCIe 4.0总线、Radeon媒体引擎、Radeon显示引擎等诸多全新特性。

Navi 10核心集成了103亿个晶体管,相比Vega 64 125亿个少了大约18%,而核心面积只有251平方毫米,相比Vega 64 495平方毫米更是小了足足一半,因此单位面积性能提升了足足1.3倍。

尽管晶体管更少、面积更小,Navi 10核心的性能相比于Vega 64却提升了14%,同时功耗降低了23%,能效比因此大涨50%。

纯架构性能上,Navi相比于Vega在同等功耗、同等配置下提升多达50%,反应到实际产品上,这贡献了产品性能提升的60%左右,另外有大约25%来自7nm新工艺的加持,还有约15%来自频率以及功耗的改进。

AMD表示,RDNA架构的设计理念主要有四个方面,性能上要满足在现代游戏负载需求,能效上要充分优化功耗和带宽利用率,功能上要壮大生态,扩展性上要从移动到桌面到云端通吃。

为实现上述目标,RDNA架构主要从三大方面进行了变革,包括CU计算单元、缓存、流水线,接下来我们逐一和大家分享,但鉴于GPU架构的技术性太强,我们只是蜻蜓点水地大致看一下,最后还有AMD关于光线追踪的规划。

新的计算单元设计一共分为40组,每组2个标量处理器、64个流处理器、4个64位双线性过滤单元,总计80个、2560个、160个,执行延迟更低,单线程性能更强,缓存效率更高,整体计算能效比GCN架构有着巨大的提升,而且可适应从游戏到计算各种负载。

多级缓存一致性可以带来更低的延迟、更高的带宽、更低的功耗,包括各处零级缓存、512KB一级缓存、4MB二级缓存。

整个图形引擎也做了重新调整,更加顺畅高效,包括几何引擎、64个纹理单元、4个异步计算引擎(ACE),负载分配更加均衡,可以在更低的功耗下达成更高的频率,能效更高。

CU计算单元方面,虽然看起来每一组还是64个流处理器,数量没变,但这个数字是AMD反复设计后与处理资源最为平衡的的组合,同时整个计算单元的结构进行了彻底重组,和GCN时代完全不一样了。

RDNA架构下,每个CU计算单元的标量解码和发射单元、矢量解码和发射单元、调度器的数量都增加了一倍来到两个,指令处理率因此也提升一倍。

同时,四个SIM16矢量单元、四个SIMD4特殊功能单元变为两个SIMD32、两个SIMD8,比如64个线程可组合为两个Wave32,然后由两个SIMD32执行两个Wave32,实现单时钟周期指令发射(之前需要四个),SIMD ALU单元的利用率也从25%来到了100%,而且支持Wave32、Wave64两种执行模式,以应对不同负载需求。

此外,为了强化资源调度和利用的效率,RDNA架构还将每两个CU计算单元紧密地捆绑在了一起,组成一个工作组处理器(Work Group Processor),使得可用ALU单元、寄存器数量翻番,缓存带宽更是之前的四倍。

缓存方面,RDNA架构设计了一套多级一致性结构,每个双CU组合内都有自己的零级缓存,与ALU单元的载入带宽翻番,增加了四组新的一级缓存(都是16-way 128KB),降低了二级缓存(16-way 4MB)的拥堵,整体延迟和功耗大大减低。

按照AMD的说法,零级缓存的延迟降低了21%,一二级缓存降低24%,内存延迟也低了7%。

另外在一致性多级缓存下,到处都支持Delta数据压缩(DCC/图中箭头黄色部分),提高传输率,同时还改进了色彩压缩算法,可供显示引擎读取,着色器也能同时读写压缩的色彩数据。

图形引擎流水线方面进行了大刀阔斧的重组,包括四个增强的ACE异步计算引擎,地位更加中心化的结合处理器(包含四个原语单元),64个像素单元。

异步计算一直是A卡的独门绝技,也是起在DX12、Vulkan API下表现更好的关键,如今得到增强后,可以更精准地实时控制其他模块。

有趣的是,RDNA GPU架构设计也借鉴了Zen CPU架构设计的一些先进理念,尤其是在时钟门控方面,效率和能效极高,同时还减少了达到更高频率所需要的逻辑层级。

Radeon显示引擎也大幅跃进,支持FreeSync 2 HDR、HDMI 2.0/DisplayPort 1.4 HDR,针对高分辨率HR显示器优化,可输出4K/240Hz、8K/60Hz,而且都只需一根数据线即可达成,同时还优化了VR头显显示。

Radeon多媒体引擎则大大改进了视频编解码,增加了新的H.265 HDR/WCG编码器,全面支持H.264 1080p600、4K150、8K30解码和1080p360、4K90编码,H.265 1080p360、4K90、8K24解码和1080p360、4K60编码,VP9 4K90、8K24解码,整体编码速度加快40%。

对于大家非常关注的光线追踪支持,GCN、RDNA架构都没有专门的硬件单元加速,不过事实上,AMD ProRender、Radeon Rays都早就支持了光线追踪,分别面向内容创作渲染和游戏开发。

在下一代RDNA架构上,AMD会通过硬件单元,支持特定的光线追踪效果在游戏中实时渲染,而即便到了更遥远的未来,AMD也不会将光线追踪全部一股脑扔给硬件来本地处理,否则效率会非常低下,而是将借助云计算,实现全场景的光线追踪,保证画面效果的同时,不会给本地硬件太大的压力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18250

    浏览量

    222049
  • amd
    amd
    +关注

    关注

    25

    文章

    5190

    浏览量

    132631
  • 显卡
    +关注

    关注

    16

    文章

    2356

    浏览量

    65843
  • GPU架构
    +关注

    关注

    0

    文章

    15

    浏览量

    8444

原文标题:四年研发,终成正果!AMD 全新GPU架构解析:相比 Vega 64 面积更小,性能提升14%,功耗降低23%

文章出处:【微信号:wc_ysj,微信公众号:旺材芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    全新AMD锐龙8000F系列处理器整机正式发售 配备神经处理单元(NPU)

    ,将由AMD渠道品牌整机合作伙伴提供整机进行销售。全新AMD锐龙8000F系列处理器为提高效率进行了低功耗优化,其中的AMD锐龙7 8700
    的头像 发表于 04-18 11:05 311次阅读
    <b class='flag-5'>全新</b><b class='flag-5'>AMD</b>锐龙8000F系列处理器整机正式发售 配备神经处理单元(NPU)

    FPGA在深度学习应用中或将取代GPU

    最后说,“我们决定专注于软件业务,探索研究提升神经网络性能降低延迟的方案。Zebra 运行在 FPGA 上,因此无需更换硬件就可以支持 AI 推理。FPGA 固件的每次刷新都能给我们带来更高的
    发表于 03-21 15:19

    深入解读AMD最新GPU架构

    GCN 取代了 Terascale,并强调 GPGPU 和图形应用程序的一致性能。然后,AMD 将其 GPU 架构开发分为单独的 CDNA 和 RDNA 线路,分别专门用于计算和图形。
    发表于 01-08 10:12 448次阅读
    深入解读<b class='flag-5'>AMD</b>最新<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>

    揭秘GPU: 高端GPU架构设计的挑战

    在计算领域,GPU(图形处理单元)一直是性能飞跃的代表。众所周知,高端GPU的设计充满了挑战。GPU架构创新,为软件承接大模型训练和推理场
    的头像 发表于 12-21 08:28 426次阅读
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>设计的挑战

    AMD锐龙8040产品全球首发!

    AMD日前官宣了代号Hawk Point的新一代锐龙8040系列移动处理器,是现有锐龙7040系列的升级版,工艺、架构不变,重点提升NPU AI性能,并调整了
    的头像 发表于 12-14 09:20 796次阅读
    <b class='flag-5'>AMD</b>锐龙8040产品全球首发!

    性能提升功耗降低!,这样的MOSFET是你的最爱么?

    性能提升功耗降低!,这样的MOSFET是你的最爱么?
    的头像 发表于 12-04 15:09 125次阅读
    <b class='flag-5'>性能</b><b class='flag-5'>提升</b>,<b class='flag-5'>功耗</b><b class='flag-5'>降低</b>!,这样的MOSFET是你的最爱么?

    AMD游戏GPU架构的优势分析

    目前AMDGPU 分为两个截然不同的产品领域,一个是针对游戏的,另一个是用于超级计算机、大数据分析和机器学习系统的。
    发表于 11-19 12:21 310次阅读
    <b class='flag-5'>AMD</b>游戏<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>的优势分析

    联发科天玑 9300 处理器性能曝光:CPU / GPU 跑分双杀骁龙 8 Gen 3;传丰田计划在印度投建第三座工厂

    性能提升 15%,功耗降低 40%。 虽然目前天玑 9300 的具体跑分还未公布,但该数码博主透露,在安兔兔 V10 中,天玑 9300 的 CPU 和
    的头像 发表于 10-08 17:10 749次阅读
    联发科天玑 9300 处理器<b class='flag-5'>性能</b>曝光:CPU / <b class='flag-5'>GPU</b> 跑分双杀骁龙 8 Gen 3;传丰田计划在印度投建第三座工厂

    天玑9300最新消息 联发科天玑9300采用Arm最新旗舰GPU G720功耗性能再硬卷

    天玑9300最新消息 联发科天玑9300采用Arm最新旗舰GPU G720功耗性能再硬卷 使用台积电4nm制程的联发科新一代旗舰芯片天玑9300最新消息被爆料了一些出来。 联发科新一代旗舰芯片
    的头像 发表于 09-01 15:18 1500次阅读

    基于磁贴的GPU架构优缺点

    本指南介绍了基于磁贴的GPU架构的优缺点。它还将ARM马里基于瓷砖的GPU架构设计与台式PC或控制台中常见的更传统的即时模式GPU进行了比较
    发表于 08-02 12:54

    从Arm的TCS23参考设计,看明年的手机性能提升

    其实Arm前一阵已经正式发布了TCS23(Total Compute Solutions 23)平台,以及对应的IP产品,包括Cortex-X4、A720、A520这些Armv9架构的CPU IP
    的头像 发表于 07-02 08:46 559次阅读
    从Arm的TCS<b class='flag-5'>23</b>参考设计,看明年的手机<b class='flag-5'>性能</b><b class='flag-5'>提升</b>

    AMD带领GPU进入Chiplet时代 RDNA3架构深入解读

    11月3日,AMD 透露了其 RDNA 3 GPU 架构和 Radeon RX 7900 系列显卡的关键细节。
    的头像 发表于 06-12 10:14 783次阅读
    <b class='flag-5'>AMD</b>带领<b class='flag-5'>GPU</b>进入Chiplet时代 RDNA3<b class='flag-5'>架构</b>深入解读

    Arm TCS23现迄今最快处理器IP组合,前瞻定义旗舰手机SoC性能,为生成式AI而来

    于 Cortex-X3 ,性能提高 15% ,功耗降 40%   Cortex-X4是第四代X内核,基于全新的Armv9架构。得益于Armv9计算集群,处理器连续三年实现两位数的
    的头像 发表于 06-05 16:16 1305次阅读
    Arm TCS<b class='flag-5'>23</b>现迄今最快处理器IP组合,前瞻定义旗舰手机SoC<b class='flag-5'>性能</b>,为生成式AI而来

    NVIDIA仍不死心,再次加入ARM站场

    英伟达雄厚的图形技术实力很契合联发科的需求。相比于智能手机芯片,也更为容易满足功耗方面的要求。 联发科也希望英伟达的图形技术应用于面向智能手机的旗舰级芯片上,以大幅度提升图形性能,类似的做法已经有先例
    发表于 05-28 08:51

    AMD Zen5 APU全线揭秘 GPU架构性能突飞猛进

    这一次,不但CPU架构全线升级到Zen5,GPU架构性能也有突飞猛进,最高甚至达到移动版RTX 4070的级别!
    发表于 05-19 09:54 2400次阅读
    <b class='flag-5'>AMD</b> Zen5 APU全线揭秘 <b class='flag-5'>GPU</b><b class='flag-5'>架构</b>和<b class='flag-5'>性能</b>突飞猛进