在当前的显卡市场上,占据80%的NVIDIA公司被玩家爱且恨着——他们带来了最近十多年来最好的显卡,同时也让高端游戏卡的价格高企,发烧显卡至少五位数起。
在RTX 30系列显卡发布之后,玩家的不满似乎释然了,相比当前的图灵显卡,安培架构的RTX 3090/3080/3070显卡一下子变得真香了,因为它们性能翻倍不说,国内价格反而下降了。
·GeForce RTX 3090:取代RTX Titan,相比于Titan RTX快了50%,性能是RTX 2080 Ti显卡的2倍,配备24GB GDDR6X显存,售价11999元,9月24日上市。
·GeForce RTX 3080:取代RTX 2080 Ti,相比于RTX 2080性能快2倍,搭配10GB GDDR6X显存,海外699美元没变,国内从上代6499降至5499元,9月17日上市。
·GeForce RTX 3070:价格不到RTX 2080 Ti的一半,但是平均性能更高,同时比RTX 2070快足足60%,配备8GB GDDR6显存,售价3899元,10月份上市。
RTX 30系列显卡售价及上市时间
RTX 30系列显卡性能变化
RTX 30系列显卡规格
从这个规格表中可以看出,与RTX 2080 Ti显卡相比,RTX 3090的标志性FP32性能从13.4T提升到了35.7T,翻倍还多,光追及AI加速提升也同样明显。
与图灵显卡相比,安培GPU的变化之大让人惊讶,在过去十多年的显卡升级换代中,性能翻倍的提升很少见到了,NVIDA是怎么做到的?
今天我们就来从详细解读一下安培GPU的架构,探究它到底带来了哪些技术升级以致于让NVIDIA创始人黄仁勋称之为有史以来性能提升最大的一次。
先从工艺说起:12nm干掉7nm之后 8nm如何再进一步
对于半导体芯片来说,很关键的一部分是制程工艺,先进的架构也要通过工艺来实现,这是影响芯片能效、性能甚至成本的一大因素。
对NVIDIA来说,他们的Volta伏特、Turing图灵两代架构都是台积电12nm FFN工艺了,这是台积电16nm工艺的改进版,如果再算上16nm的Pascal架构,实际上过去三代GPU都没有重大工艺上的升级了。
在Ampere安培架构上,NVIDIA终于升级工艺了,只不过这次有两个意外——首先没有选择台积电,其次没有上7nm,而是三星定制的8nm工艺,虽然跟7nm看起来只差了1nm,但实际上是两代工艺。
考虑到NVIDIA之前对工艺的表态,没用7nm工艺而是三星8nm工艺又在意料之中,最关键的问题在于NVIDIA能够做到多好。
三星的8nm工艺是基于10nm工艺改良的,至少有LPP和LPU两个版本,前者适合移动SoC,后者适合高性能芯片,NVIDIA的定制大概是基于后者。
与台积电的7nm工艺晶体管密度大约1亿/mm2相比,8nm工艺大概是6000万晶体管/mm2,但这是单一的SRAM芯片的对比,实际上GPU芯片比较复杂,差距会缩小很多。
根据是NVIDIA公布的信息,台积电7nm工艺制造的安培A100核心是540亿晶体管,核心面积826mm2,而三星8nm工艺制造的GA102核心是280亿晶体管,核心面积官方没公布,据悉是628mm2,也是大核心了。
这么算下来,7nm A100核心的晶体管密度6560万晶体管/mm2,而三星8nm的GA102核心也有4460万晶体管/mm2——差距仍在,但似乎可以接受了。
三星8nm工艺的晶圆代工价格还是秘密,但是不论技术还是商业策略上,三星都会比台积电便宜很多,预计代工价格能差30%或者更高,所以这也是RTX 30系列显卡能够不涨价甚至降价的关键。
那三星8nm工艺带来了多大的性能及能效提升呢?首先大家可以看到RTX 30系列显卡的频率提升了,从RTX 20系列的1.5GHz+提升到了1.7GHz+,升级工艺还是有性能提升的。
不过RTX 20系列的加速频率实际可以达到1.9GHz甚至接近2GHz,RTX 30系列预计也就这个水平。
但是能效还是有提升的,NVIDIA官方称在60fps性能下,图灵显卡的功耗大约有240W,安培显卡则是120W多点,算下来是1.9倍能效,提升了90%,同时温度还低了3度,噪音减少2分贝。
总的来说,在工艺这方面大家对安培GPU有惊喜有失望,失望的是没有上预期中的7nm工艺(不管台积电还是三星),工艺依然升级到了8nm。
但是NVIDIA工艺虽然并不算激进,但性能、能效进步还是挺大的,安培显卡各方面指标都是大幅胜过现在的图灵卡,而且价格做到了不升反降,这也是不追求激进工艺的好处,反正之前12nm都能赢,现在上8nm更加稳妥了。
安培GPU架构详解之:FP32单元翻倍 CUDA核心改了什么?
发布安培的时候,NVIDIA CEO黄仁勋表示这是GPU有史以来最大的性能飞跃,而2018年推出图灵GPU时,老黄也是类似的说词——GPU有史以来最大的变革,这两个评价其实也没错。
图灵GPU架构有很多第一次,首次支持RTX Core(光追加速单元),首次支持Tensor Core,同时还改进了CUDA内核,不过前两个是重点。
在安培GPU上,RT Core、Tensor Core当然继续加强,不过最主要的亮点是CUDA架构的改进,性能翻倍的根源就在这里,我们先来看看这方面的变化。
GA102核心架构示意图
GA102核心总计7组GPC单元,每组有12组SM单元,总计84组,RTX 30系列显卡视乎规格不同启用的SM单元总数不同,RTX 3090是82组,RTX 3080是68组,RTX 3070是46组。
在之前的GA100大核心中,每组SM是64个INT32单元、64个FP32单元及32个FP64单元组成的,但在GA102核心中,FP64单元大幅减少,增加了RT Core,Tensor Core也略微减少。
GA102核心的SM单元
按照之前图灵GPU的路线走,安培GPU的SM单元增加的并不多,但实际上FP32性能翻倍了还多,算上频率,RTX 3080的理论性能差不多是RTX 2080的三倍了,这是怎么做到的?
答案就是CUDA核心的FP32翻倍,但翻倍的方式有点特殊,每个SM单元中有4个分区,每个分区除了第三代Tensor Core核心之外,还有一组是16个FP32单元及16个FP32、16个IN32组成的单元,后者可以同时执行FP32或者INT32运算。
16个FP32单元每周期可执行16个FP32运算,混合的那个单元可以执行32个FP32或者16个FP32+16个INT32。
如此一来,每个SM单元可以同时执行4x(16FP32+16FP32)=128个FP32运算,或者4x(16FP32+16INT32)=64个FP32+64个INT32运算。
只算FP32浮点的话,那么就是浮点翻倍了,因为图灵以及GA100都是每周期64个FP32浮点而已,现在可以做128个FP32运算了。
提升FP32性能不论对游戏还是运算都大有裨益,但也需要配套的提升,GA102的L1容量提升了33%,L1带宽从116GB/s翻倍到219GB/s,共享内存的性能也从每周期64B翻倍到128B。
审核编辑:符乾江
-
IC设计
+关注
关注
38文章
1369浏览量
107910 -
NVIDIA
+关注
关注
14文章
5496浏览量
109091 -
gpu
+关注
关注
28文章
5099浏览量
134461
发布评论请先 登录
NVIDIA RTX PRO 2000 Blackwell GPU性能测试
NVIDIA RTX PRO 4500 Blackwell GPU测试分析
NVIDIA桌面GPU系列扩展新产品
NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载
使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发
NVIDIA RTX 4500 Ada与NVIDIA RTX A5000的对比
技嘉科技发布GeForce RTX 5090 D 和RTX 5080系列显卡
技嘉CES 2025发布RTX 50系列显卡,升级散热缩小体积
NVIDIA GeForce RTX 50系列:AI计算机图形新纪元
$1999 的 RTX 5090 来了

NVIDIA RTX 30系列架构的详细讲解
评论