0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA RTX 30系列架构的详细讲解

电子设计 来源:电子设计 作者:电子设计 2020-12-24 15:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在当前的显卡市场上,占据80%的NVIDIA公司被玩家爱且恨着——他们带来了最近十多年来最好的显卡,同时也让高端游戏卡的价格高企,发烧显卡至少五位数起。

在RTX 30系列显卡发布之后,玩家的不满似乎释然了,相比当前的图灵显卡,安培架构的RTX 3090/3080/3070显卡一下子变得真香了,因为它们性能翻倍不说,国内价格反而下降了。

·GeForce RTX 3090:取代RTX Titan,相比于Titan RTX快了50%,性能是RTX 2080 Ti显卡的2倍,配备24GB GDDR6X显存,售价11999元,9月24日上市。

·GeForce RTX 3080:取代RTX 2080 Ti,相比于RTX 2080性能快2倍,搭配10GB GDDR6X显存,海外699美元没变,国内从上代6499降至5499元,9月17日上市。

·GeForce RTX 3070:价格不到RTX 2080 Ti的一半,但是平均性能更高,同时比RTX 2070快足足60%,配备8GB GDDR6显存,售价3899元,10月份上市。

RTX 30系列显卡售价及上市时间

RTX 30系列显卡性能变化

RTX 30系列显卡规格

从这个规格表中可以看出,与RTX 2080 Ti显卡相比,RTX 3090的标志性FP32性能从13.4T提升到了35.7T,翻倍还多,光追及AI加速提升也同样明显。

与图灵显卡相比,安培GPU的变化之大让人惊讶,在过去十多年的显卡升级换代中,性能翻倍的提升很少见到了,NVIDA是怎么做到的?

今天我们就来从详细解读一下安培GPU的架构,探究它到底带来了哪些技术升级以致于让NVIDIA创始人黄仁勋称之为有史以来性能提升最大的一次。

先从工艺说起:12nm干掉7nm之后 8nm如何再进一步

对于半导体芯片来说,很关键的一部分是制程工艺,先进的架构也要通过工艺来实现,这是影响芯片能效、性能甚至成本的一大因素。

对NVIDIA来说,他们的Volta伏特、Turing图灵两代架构都是台积电12nm FFN工艺了,这是台积电16nm工艺的改进版,如果再算上16nm的Pascal架构,实际上过去三代GPU都没有重大工艺上的升级了。

在Ampere安培架构上,NVIDIA终于升级工艺了,只不过这次有两个意外——首先没有选择台积电,其次没有上7nm,而是三星定制的8nm工艺,虽然跟7nm看起来只差了1nm,但实际上是两代工艺。

考虑到NVIDIA之前对工艺的表态,没用7nm工艺而是三星8nm工艺又在意料之中,最关键的问题在于NVIDIA能够做到多好。

三星的8nm工艺是基于10nm工艺改良的,至少有LPP和LPU两个版本,前者适合移动SoC,后者适合高性能芯片,NVIDIA的定制大概是基于后者。

与台积电的7nm工艺晶体管密度大约1亿/mm2相比,8nm工艺大概是6000万晶体管/mm2,但这是单一的SRAM芯片的对比,实际上GPU芯片比较复杂,差距会缩小很多。

根据是NVIDIA公布的信息,台积电7nm工艺制造的安培A100核心是540亿晶体管,核心面积826mm2,而三星8nm工艺制造的GA102核心是280亿晶体管,核心面积官方没公布,据悉是628mm2,也是大核心了。

这么算下来,7nm A100核心的晶体管密度6560万晶体管/mm2,而三星8nm的GA102核心也有4460万晶体管/mm2——差距仍在,但似乎可以接受了。

三星8nm工艺的晶圆代工价格还是秘密,但是不论技术还是商业策略上,三星都会比台积电便宜很多,预计代工价格能差30%或者更高,所以这也是RTX 30系列显卡能够不涨价甚至降价的关键。

那三星8nm工艺带来了多大的性能及能效提升呢?首先大家可以看到RTX 30系列显卡的频率提升了,从RTX 20系列的1.5GHz+提升到了1.7GHz+,升级工艺还是有性能提升的。

不过RTX 20系列的加速频率实际可以达到1.9GHz甚至接近2GHz,RTX 30系列预计也就这个水平。

但是能效还是有提升的,NVIDIA官方称在60fps性能下,图灵显卡的功耗大约有240W,安培显卡则是120W多点,算下来是1.9倍能效,提升了90%,同时温度还低了3度,噪音减少2分贝。

总的来说,在工艺这方面大家对安培GPU有惊喜有失望,失望的是没有上预期中的7nm工艺(不管台积电还是三星),工艺依然升级到了8nm。

但是NVIDIA工艺虽然并不算激进,但性能、能效进步还是挺大的,安培显卡各方面指标都是大幅胜过现在的图灵卡,而且价格做到了不升反降,这也是不追求激进工艺的好处,反正之前12nm都能赢,现在上8nm更加稳妥了。

安培GPU架构详解之:FP32单元翻倍 CUDA核心改了什么?

发布安培的时候,NVIDIA CEO黄仁勋表示这是GPU有史以来最大的性能飞跃,而2018年推出图灵GPU时,老黄也是类似的说词——GPU有史以来最大的变革,这两个评价其实也没错。

图灵GPU架构有很多第一次,首次支持RTX Core(光追加速单元),首次支持Tensor Core,同时还改进了CUDA内核,不过前两个是重点。

在安培GPU上,RT Core、Tensor Core当然继续加强,不过最主要的亮点是CUDA架构的改进,性能翻倍的根源就在这里,我们先来看看这方面的变化。

GA102核心架构示意图

GA102核心总计7组GPC单元,每组有12组SM单元,总计84组,RTX 30系列显卡视乎规格不同启用的SM单元总数不同,RTX 3090是82组,RTX 3080是68组,RTX 3070是46组。

在之前的GA100大核心中,每组SM是64个INT32单元、64个FP32单元及32个FP64单元组成的,但在GA102核心中,FP64单元大幅减少,增加了RT Core,Tensor Core也略微减少。

GA102核心的SM单元

按照之前图灵GPU的路线走,安培GPU的SM单元增加的并不多,但实际上FP32性能翻倍了还多,算上频率,RTX 3080的理论性能差不多是RTX 2080的三倍了,这是怎么做到的?

答案就是CUDA核心的FP32翻倍,但翻倍的方式有点特殊,每个SM单元中有4个分区,每个分区除了第三代Tensor Core核心之外,还有一组是16个FP32单元及16个FP32、16个IN32组成的单元,后者可以同时执行FP32或者INT32运算。

16个FP32单元每周期可执行16个FP32运算,混合的那个单元可以执行32个FP32或者16个FP32+16个INT32。

如此一来,每个SM单元可以同时执行4x(16FP32+16FP32)=128个FP32运算,或者4x(16FP32+16INT32)=64个FP32+64个INT32运算。

只算FP32浮点的话,那么就是浮点翻倍了,因为图灵以及GA100都是每周期64个FP32浮点而已,现在可以做128个FP32运算了。

提升FP32性能不论对游戏还是运算都大有裨益,但也需要配套的提升,GA102的L1容量提升了33%,L1带宽从116GB/s翻倍到219GB/s,共享内存的性能也从每周期64B翻倍到128B。

审核编辑:符乾江


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IC设计
    +关注

    关注

    38

    文章

    1369

    浏览量

    107910
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109091
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134461
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 3651次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 2000 Blackwell GPU性能测试

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品
    的头像 发表于 08-28 11:02 2872次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> PRO 4500 Blackwell GPU测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 20
    的头像 发表于 08-18 11:50 997次阅读

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTXNVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX
    的头像 发表于 07-16 09:16 1862次阅读

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发

    NVIDIA GTC 推出新一代专业级 GPU 和 AI 赋能的开发者工具—同时,ChatRTX 更新现已支持 NVIDIA NIM,RTX Remix 正式结束测试阶段,本月的 NVIDIA
    的头像 发表于 03-28 09:59 1073次阅读

    NVIDIA RTX 4500 Ada与NVIDIA RTX A5000的对比

    基于大众所熟知的 NVIDIA Ada Lovelace 架构NVIDIA RTX 4500 Ada Generation是一款介于 NVIDIA
    的头像 发表于 03-05 10:30 3700次阅读

    技嘉科技发布GeForce RTX 5090 D 和RTX 5080系列显卡

    旗舰散热方案,释放显卡强劲性能  日前— 技嘉科技-主板、显卡和硬件解决方案制造商,隆重推出搭载 NVIDIA® 革命性 Blackwell 架构的 GeForce RTX 5090 D 和
    的头像 发表于 01-28 10:31 1974次阅读
    技嘉科技发布GeForce <b class='flag-5'>RTX</b> 5090 D 和<b class='flag-5'>RTX</b> 5080<b class='flag-5'>系列</b>显卡

    技嘉CES 2025发布RTX 50系列显卡,升级散热缩小体积

    RTX™ 5070等型号。这些显卡均基于NVIDIA Blackwell架构及AI技术,为用户带来前所未有的游戏体验。 技嘉新一代RTX 50系列
    的头像 发表于 01-13 11:16 1187次阅读

    NVIDIA GeForce RTX 50系列:AI计算机图形新纪元

    和笔记本电脑两种版本,均搭载了NVIDIA革命性的Blackwell架构。 Blackwell架构的引入,使得GeForce RTX 50系列
    的头像 发表于 01-13 10:49 786次阅读

    $1999 的 RTX 5090 来了

    “  NVIDIA 的 GeForce RTX 5090 将于1月30日发售,起价 $1999。虽然可能买不到,但如果可以把4090的价格打下来,那也是非常不错的......   ” Geforce
    的头像 发表于 01-13 10:03 3036次阅读
    $1999 的 <b class='flag-5'>RTX</b> 5090 来了

    英伟达发布Blackwell架构RTX 50系列显卡

    在万众瞩目的CES 2025展会上,NVIDIA CEO黄仁勋震撼发布了基于全新Blackwell架构RTX 50系列显卡,为全球图形处理领域带来了革命性的突破。 此次发布的
    的头像 发表于 01-09 11:06 934次阅读

    NVIDIA推出GeForce RTX 50系列台式机和笔记本电脑GPU

    NVIDIA 宣布为游戏玩家、创作者和开发者推出最先进的消费级 GPU——GeForce RTX 50 系列台式机和笔记本电脑 GPU。
    的头像 发表于 01-08 11:05 1398次阅读

    NVIDIA推出面向RTX AI PC的AI基础模型

    NVIDIA 今日发布能在 NVIDIA RTX AI PC 本地运行的基础模型,为数字人、内容创作、生产力和开发提供强大助力。
    的头像 发表于 01-08 11:01 870次阅读

    技嘉于 CES 2025 首度亮相升级散热设计与精实体积的 NVIDIA GeForce RTX 50 系列显卡

    NVIDIA GeForce RTX™ 50 系列显示芯片设计的散热系统,可大幅提升高负载需求的游戏表现。以 "Evolution of Ten" 为设计概念,技嘉新系列显卡提升高达
    的头像 发表于 01-07 17:57 775次阅读

    NVIDIA和GeForce RTX GPU专为AI时代打造

    NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。
    的头像 发表于 01-06 10:45 1246次阅读