0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Ampere架构解析:相比上一代做了哪些提升

工程师邓生 来源:中关村在线 作者:曲楠 2020-12-11 17:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

持续了一个月的“显卡发布季”已经告一段落,截止目前NVIDIA发布了GeForce RTX 3060 Ti/3070/3080/3090共4个型号的显卡,相比上一代显卡,RTX 30系显卡再次做到了性能翻倍的神话。

除了性能上的提升,新的NVIDIA Ampere架构还带来了第二代RT Core和第三代Tensor,虽然RTX 30系显卡拥有诸多提升,但价格却与上一代显卡相同。

在9月2日发布会当天,虽然过程仅有短短的40分钟,却震惊了全世界的用户。

算力提升

下面我们就来看看,“有史以来最伟大性能提升”相比上一代的NVIDIA Turing架构,做了哪些提升。

第一代RTX架构Turing

第二代RTX架构 Ampere

首先来简单回顾一下在9月2日发布会的PPT上我们都看到了什么,相较于初代的Turing RTX架构,NVIDIA Ampere架构在算力上有着成倍的增长,每个时钟执行2次着色器运算。

而Turing为1次,着色器性能达到30 TFLOPS单精度性能,而Turing为11 TFLOPS。

NVIDIA Ampere架构翻倍了光线与三角形的相交吞吐量,RT Core达到58 RT TFLOPS,而Turing为34 RT TFLOPS。

另外在全新的Tensor Core中,可自动识别并消除不太重要的DNN权重,处理稀疏网络的速率是Turing的两倍,算力高达238 Tensor TFLOPS,而Turing为89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心拥有280亿个晶体管,628平方毫米的面积,基于三星的8nm NVIDIA定制工艺,来自美光的GDDR6X显存,以及我们上面说的,三大处理核心均为初代Turing的两倍速率,构成了有史以来性能最强大的Ampere。

SM单元的改变

而NVIDIA Ampere架构的强大性能并不是NVIDIA一蹴而就,可以说在20系显卡中所采用的Turing架构功不可没,下面我们先来看看完整的GA102核心。

完整的GA102 GPU包含7个GPC(图形处理集群)42个TPC(纹理处理集群)以及84个SM(流处理器)组成。

GPC是占据主导地位的高级模块,拥有所有的关键图形处理单元,每个GPC包含一个专用光栅引擎。

在新的NVIDIA Ampere架构中,每个GPC还包含了两个ROP分区,每个分区包含8个ROP单元。下面我们来看看每个SM单元的变化。

在每个SM中,包含四个大的处理分区共128个CUDA核心,4个第三代Tensor Core,1个第二代RT Core,1个256 KB的缓存文件,1个128 KB的L1缓存,这个L1缓存可以根据不同的工作需求来调配缓存,工作效率发挥至最大。

另外大家都知道本次RTX 3080的CUDA数量暴增至8704个,而RTX 3090的CUDA数量更是达到了惊人的10496个。

但是大家要知道专业计算卡Tesla A100的GA100核心,拥有更大的核心面积,更多的晶体管数量,理论上只有8192个CUDA,那RTX 3080又是如何达到这种效果的呢?

其实是因为本次NVIDIA Ampere的SM在Turing基础上增加了一倍的FP32运算单元,这就使得每个SM的FP32运算单元数量提高了一倍。

我们在发布会中经常听到性能翻倍的说法,其实是因为本次NVIDIA Ampere的SM在Turing基础上增加了一倍的FP32运算单元,这就使得每个SM的FP32运算单元数量提高了一倍,同时吞吐量也就变为了一倍。

而通常我们计算显卡的CUDA数量,并不是把SM中的所有单元加起来计数,而是只统计FP32单元的数量,所以这样一来,SM中的【FP32 : INT32】 从 1:1 变为 2:1。

如RTX 3080的8704个CUDA,其实它只有4352个INT32单元,但由于内部的FP32数量翻了一倍,所以最终实现了8704这个惊人的数字。

而这样粗暴的提升CUDA数量对于游戏有帮助吗?

答案是有,不仅有提升还很大。其实通常在游戏中浮点运算相比整数计算要常用的多,图形、算法以及各种计算操作中着色器工作负载通常需要混合使用FP32算数指令,而FP32的加速也有助于光线追踪降噪着色器。

第二代RT Core

在此次的NVIDIA Ampere架构中,NVIDIA官方宣布为第二代RT Core,它和第一代有什么不同呢。

首先要知道RT Core的工作原理是,着色器发出光线追踪的请求,交给RT Core来处理,它将进行两种测试,分别为边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing)。

基于BVH算法来判断,如果是方形,那么就返回缩小范围继续测试,如果是三角形,则反馈结果进行渲染。

而光线追踪最耗时的正是求交计算,因此,要提升光线追踪性能,主要是对两种求交(BVH/三角形求交)进行加速。

在Turing的RT Core中,可以每个周期完成5次BVH遍历、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一个新的三角形位置插值模块以及一个的额外的三角形求交模块,这样做的目的是为了提升诸如运动模糊特效时候的光线追踪性能。

第二代RT Core可以让光线追踪与着色同时进行,进行的光线追踪越多,加速就越快,它将光线相交的处理性能提升了一倍,在渲染有动态模糊的影像时,按照NVIDIA自己的实测,比Turing快8倍。

第三代Tensor Core

除了光线追踪的强化,Ampere架构的Tensor Core也得到了极大地加强,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自动识别并消除不太重要的DNN(深度神经网络)权重,同时依然能保持不错的精度。

首先原始的密集矩阵会经过训练,删除掉稀疏矩阵,再经过训练稀疏矩阵,从而实现稀疏优化,进而提高Tensor Core的性能。

所以最终的结果就是Tensor Core在处理稀疏网络的速率是Turing的两倍,算力高达238 Tensor TFLOPS,而Turing为89 Tensor TFLOPS。

RTX IO

与此次RTX 30系显卡一同发布的还有一项新技术——RTX IO。目前很多游戏动辄几十G甚至百G的安装空间,对于存储空间的负担暂且不提,但存放在硬盘中的数据,如果显卡想要读取到,需要先由CPU从硬盘中读取压缩过的数据,经过解压缩再发送到显存中。

虽然随着NVMe SSD的推出,读取速度相较机械硬盘能够快20倍,但受制于传统I/O限制,NVMe高达7GB/秒的高速读写对于CPU是极大的负担。

在这个过程中,会占用多个CPU核心,压力急剧增大,占用较多的内存,而此时其实GPU是处于闲置状态的。

RTX IO的作用就是越过CPU解压再传输数据这一步,直接从PCIE总线读取硬盘上经过压缩的数据,并且完成解压,降低CPU占用,变向提升了性能。

当然这项技术作为系统底层的运行方式改变,还需要借助微软发布的DirectStorage来实现,对于目前容量的游戏来说,RTX IO的改善效果有限,但假以时日等游戏容量上百G成为常态的时候,这项技术将会发挥巨大的功效。

最快的显存

在RTX 3080中,采用了GDDR6X显存,GDDR6X拥有320bit的位宽以及19Gbps的带宽速度,与采用GDDR6的Turing相比可提升40%的速度,在相同时间内GDDR6X可以比GDDR6传输多2倍的数据。

这对于需要大量数据负载的工作尤为重要,如光线追踪的游戏、AI学习和8K视频渲染。

同时搭配新增的HDMI2.1接口,可以支持单线8K的视频输出,而上一代HDMI2.0仅支持4K 98Hz的视频输出,如果想要连接8K电视,则需要更多的线缆支持。

相信了解RTX 30系显卡的性能后,会有玩家会问,RTX 20系显卡如此“短寿”算不算失败的一代,我认为不算。

Turing为我们开创了光线追踪和AI学习的新世界,奠定了GPU未来的发展方向,真正意义上实现从性能的堆砌到质的改变。

而Ampere则是站在巨人的肩膀,将上一代的路走的更宽更扎实。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109119
  • 显卡
    +关注

    关注

    16

    文章

    2517

    浏览量

    71072
  • 架构
    +关注

    关注

    1

    文章

    532

    浏览量

    26508
  • Ampere
    +关注

    关注

    1

    文章

    81

    浏览量

    4856
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊新一代自研服务器芯片Graviton5问世,性能提升25%

    ,基于Graviton5的全新EC2 M9g实例性能提升高达25%,其每个芯片配备192核及5倍扩容缓存,助力客户在扩展工作负载、提升应用性能的同时降低基础设施成本。   Graviton5性能与能效的双重飞跃   基于Graviton5的全新EC2 M9g实例,与
    的头像 发表于 12-09 08:33 4671次阅读

    NVIDIA Jetson AGX Thor Developer Kit开发环境配置指南

    NVIDIA Jetson AGX Thor 专为物理 AI 打造,与上一代产品 NVIDIA Jetson AGX Orin 相比,生成式 AI 性能最高
    的头像 发表于 11-08 09:55 6179次阅读
    <b class='flag-5'>NVIDIA</b> Jetson AGX Thor Developer Kit开发环境配置指南

    NVIDIA推出NVQLink高速互连架构

    NVIDIA 推出 NVIDIA NVQLink,这是种开放式系统架构,可将 GPU 计算的极致性能与量子处理器紧密结合,以构建加速的量子超级计算机。
    的头像 发表于 11-03 14:53 494次阅读

    国产AI芯片真能扛住“算力内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“算力是AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下算力直接拉到256 TFLOPS,比上一代提升了40%,但功耗
    发表于 10-27 13:12

    使用NVIDIA NVLink Fusion技术提升AI推理性能

    本文详细阐述了 NVIDIA NVLink Fusion 如何借助高效可扩展的 NVIDIA NVLink scale-up 架构技术,满足日益复杂的 AI 模型不断增长的需求。
    的头像 发表于 09-23 14:45 603次阅读
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技术<b class='flag-5'>提升</b>AI推理性能

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品
    的头像 发表于 08-28 11:02 2984次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell GPU测试分析

    NVIDIA 采用纳微半导体开发新一代数据中心电源架构 800V HVDC 方案,赋能下一代AI兆瓦级算力需求

    800V HVDC电源架构开发,旗下GaNFast™氮化镓和GeneSiC™碳化硅技术将为Kyber机架级系统内的Rubin Ultra等GPU提供电力支持。   NVIDIA推出的下一代800V
    发表于 05-23 14:59 2605次阅读
    <b class='flag-5'>NVIDIA</b> 采用纳微半导体开发新<b class='flag-5'>一代</b>数据中心电源<b class='flag-5'>架构</b> 800V HVDC 方案,赋能下<b class='flag-5'>一代</b>AI兆瓦级算力需求

    Nordic新一代旗舰芯片nRF54H20深度解析

    、芯片概览:第四多协议SoC的革新 Nordic Semiconductor最新发布的​​nRF54H20​​作为nRF54H系列首款SoC,标志着低功耗无线技术的又次飞跃。这款采用​​多核
    发表于 04-26 23:25

    软银集团将收购Ampere Computing

    的全资子公司运营并保留其公司名称。作为此次交易的部分,Ampere 的主要投资者 —— 凯雷投资集团(NASDAQ:CG)和甲骨文公司(NYSE:ORCL)—— 将出售各自在 Ampere 的股份。
    的头像 发表于 03-20 17:55 1014次阅读

    NVIDIA Blackwell数据手册与NVIDIA Blackwell架构技术解析

    NVIDIA Blackwell数据手册与NVIDIA Blackwell 架构技术解析
    的头像 发表于 03-20 17:19 1761次阅读

    宝马发布全新一代智能电子电气架构

    "超级大脑"赋能宝马新世代车型智能驾驶乐趣 全新一代电子电气架构搭载新世代车型,覆盖全动力系统和全细分车型 全新一代电子电气架构集成算力提升
    的头像 发表于 03-13 15:42 559次阅读

    纳芯微发布新一代CSP封装MOSFET NPM12017A系列

    提升了电气与极限能力。以首发产品NPM12017A为例,典型阻值相比上一代降低了26%,温升降低近30%,极限耐受能力如短路及雪崩能力等提升近50%,达到国际领先水准。同时,凭借12寸COT工艺,NPM12017A在极具性价比的
    的头像 发表于 03-12 10:33 2807次阅读

    软银接近达成收购Ampere协议

    近日,据报道,软银集团目前正就收购芯片设计公司Ampere Computing LLC进行深入磋商。这消息引起了业界的广泛关注。 据悉,软银集团正在与Ampere进行积极谈判,旨在达成
    的头像 发表于 02-06 14:19 702次阅读

    天玑8400全大核、端侧AI,续写“神U”传奇!

    的缓存大幅提升相比上一代,二级缓存增加倍,三级缓存增加50%。   借助精准的能效调控技术,天玑8400 CPU的多核功耗相较上一代降低
    的头像 发表于 12-24 15:15 2318次阅读
    天玑8400全大核、端侧AI,续写“神U”传奇!

    NVIDIA 推出高性价比的生成式 AI 超级计算机

    人群提供更强大的生成式 AI 功能与性能,目前建议零售价 2070 人民币。   该开发者套件现已上市,与上一代产品相比,其生成式
    发表于 12-18 17:01 950次阅读
    <b class='flag-5'>NVIDIA</b> 推出高性价比的生成式 AI 超级计算机