0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Ampere架构解析:相比上一代做了哪些提升

工程师邓生 来源:中关村在线 作者:曲楠 2020-12-11 17:22 次阅读

持续了一个月的“显卡发布季”已经告一段落,截止目前NVIDIA发布了GeForce RTX 3060 Ti/3070/3080/3090共4个型号的显卡,相比上一代显卡,RTX 30系显卡再次做到了性能翻倍的神话。

除了性能上的提升,新的NVIDIA Ampere架构还带来了第二代RT Core和第三代Tensor,虽然RTX 30系显卡拥有诸多提升,但价格却与上一代显卡相同。

在9月2日发布会当天,虽然过程仅有短短的40分钟,却震惊了全世界的用户。

算力提升

下面我们就来看看,“有史以来最伟大性能提升”相比上一代的NVIDIA Turing架构,做了哪些提升。

第一代RTX架构Turing

第二代RTX架构 Ampere

首先来简单回顾一下在9月2日发布会的PPT上我们都看到了什么,相较于初代的Turing RTX架构,NVIDIA Ampere架构在算力上有着成倍的增长,每个时钟执行2次着色器运算。

而Turing为1次,着色器性能达到30 TFLOPS单精度性能,而Turing为11 TFLOPS。

NVIDIA Ampere架构翻倍了光线与三角形的相交吞吐量,RT Core达到58 RT TFLOPS,而Turing为34 RT TFLOPS。

另外在全新的Tensor Core中,可自动识别并消除不太重要的DNN权重,处理稀疏网络的速率是Turing的两倍,算力高达238 Tensor TFLOPS,而Turing为89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心拥有280亿个晶体管,628平方毫米的面积,基于三星的8nm NVIDIA定制工艺,来自美光的GDDR6X显存,以及我们上面说的,三大处理核心均为初代Turing的两倍速率,构成了有史以来性能最强大的Ampere。

SM单元的改变

而NVIDIA Ampere架构的强大性能并不是NVIDIA一蹴而就,可以说在20系显卡中所采用的Turing架构功不可没,下面我们先来看看完整的GA102核心。

完整的GA102 GPU包含7个GPC(图形处理集群)42个TPC(纹理处理集群)以及84个SM(流处理器)组成。

GPC是占据主导地位的高级模块,拥有所有的关键图形处理单元,每个GPC包含一个专用光栅引擎。

在新的NVIDIA Ampere架构中,每个GPC还包含了两个ROP分区,每个分区包含8个ROP单元。下面我们来看看每个SM单元的变化。

在每个SM中,包含四个大的处理分区共128个CUDA核心,4个第三代Tensor Core,1个第二代RT Core,1个256 KB的缓存文件,1个128 KB的L1缓存,这个L1缓存可以根据不同的工作需求来调配缓存,工作效率发挥至最大。

另外大家都知道本次RTX 3080的CUDA数量暴增至8704个,而RTX 3090的CUDA数量更是达到了惊人的10496个。

但是大家要知道专业计算卡Tesla A100的GA100核心,拥有更大的核心面积,更多的晶体管数量,理论上只有8192个CUDA,那RTX 3080又是如何达到这种效果的呢?

其实是因为本次NVIDIA Ampere的SM在Turing基础上增加了一倍的FP32运算单元,这就使得每个SM的FP32运算单元数量提高了一倍。

我们在发布会中经常听到性能翻倍的说法,其实是因为本次NVIDIA Ampere的SM在Turing基础上增加了一倍的FP32运算单元,这就使得每个SM的FP32运算单元数量提高了一倍,同时吞吐量也就变为了一倍。

而通常我们计算显卡的CUDA数量,并不是把SM中的所有单元加起来计数,而是只统计FP32单元的数量,所以这样一来,SM中的【FP32 : INT32】 从 1:1 变为 2:1。

如RTX 3080的8704个CUDA,其实它只有4352个INT32单元,但由于内部的FP32数量翻了一倍,所以最终实现了8704这个惊人的数字。

而这样粗暴的提升CUDA数量对于游戏有帮助吗?

答案是有,不仅有提升还很大。其实通常在游戏中浮点运算相比整数计算要常用的多,图形、算法以及各种计算操作中着色器工作负载通常需要混合使用FP32算数指令,而FP32的加速也有助于光线追踪降噪着色器。

第二代RT Core

在此次的NVIDIA Ampere架构中,NVIDIA官方宣布为第二代RT Core,它和第一代有什么不同呢。

首先要知道RT Core的工作原理是,着色器发出光线追踪的请求,交给RT Core来处理,它将进行两种测试,分别为边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing)。

基于BVH算法来判断,如果是方形,那么就返回缩小范围继续测试,如果是三角形,则反馈结果进行渲染。

而光线追踪最耗时的正是求交计算,因此,要提升光线追踪性能,主要是对两种求交(BVH/三角形求交)进行加速。

在Turing的RT Core中,可以每个周期完成5次BVH遍历、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一个新的三角形位置插值模块以及一个的额外的三角形求交模块,这样做的目的是为了提升诸如运动模糊特效时候的光线追踪性能。

第二代RT Core可以让光线追踪与着色同时进行,进行的光线追踪越多,加速就越快,它将光线相交的处理性能提升了一倍,在渲染有动态模糊的影像时,按照NVIDIA自己的实测,比Turing快8倍。

第三代Tensor Core

除了光线追踪的强化,Ampere架构的Tensor Core也得到了极大地加强,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自动识别并消除不太重要的DNN(深度神经网络)权重,同时依然能保持不错的精度。

首先原始的密集矩阵会经过训练,删除掉稀疏矩阵,再经过训练稀疏矩阵,从而实现稀疏优化,进而提高Tensor Core的性能。

所以最终的结果就是Tensor Core在处理稀疏网络的速率是Turing的两倍,算力高达238 Tensor TFLOPS,而Turing为89 Tensor TFLOPS。

RTX IO

与此次RTX 30系显卡一同发布的还有一项新技术——RTX IO。目前很多游戏动辄几十G甚至百G的安装空间,对于存储空间的负担暂且不提,但存放在硬盘中的数据,如果显卡想要读取到,需要先由CPU从硬盘中读取压缩过的数据,经过解压缩再发送到显存中。

虽然随着NVMe SSD的推出,读取速度相较机械硬盘能够快20倍,但受制于传统I/O限制,NVMe高达7GB/秒的高速读写对于CPU是极大的负担。

在这个过程中,会占用多个CPU核心,压力急剧增大,占用较多的内存,而此时其实GPU是处于闲置状态的。

RTX IO的作用就是越过CPU解压再传输数据这一步,直接从PCIE总线读取硬盘上经过压缩的数据,并且完成解压,降低CPU占用,变向提升了性能。

当然这项技术作为系统底层的运行方式改变,还需要借助微软发布的DirectStorage来实现,对于目前容量的游戏来说,RTX IO的改善效果有限,但假以时日等游戏容量上百G成为常态的时候,这项技术将会发挥巨大的功效。

最快的显存

在RTX 3080中,采用了GDDR6X显存,GDDR6X拥有320bit的位宽以及19Gbps的带宽速度,与采用GDDR6的Turing相比可提升40%的速度,在相同时间内GDDR6X可以比GDDR6传输多2倍的数据。

这对于需要大量数据负载的工作尤为重要,如光线追踪的游戏、AI学习和8K视频渲染。

同时搭配新增的HDMI2.1接口,可以支持单线8K的视频输出,而上一代HDMI2.0仅支持4K 98Hz的视频输出,如果想要连接8K电视,则需要更多的线缆支持。

相信了解RTX 30系显卡的性能后,会有玩家会问,RTX 20系显卡如此“短寿”算不算失败的一代,我认为不算。

Turing为我们开创了光线追踪和AI学习的新世界,奠定了GPU未来的发展方向,真正意义上实现从性能的堆砌到质的改变。

而Ampere则是站在巨人的肩膀,将上一代的路走的更宽更扎实。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4576

    浏览量

    101637
  • 显卡
    +关注

    关注

    16

    文章

    2352

    浏览量

    65809
  • 架构
    +关注

    关注

    1

    文章

    482

    浏览量

    25196
  • Ampere
    +关注

    关注

    1

    文章

    54

    浏览量

    4501
收藏 人收藏

    评论

    相关推荐

    NVIDIA发布两款新的专业显卡RTX A1000、RTX A400

    NVIDIA今天发布了两款新的专业显卡RTX A1000、RTX A400,从编号就能看出来定位入门级,而且架构并非最新的Ada Lovelace,还是上一代Ampere
    的头像 发表于 04-18 11:35 432次阅读
    <b class='flag-5'>NVIDIA</b>发布两款新的专业显卡RTX A1000、RTX A400

    全新NVIDIA RTX A400和A1000 GPU全面加强AI设计与生产力工作流

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-18 10:29 101次阅读

    英伟达发布性能大幅提升的新款B200 AI GPU

    英伟达宣称,B200在性能上比以往最好的GPU快30倍不止。由它构成的服务器集群相比上一代,运算能力飞跃性提升,甚至能使大语言模型的训练速度翻番。
    的头像 发表于 03-20 09:37 169次阅读

    AI芯片生态:深度解析与未来展望

    相比上一代裁判Intel而言,实际上Intel设计的游戏规则是分配了很多蛋糕给行业内其他赛道的,而NVidia这种几乎吃独食的方式,也给它在各个领域树立了无数竞争对手。
    发表于 01-03 14:15 255次阅读

    TI 新一代明星CPU

    功耗,走红了全球。 今天给大家分享的是 TI 新一代明星CPU——AM62x,它相比上一代AM335x在工艺、外设、性能等多方面都有很大提升。 这里结合米尔电子的“MYC-YM62X核心板及开发板”给
    发表于 12-15 18:59

    龙芯3A6000性能实测:媲美10酷睿i3、同频超越14酷睿i5

    的实测成绩对比,上一代龙芯3A5000作为参照。 和3A5000相比 ,3A6000在SPEC CPU 2006测试中,多核定点提升103%,多核浮点提升83%。单核定点
    发表于 11-29 10:44

    NVIDIA GPU的核心架构架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此 NVI
    发表于 11-21 09:40 421次阅读
    <b class='flag-5'>NVIDIA</b> GPU的核心<b class='flag-5'>架构</b>及<b class='flag-5'>架构</b>演进

    对英伟达A100芯片算力服务收费价格上调100%,这家企业的硬气来自哪里?

    半导体芯情了解到,A100是英伟达最新推出的一款高性能计算芯片,采用了全新的Ampere架构Ampere架构NVIDIA于 GTC 20
    的头像 发表于 11-14 16:30 625次阅读
    对英伟达A100芯片算力服务收费价格上调100%,这家企业的硬气来自哪里?

    第四北斗芯片发布

    全新的第四北斗芯片,较上一代芯片有了全面的提升。芯片采用双核架构设计,计算能力提升100%;存储效能
    发表于 09-21 09:52

    小米机器狗二来了,比上一代更瘦、更快、更强!NVIDIA主控+全志MR813+全志R329协处理器

    ,但通过预录制的演示视频,我们可以清楚地看到CyberDog2在增加了款协处理器的情况下,可以完成更复杂的连续后空翻运动,更智能的识别以及追踪,更强烈的语音智能交互等上一代所不具备的功能。 作为
    发表于 09-06 09:39

    华为海思麒麟9000s是处于什么水平的处理器?

    的GPU性能比上一代芯片提升了50%。   除了CPU和GPU方面的性能表现,麒麟9000s的AI计算能力也非常出色。该芯片采用了16核心的DaVinci架构NPU,可以在图像识别、语音识别、自然语言
    发表于 08-31 09:34

    Ampere推出全新软件迁移工具Ampere Porting Advisor

    当前,开发者对高效的软件迁移解决方案的需求与日俱增。随着计算从传统 x86 架构向 AArch64 架构迁移,尤其是向 Ampere 处理器迁移的势头日益强劲,开发者们正在寻找加速代码库迁移的方法
    的头像 发表于 08-24 10:14 1194次阅读

    基于NVIDIA® Jetson™ Orin的凌华科技ROScube-X RQX-59系列,重新定义 AI 性能

    相比上一代产品,提供 6 倍的 AI 性能,突破性的 RQX-59 系列,为您的机器人和自动驾驶解决方案带来巨大变革 ROScube-X RQX-59系列基于NVIDIA® Jetson™ AGX
    发表于 08-08 14:18 474次阅读
    基于<b class='flag-5'>NVIDIA</b>® Jetson™ Orin的凌华科技ROScube-X RQX-59系列,重新定义 AI 性能

    NVIDIA Ampere 架构的结构化稀疏功能及其在搜索引擎中的应用

    NVIDIA Ampere 架构的结构化稀疏功能 及其在搜索引擎中的应用 深度学习彻底改变了我们分析、理解和处理数据的方式,而且在各个领域的应用中都取得了巨大的成功,其在计算机视觉、自然语言处理
    的头像 发表于 07-18 17:45 306次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Ampere</b> <b class='flag-5'>架构</b>的结构化稀疏功能及其在搜索引擎中的应用

    NVIDIA仍不死心,再次加入ARM站场

    Ampere架构的图形技术应用于MT819x SoC上。虽然至今也没有看到成品,不过并不代表双方没有推进这方面的工作。 据Digitimes报道,英伟达仍心系移动市场,将与联发科共同开发移动平台,以
    发表于 05-28 08:51