0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何看懂GPU架构?一分钟带你了解GPU参数指标

颖脉Imgtec 2025-10-09 09:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

GPU架构参数如CUDA核心数、显存带宽、Tensor TFLOPS、互联方式等,并非 “冰冷的数字”,而是直接关系设备能否满足需求、如何发挥最大价值、是否避免资源浪费等问题的核心要素。

本篇文章将全面分析GPU核心参数体系:算力、显存大小、显存带宽、热门架构特性等关键指标,旨在帮您理解不同应用场景下,如何选择最合适的GPU算力解决方案。



1、算力

GPU执行浮点运算的能力,通常以TFLOPS(每秒浮点操作次数)为单位衡量。

浮点运算能力是针对“高精度小数计算”的专项能力,也是处理“复杂科学 / 工程任务”的核心,它能加速模型训练、数据分析以及复杂模拟的处理速度。

那我们常提到的半精度(FP16)、单精度(FP32)、双精度(FP64)分别是什么?

它们是电脑存储和计算「小数」的三种“精度档位”,就像手机拍照的 “720P、1080P、4K”,档位越高,细节越精细,精度越高,但“处理速度”(计算效率)越慢,效率越低,成本越贵。

4a274b34-a4af-11f0-8ce9-92fbcf53809c.png

以前的大模型训练以FP32为主,现在更多是FP32和FP16的混合精度;推理的话,更多是FP16及其以下。


2、显存

是GPU用于存储数据和纹理的专用内存,与系统内存(RAM)不同,显存具有更高的带宽和更快的访问速度。显存的大小和性能直接影响GPU处理大规模数据的能力。


3、显存带宽

作为GPU与显存之间数据传输的桥梁;显存带宽=显存位宽x显存频率

如何理解显存与显存带宽的关系呢?

显存容量决定了“车厢”的载货量,显存越大装载的货物越多,而显存带宽决定了“装卸货”的速度,带宽越高装卸货的效率越高。


4、显存类型

显卡上用于存储和处理图形数据的专用内存技术,不同显存类型在带宽、功耗和性能上有显著差异。

主流显存类型有3种:GDDR、HBM和LPDDR。

GDDR系列主要用于游戏,HBM系列主要用于高端AI计算,如数据中心,LPDDR系列主要用于移动/边缘设备。


5、功耗

指单位时间内的能量消耗,反应消耗能量的速率单位是瓦特(W)。


6、卡间互联

卡间互联的作用是“高速专用通道”(比如 NVIDIA的NVLink、行业通用的PCIe 5.0),传输速度能达到每秒几百 GB(比如 NVLink 能到 400GB/s),和计算速度匹配,让所有卡 “算得快、传得也快”,不浪费算力。

NVLink是由NVIDIA研发的专用高速互联技术,专为解决“多 GPU 协同计算”的瓶颈 —— 当单张 GPU 算力不足时,多张 GPU 需快速交换数据,PCIe 的带宽和延迟成为瓶颈。

例如:训练千亿参数大模型时,8 张 GPU 需实时同步梯度数据,NVLink 让它们直接 “面对面沟通”。


7、流处理器(CUDA核心)

CUDA全称:CUDA 核心(Compute Unified Device Architecture Core)

它是NVIDIA GPU的基础计算单元。每个CUDA核心只处理简单的数学运算(如浮点加减乘除),但通过集成数千个这样的核心,GPU能同时处理海量数据,速度远超CPU。CUDA核心越多,并行处理能力越强。


8、张量核心(Tensor Core)

它是NVIDIA GPU中的一种专用计算单元,专门用于加速矩阵和张量运算,尤其在深度学习和高性能计算(HPC)中表现突出。

张量核心与CUDA相比,在于它能做矩阵运算,而CUDA一次只能算一个数字。所以张量核心效率更高。


9、Tensor性能

Tensor性能(Tensor TFLOPS)是衡量GPU或AI加速器在张量计算任务中的浮点运算能力的核心指标。专指通过上面的Tensor Core加速的浮点运算。数字越大,计算越快。

需要补充说明的是一般企业在做决策时不会太关注Tensor core的数量,而更看重Tensor性能。


10、英伟达GPU架构

英伟达数据中心级GPU名称中,首字母是架构的缩写。例如,B代表Blackwell、H代表Hopper,A代表Ampere、L代表Lovelace、都是用世界著名的科学家名字来命名。

数字往往代表GPU产品的等级或者性能表现。每一代的产品英伟达都会设计低中高不同价格、性能和功耗的GPU。数字部分越大,通常代表GPU越强大、价格越昂贵(A800和H800这类阉割版产品除外)。

比如:H100、A100、V100这类产品型号代表的同一代产品中的旗舰产品,价格最昂贵、性能最强大。也拥有最高的核心数和最大的显存,专为大型模型推理以及训练而设计。


Ampere架构

Ampere架构是继Volta和Turing架构之后的新一代技术,以540亿个晶体管打造,是有史以来最大的 7 纳米 (nm) 芯片,于2020年首次发布。

该架构具有更多的CUDA核心,并引入了第三代Tensor Core,针对AI和深度学习计算进一步优化,支持更高效的混合精度运算,显著提升了AI训练和推理的性能。

Ampere GPU使用了更快的内存技术(如GDDR6X)和更大的内存容量,并支持更高数据传输速度的PCI Express 4.0标准,从而能够更好地处理大规模数据集和复杂的应用程序。

典型卡型号:NVIDIA A100、A800


Hopper架构

Hopper 架构发布于 2022 年,拥有超过 800 亿个晶体管,并采用新型流式处理器。Hopper支持第四代Tensor Core,能够支持混合的 FP8 和 FP16 精度,与上一代相比,Hopper 将 TF32、FP64、FP16 和 INT8 精度的每秒浮点运算(FLOPS)提高了 3 倍,在矩阵运算中提供更高的吞吐量和效率。

Hopper Tensor Core 与 Transformer 引擎和第四代NVLink(GPU之间高达900GB/s的双向带宽)相结合,可使 HPC 和 AI 工作负载的加速实现数量级提升。

典型卡型号:NVIDIA H100、H200、H800、H20


Blackwell架构

Blackwell架构发布于 2024 年,具有2080亿个晶体管,采用了双倍光刻极限尺寸的裸片,通过10 TB/s的片间互联技术连接成一块统一的 GPU。

NVIDIA 还推出了第五代 NVLink,提供前所未有的并行性和 1.8TB/s 的芯片间通信带宽,性能远超Hopper架构。Blackwell GPU具备192GB的HBM3E,支持高达7400亿个参数的模型,提供了高达8TB/s的带宽。

此外,它还引入了第二代 Transformer 引擎,支持 FP4 精度和动态精度切换,有助于自动将模型转换为适当的格式以达到最佳性能。

典型卡型号:NVIDIA B100、B200、B300

GPU 计算能力已成为推动全球技术革命的核心引擎,其作用贯穿人工智能、科学研究、工业制造等关键领域,深刻改变着人类解决复杂问题的能力边界。

在这场算力革命中,谁尽早掌握GPU的核心技术,谁就能在人工智能、元宇宙、数智化转型中占据制高点。

本文转自:万云智算

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134461
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16566
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人类首次“看到”引力波,一分钟了解中子星&引力波

    组漫画图,用最轻松、通俗的方式解读了这次大事件,保证你一分钟就能恍然大悟!
    的头像 发表于 10-19 16:13 4234次阅读

    193.一分钟学懂-什么事GPU

    gpu
    小凡
    发布于 :2022年10月04日 12:18:38

    [贴图]一分钟的时间你的身边都会出现什么变化?

    一分钟的时间你的身边都会出现什么变化?静下心来想想一分钟能干什么?一分钟能跳绳200下,慢跑200米。一分钟可以浏览5条微博,转发3个贴子,回复2个评论,百度1首知道旋律却记不起歌词的
    发表于 12-02 15:33

    labview关于一分钟内采集开关量01的计数器。

    各位大神,我想做个记录一分钟内采集到开关量0 的计数器。
    发表于 04-08 19:15

    一分钟自动正反转直流电机控制电路

    我要找个电路:12v直流电机,每一分钟自动反转
    发表于 10-07 18:07

    个按键板一分钟不操作的话led灯就会变暗

    个按键板,一分钟不操作的话,led灯就会变暗;操作的时候led灯亮度较高。 (不进掉电模式,省电模式也不进。)用51单片机怎么实现?
    发表于 08-29 15:15

    用MSP430定时一分钟,怎么计算初值?

    用MSP430定时一分钟,怎么计算那个初值
    发表于 08-08 10:45

    一分钟带你看懂公有云和私有云的区别

    私有云和公有云的显著差别在于对数据的掌控。只需一分钟,下面几张图就能让你看懂公有云和私有云的本质区别。
    发表于 01-25 16:18 6.4w次阅读

    HL配套C实验例程一分钟倒计时

    HL配套C实验例程一分钟倒计时,配合开发板学习效果更好。
    发表于 04-11 17:04 6次下载

    一分钟看懂51控制的MT8880双音频收发器的汇编程序及源代码

    一分钟看懂51控制的MT8880双音频收发器的汇编程序及源代码。
    发表于 05-29 11:15 3413次阅读
    <b class='flag-5'>一分钟</b><b class='flag-5'>看懂</b>51控制的MT8880双音频收发器的汇编程序及源代码

    一分钟学会FastZigBee

    电子发烧友网站提供《一分钟学会FastZigBee.pdf》资料免费下载
    发表于 10-17 10:38 0次下载
    <b class='flag-5'>一分钟</b>学会FastZigBee

    一分钟制作PCB的简单方法

    尽管现在网上PCB制板已经非常快捷和便宜,甚至有的厂家提供免费测试板制作,但比起“一分钟制板”来制作测试电路板,发送出去制板还是时间太长。
    的头像 发表于 02-28 09:20 4401次阅读

    超级最后一分钟DIY情人节贺卡

    电子发烧友网站提供《超级最后一分钟DIY情人节贺卡.zip》资料免费下载
    发表于 07-06 14:47 0次下载
    超级最后<b class='flag-5'>一分钟</b>DIY情人节贺卡

    一分钟看完看懂电机的接线方法

    今天给大家讲解下,看懂电机的接线方法,一分钟看完,看就懂!。 电机的接线方法无外乎以下两种 1a星形接法(实物图)
    发表于 03-31 15:40 7472次阅读
    <b class='flag-5'>一分钟</b>看完<b class='flag-5'>看懂</b>电机的接线方法

    用现代移位寄存器克服最后一分钟的特征蠕变

    电子发烧友网站提供《用现代移位寄存器克服最后一分钟的特征蠕变.pdf》资料免费下载
    发表于 09-21 11:20 0次下载
    用现代移位寄存器克服最后<b class='flag-5'>一分钟</b>的特征蠕变