0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU竞争壁垒:微架构和平台生态

架构师技术联盟 来源:架构师技术联盟 2023-05-15 11:00 次阅读

据Global Market Insights 数据,全球 GPU 市场预计将以 CAGR 25.9%持续增长,至 2030 年达到 4000 亿美元规模。其中 AI 领域大语言模型的持续推出以及参数量的不断增长有望驱动模型训练端、推理端 GPU 需求快速增长。

近年来,国产 GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品,在性能上不断追赶行业主流产品,在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达 CUDA,融入大生态进而实现客户端不断导入。在高端GPU 芯片进口受限的背景下,国产 GPU 厂商预计将乘政策东风,抓住国产替代契机快速成长。

a0f44268-f251-11ed-90ce-dac502259ad0.png

GPU(图形处理器)最初是为了解决 CPU 在图形处理领域性能不足的问题而诞生。CPU 作为核心控制计算单元,高速缓冲存储器(Cache)、控制单元(Control)在 CPU 硬件架构设计中所占比例较大,主要为实现低延迟和处理单位内核性能要求较高的工作而存在,而计算单元(ALU)所占比例较小,这使得 CPU 的大规模并行计算表现不佳。GPU 架构内主要为计算单元,采用极简的流水线进行设计,适合处理高度线程化、相对简单的并行计算,在图像渲染等涉及大量重复运算的领域拥有更强运算能力。 GPGPU脱胎于GPU,通用性提升

a0ff6404-f251-11ed-90ce-dac502259ad0.png

CPU+GPU 异构计算解决多元化计算需求

a10960ee-f251-11ed-90ce-dac502259ad0.png

大语言模型开启 AI 元年

a110f944-f251-11ed-90ce-dac502259ad0.png

常见的AI 加速芯片主要为GPU、FPGAASIC

a11ae1ac-f251-11ed-90ce-dac502259ad0.png

大语言模型有望拉动 GPU 需求增量

a12385d2-f251-11ed-90ce-dac502259ad0.png

a12faf6a-f251-11ed-90ce-dac502259ad0.png

GPU 的微架构是用以实现指令执行的硬件电路结构设计 以 Nvidia 第一个实现统一着色器模型的 Tesla 微架构为例,从顶层 Host Interface 接受来自 CPU 的数据,藉由 Vertex(顶点)、Pixel(片元)、Compute(计算着色器)分发给各 TPC(Texture Processing Clusters 纹理处理集群)进行处理。

a13a875a-f251-11ed-90ce-dac502259ad0.png

流处理器、特殊函数计算单元构成计算核心 在单个 TPC 中主要的运算结构为SM(Streaming Multiprocessor 流式多处理器),其内在蕴含 I Cache(指令缓存)、C Cache(常量缓存)以及核心的计算单元 SP(Streaming Processor 流处理器)和 SFU(Special Function Unit 特殊函数计算单元),外加 Texture Unit(纹理单元)。

a1467a60-f251-11ed-90ce-dac502259ad0.png

解耦计算单元,拥抱通用计算 由于图形渲染流管线相对固定,Nvidia 在 Tesla构中将部分重要环节剥离并实现可编程,解耦出 SM 计算单元用于通用计算,即可实现根据具体任务需要分配相应线程实现通用计算处理。

a14f464a-f251-11ed-90ce-dac502259ad0.png

计算核心、纹理单元增加, GPC 功能更加完整,Nvidia Fermi 架构奠定完整GPU 计算架构基础。

a1596788-f251-11ed-90ce-dac502259ad0.png

在Tesla 之后,Nvidia 第一个完整的 GPU 计算架构 Fermi通过制程微缩增加更多计算核心、纹理单元,并且通过增加 PolyMorph Engine(多形体引擎)和 Raster Engine(光栅引擎)使得原来 TPC 升级成为拥有更加完整功能的 GPC(Graphics Processing Clusters 图形处理器集群)。Fermi 架构共包含 4 个 GPC,16 个 SM,512 个CUDA Core。

英伟达GPU从最初 Fermi 架构到最新的 Ampere 架构和 Hopper 架构

a166f9f2-f251-11ed-90ce-dac502259ad0.png

每一阶段都在性能和能效比方面得到提升,引入了新技术,如 CUDA、GPUBoost、RT 核心和 Tensor 核心等,在图形渲染、科学计算和深度学习等领域发挥重要作用。最新一代 Hopper 架构在 2022 年 3 月推出,旨在加速 AI 模型训练,使用 Hopper Tensor Core 进行 FP8 和 FP16 的混合精度计算,以大幅加速Transformer 模型的 AI 计算。与上一代相比,Hopper 还将 TF32、FP64、FP16 和INT8 精度的每秒浮点运算(FLOPS)提高了 3 倍。

AMD 作为全球第二大GPU厂商,亦通过持续的架构演进保持其市场领先地位

a16fa23c-f251-11ed-90ce-dac502259ad0.png

从2010年以来,AMD 相继推出:GCN 架构、RDNA 架构、RDNA 2 架构、RDNA 3 架构、CDNA 架构和 CDNA 2 架构。最新一代面向高性能计算和人工智能 CDNA 2 架构于架构采用增强型 Matrix Core 技术,支持更广泛的数据型和应用,针对高性能计算工作负载带来全速率双精度和全新 FP64 矩阵运算。基于 CDNA2 架构的 AMD Instinct MI250X GPU FP64 双精度运算算力最高可达 95.7 TFLOPs。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4421

    浏览量

    126709
  • 微架构
    +关注

    关注

    0

    文章

    20

    浏览量

    6997

原文标题:GPU竞争壁垒:微架构和平台生态

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FPGA在深度学习应用中或将取代GPU

    将 AI 框架模型映射到硬件架构。 Larzul 的公司 Mipsology 希望通过 Zebra 来弥合这一差距。Zebra 是一种软件平台,开发者可以轻松地将深度学习代码移植到 FPGA 硬件上
    发表于 03-21 15:19

    GPU技术、生态及算力分析

    对比AMD从2013年开始建设GPU生态,近10年时间后用于通用计算的ROCm开放式软件平台才逐步有影响力,且还是在兼容CUDA的基础上。因此我们认为国内厂商在软件和生态层面与英伟达C
    的头像 发表于 01-14 10:06 574次阅读
    <b class='flag-5'>GPU</b>技术、<b class='flag-5'>生态</b>及算力分析

    深入解读AMD最新GPU架构

    GCN 取代了 Terascale,并强调 GPGPU 和图形应用程序的一致性能。然后,AMD 将其 GPU 架构开发分为单独的 CDNA 和 RDNA 线路,分别专门用于计算和图形。
    发表于 01-08 10:12 461次阅读
    深入解读AMD最新<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>

    揭秘GPU: 高端GPU架构设计的挑战

    在计算领域,GPU(图形处理单元)一直是性能飞跃的代表。众所周知,高端GPU的设计充满了挑战。GPU架构创新,为软件承接大模型训练和推理场景的人工智能计算提供了持续提升的硬件基础。
    的头像 发表于 12-21 08:28 429次阅读
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>设计的挑战

    NVIDIA GPU的核心架构架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此 NVIDIA
    发表于 11-21 09:40 439次阅读
    NVIDIA <b class='flag-5'>GPU</b>的核心<b class='flag-5'>架构</b>及<b class='flag-5'>架构</b>演进

    陈海波:OpenHarmony技术领先,产学研深度协同,生态蓬勃发展

    。 根深叶茂,OpenHarmony四大技术架构竞争力领先,生态蓬勃发展 OpenHarmony以“面向万物智联世界,构建分布式全场景协同的开源操作系统基座与生态系统”为技术愿景,秉
    发表于 11-06 14:35

    生态建设的管中一窥:Intel的AI时代生态布局

    :企业需要花费成倍的人力物力,到开发工具、中间件,及生态培养工作中;则伴随市场竞争加剧及成本大幅增加,市场必然面临大量参与者的离席。 早年的CPU、图形GPU市场竞争如此,现在的AI芯
    的头像 发表于 10-30 11:19 419次阅读
    <b class='flag-5'>生态</b>建设的管中一窥:Intel的AI时代<b class='flag-5'>生态</b>布局

    Versal ACAP硬件、IP和平台开发方法指南

    电子发烧友网站提供《Versal ACAP硬件、IP和平台开发方法指南.pdf》资料免费下载
    发表于 09-13 15:24 0次下载
    Versal ACAP硬件、IP<b class='flag-5'>和平台</b>开发方法指南

    Arm Mali™ GPU OpenCL开发者指南

    Arm®生产马里家庭™ GPU。Bifrost、Valhall和第五代是马里的三个™ GPU架构。 马里™ GPU并行运行包含相对较少控制代码的数据处理任务。马里™
    发表于 08-10 07:47

    基于磁贴的GPU架构优缺点

    本指南介绍了基于磁贴的GPU架构的优缺点。它还将ARM马里基于瓷砖的GPU架构设计与台式PC或控制台中常见的更传统的即时模式GPU进行了比较
    发表于 08-02 12:54

    NVIDIA RTX平台及Turing GPU架构荣获美国先进影像协会技术奖

    NVIDIA RTX平台及Turing GPU架构荣获美国先进影像协会卢米埃尔技术奖
    的头像 发表于 08-01 14:58 389次阅读

    GPU架构生态研究框架(2023)

    第三,详细拆解了NVIDIA Fermi和Hopper两大典型微架构的具体硬件实现,在顶点处理、光栅化计算、纹理贴图、像素处理的图形渲染流水线上对Fermi架构进行了拆分;在指令接收、调度、分配
    的头像 发表于 07-09 10:55 1281次阅读
    <b class='flag-5'>GPU</b>微<b class='flag-5'>架构</b>及<b class='flag-5'>生态</b>研究框架(2023)

    你不了解的国产GPU,都处于什么水平?

    GPU(GPGPU)为根基,逐步涉足大模型应用,下面列举几家具有实力的国内GPU厂商。 登临科技 登临科技专注于高性能通用计算平台的芯片研发与技术创新,致力于打造云边端一体、软硬件协同、训练推理融合的前沿芯片产品
    的头像 发表于 06-26 14:03 2256次阅读
    你不了解的国产<b class='flag-5'>GPU</b>,都处于什么水平?

    GPU平台生态:英伟达CUDA和AMD ROCm对比分析

    成熟且完善的平台生态GPU 厂商的护城河。相较于持续迭代的微架构带来的技术壁垒硬实力,成熟的软件生态
    的头像 发表于 06-06 14:36 1218次阅读
    <b class='flag-5'>GPU</b><b class='flag-5'>平台</b><b class='flag-5'>生态</b>:英伟达CUDA和AMD ROCm对比分析

    GPU平台生态,英伟达CUDA和AMD ROCm对比分析

    CUDA 除了是并行计算架构外,还是 CPU 和 GPU 协调工作的通用语言。在CUDA 编程模型中,主要有 Host(主机)和 Device(设备)两个概念,Host 包含 CPU 和主机内存,Device 包含 GPU 和显
    的头像 发表于 05-18 09:57 1693次阅读
    <b class='flag-5'>GPU</b><b class='flag-5'>平台</b><b class='flag-5'>生态</b>,英伟达CUDA和AMD ROCm对比分析