0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU竞争壁垒:微架构和平台生态

架构师技术联盟 来源:架构师技术联盟 2023-05-15 11:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

据Global Market Insights 数据,全球 GPU 市场预计将以 CAGR 25.9%持续增长,至 2030 年达到 4000 亿美元规模。其中 AI 领域大语言模型的持续推出以及参数量的不断增长有望驱动模型训练端、推理端 GPU 需求快速增长。

近年来,国产 GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品,在性能上不断追赶行业主流产品,在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达 CUDA,融入大生态进而实现客户端不断导入。在高端GPU 芯片进口受限的背景下,国产 GPU 厂商预计将乘政策东风,抓住国产替代契机快速成长。

a0f44268-f251-11ed-90ce-dac502259ad0.png

GPU(图形处理器)最初是为了解决 CPU 在图形处理领域性能不足的问题而诞生。CPU 作为核心控制计算单元,高速缓冲存储器(Cache)、控制单元(Control)在 CPU 硬件架构设计中所占比例较大,主要为实现低延迟和处理单位内核性能要求较高的工作而存在,而计算单元(ALU)所占比例较小,这使得 CPU 的大规模并行计算表现不佳。GPU 架构内主要为计算单元,采用极简的流水线进行设计,适合处理高度线程化、相对简单的并行计算,在图像渲染等涉及大量重复运算的领域拥有更强运算能力。 GPGPU脱胎于GPU,通用性提升

a0ff6404-f251-11ed-90ce-dac502259ad0.png

CPU+GPU 异构计算解决多元化计算需求

a10960ee-f251-11ed-90ce-dac502259ad0.png

大语言模型开启 AI 元年

a110f944-f251-11ed-90ce-dac502259ad0.png

常见的AI 加速芯片主要为GPU、FPGAASIC

a11ae1ac-f251-11ed-90ce-dac502259ad0.png

大语言模型有望拉动 GPU 需求增量

a12385d2-f251-11ed-90ce-dac502259ad0.png

a12faf6a-f251-11ed-90ce-dac502259ad0.png

GPU 的微架构是用以实现指令执行的硬件电路结构设计 以 Nvidia 第一个实现统一着色器模型的 Tesla 微架构为例,从顶层 Host Interface 接受来自 CPU 的数据,藉由 Vertex(顶点)、Pixel(片元)、Compute(计算着色器)分发给各 TPC(Texture Processing Clusters 纹理处理集群)进行处理。

a13a875a-f251-11ed-90ce-dac502259ad0.png

流处理器、特殊函数计算单元构成计算核心 在单个 TPC 中主要的运算结构为SM(Streaming Multiprocessor 流式多处理器),其内在蕴含 I Cache(指令缓存)、C Cache(常量缓存)以及核心的计算单元 SP(Streaming Processor 流处理器)和 SFU(Special Function Unit 特殊函数计算单元),外加 Texture Unit(纹理单元)。

a1467a60-f251-11ed-90ce-dac502259ad0.png

解耦计算单元,拥抱通用计算 由于图形渲染流管线相对固定,Nvidia 在 Tesla构中将部分重要环节剥离并实现可编程,解耦出 SM 计算单元用于通用计算,即可实现根据具体任务需要分配相应线程实现通用计算处理。

a14f464a-f251-11ed-90ce-dac502259ad0.png

计算核心、纹理单元增加, GPC 功能更加完整,Nvidia Fermi 架构奠定完整GPU 计算架构基础。

a1596788-f251-11ed-90ce-dac502259ad0.png

在Tesla 之后,Nvidia 第一个完整的 GPU 计算架构 Fermi通过制程微缩增加更多计算核心、纹理单元,并且通过增加 PolyMorph Engine(多形体引擎)和 Raster Engine(光栅引擎)使得原来 TPC 升级成为拥有更加完整功能的 GPC(Graphics Processing Clusters 图形处理器集群)。Fermi 架构共包含 4 个 GPC,16 个 SM,512 个CUDA Core。

英伟达GPU从最初 Fermi 架构到最新的 Ampere 架构和 Hopper 架构

a166f9f2-f251-11ed-90ce-dac502259ad0.png

每一阶段都在性能和能效比方面得到提升,引入了新技术,如 CUDA、GPUBoost、RT 核心和 Tensor 核心等,在图形渲染、科学计算和深度学习等领域发挥重要作用。最新一代 Hopper 架构在 2022 年 3 月推出,旨在加速 AI 模型训练,使用 Hopper Tensor Core 进行 FP8 和 FP16 的混合精度计算,以大幅加速Transformer 模型的 AI 计算。与上一代相比,Hopper 还将 TF32、FP64、FP16 和INT8 精度的每秒浮点运算(FLOPS)提高了 3 倍。

AMD 作为全球第二大GPU厂商,亦通过持续的架构演进保持其市场领先地位

a16fa23c-f251-11ed-90ce-dac502259ad0.png

从2010年以来,AMD 相继推出:GCN 架构、RDNA 架构、RDNA 2 架构、RDNA 3 架构、CDNA 架构和 CDNA 2 架构。最新一代面向高性能计算和人工智能 CDNA 2 架构于架构采用增强型 Matrix Core 技术,支持更广泛的数据型和应用,针对高性能计算工作负载带来全速率双精度和全新 FP64 矩阵运算。基于 CDNA2 架构的 AMD Instinct MI250X GPU FP64 双精度运算算力最高可达 95.7 TFLOPs。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5339

    浏览量

    136286
  • 微架构
    +关注

    关注

    0

    文章

    22

    浏览量

    7365

原文标题:GPU竞争壁垒:微架构和平台生态

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    换个芯片就要重写半套代码?PPEC Workbench嵌入式跨架构开发的标准答案

    行业供需失衡,标准化缺口亟待填补 从行业供给来看,目前市面上尚未有成熟的、能实现全架构兼容的智能开发平台,多数解决方案仅能实现部分架构的适配,且存在生态割裂、适配流程繁琐、AI赋能不
    发表于 05-26 13:40

    电网系统架构:集群协同与能量互济的网络设计

    电网系统通过整合多个异构电网(交流、直流、混合架构),构建“集群协同、能量互济” 的网络体系 ,打破单个电网的资源壁垒,实现跨区域、跨类型的能量互补与协同调度,成为提升区域能源利用
    的头像 发表于 04-17 14:21 285次阅读
    多<b class='flag-5'>微</b>电网系统<b class='flag-5'>架构</b>:集群协同与能量互济的网络设计

    一文搞懂瑞芯平台Trust架构:从原理到问题排查全解析

    在嵌入式系统和智能设备领域,硬件级安全防护已成为产品核心竞争力。 ARM TrustZone 技术作为行业通用的硬件安全扩展方案,被广泛应用于各类 Cortex-A 架构芯片。瑞芯平台
    的头像 发表于 04-13 16:14 4876次阅读
    一文搞懂瑞芯<b class='flag-5'>微</b><b class='flag-5'>平台</b>Trust<b class='flag-5'>架构</b>:从原理到问题排查全解析

    登临科技GPU+架构以硬核算力赋能智慧种植

    传统农业种植模式的诸多痛点,正持续制约着农业智能化升级进程,农业现代化发展亟需一场 “算力革命”。登临科技自主研发的 GPU + 架构,凭借兼具通用性与高效性的核心优势打破技术壁垒,以硬核算力赋能智慧种植,实现农业检测更精准、生
    的头像 发表于 04-13 09:55 640次阅读
    登临科技<b class='flag-5'>GPU</b>+<b class='flag-5'>架构</b>以硬核算力赋能智慧种植

    电网集中式架构vs分布式架构:设计差异与选型依据

    电网作为整合“源、储、荷、网”的新型能源系统,其架构设计直接决定系统的运行效率、可靠性、扩展性与经济性,是电网规划建设的核心环节。在电网主流
    的头像 发表于 04-02 11:40 559次阅读
    <b class='flag-5'>微</b>电网集中式<b class='flag-5'>架构</b>vs分布式<b class='flag-5'>架构</b>:设计差异与选型依据

    沐曦股份GPU产品正式接入华佗开源生态

    沐曦股份坚持“自主创新与开放兼容”双轨战略,以自研MXMACA软件栈为核心,构建硬件与应用的桥梁,并承载开源核心使命。该栈于2025年2月正式开源,致力于打造开放的GPU编程接口标准,大幅降低开发门槛,有效破解跨平台兼容难题,驱动AI算力
    的头像 发表于 03-16 14:40 1802次阅读
    沐曦股份<b class='flag-5'>GPU</b>产品正式接入华佗开源<b class='flag-5'>生态</b>

    HarmonyOS首登信公开课,分享跨平台适配与体验提升实践经验

    的兼容性挑战与解决方案。此次分享作为信与HarmonyOS共建生态的一次具体实践,展现了双方在技术开发方面的积极交流与协作。 作为生态每年一度的核心沟通
    的头像 发表于 02-02 09:22 597次阅读
    HarmonyOS首登<b class='flag-5'>微</b>信公开课,分享跨<b class='flag-5'>平台</b>适配与体验提升实践经验

    景嘉JM1100生态合作推介会深圳站成功举办

    自主 GPU 产品为纽带,搭建起开放共享、合作共赢的交流平台,推动技术创新与产业应用深度融合,助力国产软硬件生态持续壮大。
    的头像 发表于 11-17 14:20 1138次阅读

    打破智能家居生态壁垒,乐鑫一站式Matter解决方案实现无缝互联

    乐鑫科技作为CSA联盟核心成员,提供一站式Matter解决方案,助力打破智能家居生态壁垒。方案覆盖Wi-Fi、Thread等多种连接方式,支持ESP32全系列硬件平台,并配套提供ESP-Matter
    的头像 发表于 11-06 15:19 1582次阅读
    打破智能家居<b class='flag-5'>生态</b><b class='flag-5'>壁垒</b>,乐鑫一站式Matter解决方案实现无缝互联

    瑞芯这几年为啥那么火?

    还支持8K视频编解码。 异构计算架构:瑞芯很多CPU采用“CPU+GPU+NPU”异构计算架构,例如旗舰芯片RK3588集成8核CPU、高性能GP
    发表于 10-20 15:50

    如何看懂GPU架构?一分钟带你了解GPU参数指标

    GPU架构参数如CUDA核心数、显存带宽、TensorTFLOPS、互联方式等,并非“冰冷的数字”,而是直接关系设备能否满足需求、如何发挥最大价值、是否避免资源浪费等问题的核心要素。本篇文章将全面
    的头像 发表于 10-09 09:28 1724次阅读
    如何看懂<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>?一分钟带你了解<b class='flag-5'>GPU</b>参数指标

    景嘉JM1100生态合作推介会长沙站圆满结束

    近日,以 “自主创芯 生态共建” 为主题的景嘉JM1100 生态合作推介会(长沙站)圆满结束。本次推介会汇聚了产业链各级领导、知名学者以及上下游企业代表,大家围绕景嘉自主全新一代
    的头像 发表于 09-16 17:53 2103次阅读

    适应边缘AI全新时代的GPU架构

    电子发烧友网站提供《适应边缘AI全新时代的GPU架构.pdf》资料免费下载
    发表于 09-15 16:42 47次下载

    【「算力芯片 | 高性能 CPU/GPU/NPU 架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了芯片架构的基础知识,但该部分知识比较晦涩难懂,或许是由于我一
    发表于 06-18 19:31

    从封闭到开放:聚徽解码安卓工控机如何打破工业软件生态壁垒

    、模块化设计与生态协同能力,正成为破解工业软件生态壁垒的关键突破口。 一、开源架构:重构工业软件开发范式 安卓系统的开源特性彻底颠覆了传统工业软件开发模式。传统工控系统依赖厂商封闭AP
    的头像 发表于 06-09 15:42 851次阅读