0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU竞争壁垒:微架构和平台生态

架构师技术联盟 来源:架构师技术联盟 2023-05-15 11:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

据Global Market Insights 数据,全球 GPU 市场预计将以 CAGR 25.9%持续增长,至 2030 年达到 4000 亿美元规模。其中 AI 领域大语言模型的持续推出以及参数量的不断增长有望驱动模型训练端、推理端 GPU 需求快速增长。

近年来,国产 GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品,在性能上不断追赶行业主流产品,在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达 CUDA,融入大生态进而实现客户端不断导入。在高端GPU 芯片进口受限的背景下,国产 GPU 厂商预计将乘政策东风,抓住国产替代契机快速成长。

a0f44268-f251-11ed-90ce-dac502259ad0.png

GPU(图形处理器)最初是为了解决 CPU 在图形处理领域性能不足的问题而诞生。CPU 作为核心控制计算单元,高速缓冲存储器(Cache)、控制单元(Control)在 CPU 硬件架构设计中所占比例较大,主要为实现低延迟和处理单位内核性能要求较高的工作而存在,而计算单元(ALU)所占比例较小,这使得 CPU 的大规模并行计算表现不佳。GPU 架构内主要为计算单元,采用极简的流水线进行设计,适合处理高度线程化、相对简单的并行计算,在图像渲染等涉及大量重复运算的领域拥有更强运算能力。 GPGPU脱胎于GPU,通用性提升

a0ff6404-f251-11ed-90ce-dac502259ad0.png

CPU+GPU 异构计算解决多元化计算需求

a10960ee-f251-11ed-90ce-dac502259ad0.png

大语言模型开启 AI 元年

a110f944-f251-11ed-90ce-dac502259ad0.png

常见的AI 加速芯片主要为GPU、FPGAASIC

a11ae1ac-f251-11ed-90ce-dac502259ad0.png

大语言模型有望拉动 GPU 需求增量

a12385d2-f251-11ed-90ce-dac502259ad0.png

a12faf6a-f251-11ed-90ce-dac502259ad0.png

GPU 的微架构是用以实现指令执行的硬件电路结构设计 以 Nvidia 第一个实现统一着色器模型的 Tesla 微架构为例,从顶层 Host Interface 接受来自 CPU 的数据,藉由 Vertex(顶点)、Pixel(片元)、Compute(计算着色器)分发给各 TPC(Texture Processing Clusters 纹理处理集群)进行处理。

a13a875a-f251-11ed-90ce-dac502259ad0.png

流处理器、特殊函数计算单元构成计算核心 在单个 TPC 中主要的运算结构为SM(Streaming Multiprocessor 流式多处理器),其内在蕴含 I Cache(指令缓存)、C Cache(常量缓存)以及核心的计算单元 SP(Streaming Processor 流处理器)和 SFU(Special Function Unit 特殊函数计算单元),外加 Texture Unit(纹理单元)。

a1467a60-f251-11ed-90ce-dac502259ad0.png

解耦计算单元,拥抱通用计算 由于图形渲染流管线相对固定,Nvidia 在 Tesla构中将部分重要环节剥离并实现可编程,解耦出 SM 计算单元用于通用计算,即可实现根据具体任务需要分配相应线程实现通用计算处理。

a14f464a-f251-11ed-90ce-dac502259ad0.png

计算核心、纹理单元增加, GPC 功能更加完整,Nvidia Fermi 架构奠定完整GPU 计算架构基础。

a1596788-f251-11ed-90ce-dac502259ad0.png

在Tesla 之后,Nvidia 第一个完整的 GPU 计算架构 Fermi通过制程微缩增加更多计算核心、纹理单元,并且通过增加 PolyMorph Engine(多形体引擎)和 Raster Engine(光栅引擎)使得原来 TPC 升级成为拥有更加完整功能的 GPC(Graphics Processing Clusters 图形处理器集群)。Fermi 架构共包含 4 个 GPC,16 个 SM,512 个CUDA Core。

英伟达GPU从最初 Fermi 架构到最新的 Ampere 架构和 Hopper 架构

a166f9f2-f251-11ed-90ce-dac502259ad0.png

每一阶段都在性能和能效比方面得到提升,引入了新技术,如 CUDA、GPUBoost、RT 核心和 Tensor 核心等,在图形渲染、科学计算和深度学习等领域发挥重要作用。最新一代 Hopper 架构在 2022 年 3 月推出,旨在加速 AI 模型训练,使用 Hopper Tensor Core 进行 FP8 和 FP16 的混合精度计算,以大幅加速Transformer 模型的 AI 计算。与上一代相比,Hopper 还将 TF32、FP64、FP16 和INT8 精度的每秒浮点运算(FLOPS)提高了 3 倍。

AMD 作为全球第二大GPU厂商,亦通过持续的架构演进保持其市场领先地位

a16fa23c-f251-11ed-90ce-dac502259ad0.png

从2010年以来,AMD 相继推出:GCN 架构、RDNA 架构、RDNA 2 架构、RDNA 3 架构、CDNA 架构和 CDNA 2 架构。最新一代面向高性能计算和人工智能 CDNA 2 架构于架构采用增强型 Matrix Core 技术,支持更广泛的数据型和应用,针对高性能计算工作负载带来全速率双精度和全新 FP64 矩阵运算。基于 CDNA2 架构的 AMD Instinct MI250X GPU FP64 双精度运算算力最高可达 95.7 TFLOPs。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134433
  • 微架构
    +关注

    关注

    0

    文章

    22

    浏览量

    7304

原文标题:GPU竞争壁垒:微架构和平台生态

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    打破智能家居生态壁垒,乐鑫一站式Matter解决方案实现无缝互联

    乐鑫科技作为CSA联盟核心成员,提供一站式Matter解决方案,助力打破智能家居生态壁垒。方案覆盖Wi-Fi、Thread等多种连接方式,支持ESP32全系列硬件平台,并配套提供ESP-Matter
    的头像 发表于 11-06 15:19 896次阅读
    打破智能家居<b class='flag-5'>生态</b><b class='flag-5'>壁垒</b>,乐鑫一站式Matter解决方案实现无缝互联

    瑞芯这几年为啥那么火?

    还支持8K视频编解码。 异构计算架构:瑞芯很多CPU采用“CPU+GPU+NPU”异构计算架构,例如旗舰芯片RK3588集成8核CPU、高性能GP
    发表于 10-20 15:50

    如何看懂GPU架构?一分钟带你了解GPU参数指标

    GPU架构参数如CUDA核心数、显存带宽、TensorTFLOPS、互联方式等,并非“冰冷的数字”,而是直接关系设备能否满足需求、如何发挥最大价值、是否避免资源浪费等问题的核心要素。本篇文章将全面
    的头像 发表于 10-09 09:28 565次阅读
    如何看懂<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>?一分钟带你了解<b class='flag-5'>GPU</b>参数指标

    景嘉JM1100生态合作推介会长沙站圆满结束

    近日,以 “自主创芯 生态共建” 为主题的景嘉JM1100 生态合作推介会(长沙站)圆满结束。本次推介会汇聚了产业链各级领导、知名学者以及上下游企业代表,大家围绕景嘉自主全新一代
    的头像 发表于 09-16 17:53 1413次阅读

    适应边缘AI全新时代的GPU架构

    电子发烧友网站提供《适应边缘AI全新时代的GPU架构.pdf》资料免费下载
    发表于 09-15 16:42 36次下载

    【「算力芯片 | 高性能 CPU/GPU/NPU 架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了芯片架构的基础知识,但该部分知识比较晦涩难懂,或许是由于我一
    发表于 06-18 19:31

    从封闭到开放:聚徽解码安卓工控机如何打破工业软件生态壁垒

    、模块化设计与生态协同能力,正成为破解工业软件生态壁垒的关键突破口。 一、开源架构:重构工业软件开发范式 安卓系统的开源特性彻底颠覆了传统工业软件开发模式。传统工控系统依赖厂商封闭AP
    的头像 发表于 06-09 15:42 468次阅读

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发展成为强大的并行计算引擎,广泛应用于人工智能、科学计算
    的头像 发表于 05-30 10:36 1235次阅读
    <b class='flag-5'>GPU</b><b class='flag-5'>架构</b>深度解析

    ARM Mali GPU 深度解读

    ARM Mali GPU 深度解读 ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,
    的头像 发表于 05-29 10:12 2969次阅读

    iTOP-3588S开发板四核心架构GPU内置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    性能强 iTOP-3588S开发板采用瑞芯RK3588S处理器,是全新一代AloT高端应用芯片,搭载八核64位CPU,四核Cortex-A76和四核Cortex-A55架构主频高达2.4GHZ
    发表于 05-15 10:36

    突破工业接口壁垒!ARK(方舟)DMZ42C10S让PLC\\\"万能适配\\\"成为现实!

    突破工业接口壁垒!ARK(方舟)DMZ42C10S让PLC\"万能适配\"成为现实!
    发表于 03-27 15:20

    GPU加速计算平台的优势

    传统的CPU虽然在日常计算任务中表现出色,但在面对大规模并行计算需求时,其性能往往捉襟见肘。而GPU加速计算平台凭借其独特的优势,吸引了行业内人士的广泛关注和应用。下面,AI部落小编为大家分享GPU加速计算
    的头像 发表于 02-23 16:16 755次阅读

    GPU算力租用平台有什么好处

    当今,GPU算力租用平台为科研机构、企业乃至个人开发者提供了灵活高效的算力解决方案。下面,AI部落小编带您深入探讨GPU算力租用平台所带来的诸多好处。
    的头像 发表于 02-07 10:39 713次阅读

    FPGA+GPU+CPU国产化人工智能平台

    算法架构可快速移植,接口灵活搭配,具备部署灵活、功耗和算力性价比高、支持人工智能推理应用部署等特点。FPGA+GPU+CPU多核异构平台架构示意图前面板实物图前面板
    的头像 发表于 01-07 16:42 1734次阅读
    FPGA+<b class='flag-5'>GPU</b>+CPU国产化人工智能<b class='flag-5'>平台</b>

    芯原发布新一代Vitality架构GPU IP系列

    芯原股份近日宣布,正式推出全新Vitality架构的图形处理器(GPU)IP系列。这一新一代GPU架构以其卓越的计算性能和广泛的应用领域,吸引了业界的广泛关注。 Vitality
    的头像 发表于 12-24 10:55 1279次阅读