英伟达江郎才尽，下一代芯片架构变化只是封装-电子发烧友网

2023年8月23日，英伟达宣布下一代汽车芯片Thor量产时间略有推迟，正式量产在2026财年，英伟达的财政年度与自然年相差11个月，也就是说正式量产最迟可能是2026年1月。

FY2019-FY2024H1英伟达自动驾驶及AI座舱业绩情况

图片来源：英伟达

英伟达通常两年升级一次芯片架构。在2022年英伟达透露即将在2024年推出Blackwell架构，而Thor也会采用Blackwell架构。

Blackwell是致敬美国统计学家，加利福尼亚大学伯克利分校统计学名誉教授，拉奥-布莱克韦尔定理的提出者之一David Harold Blackwell。

英伟达Blackwell架构

Blackwell架构将采用COPA-GPU设计。很多人认为COPA-GPU就是Chiplet，不过COPA-GPU不是严格意义上的Chiplet，众所周知，英伟达一直对Chiplet缺乏兴趣。在2017年英伟达曾提出非常近似Chiplet的MCM设计，但在2021年12月，英伟达发表了一篇名为《GPU Domain Specialization via Composable On-Package Architecture》的论文，应该就是Blackwell架构的论文，这篇论文则否定了Chiplet设计。

2017年6月英伟达发表论文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM设计。

MCM-GPU设计

图片来源：英伟达

MCM-GPU设计基本就是现在比较火爆的Chiplet设计，但英伟达一直未将MCM付诸实际设计中。英伟达一直坚持Monolithic单一光刻设计，这是因为die与die之间通讯带宽永远无法和monolithic内部的通讯带宽相比，换句话说Chiplet不适合高AI算力场合，在纯CPU领域是Chiplet的最佳应用领域。

MCM-GPU架构

图片来源：英伟达

英伟达2017年论文提及的MCM-GPU架构如上图。英伟达在MCM-GPU架构里主要引入了L1.5缓存，它介于L1缓存和L2缓存之间，XBAR是Crossbar，英伟达的解释是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit，有点像交换或路由。GPM就是GPU模块。

不同容量L1.5缓存下各种应用的速度对比

图片来源：英伟达

上图是英伟达2017年论文仿真不同容量L1.5缓存下各种应用的速度对比，不过彼时各种应用还是各种浮点数学运算和存储密集型算子，而非深度学习。

Transformer时代相对CNN时代，存储密集型算子所占比例大幅增加。

以上是Transformer的计算过程，在此计算过程中，矩阵乘法是典型的计算密集型算子，也叫GEMM（通用矩阵乘法）。存储密集型算子分两种，一种是矢量或张量的神经激活，多非线性运算，也叫GEMV （通用矩阵矢量乘法）。另一种是逐点元素型element-wise，典型的如矩阵反转，实际没有任何运算，只是存储行列对调。

三星对GPT大模型workload分析