0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达江郎才尽,下一代芯片架构变化只是封装

佐思汽车研究 来源:佐思汽车研究 2023-09-28 15:55 次阅读

2023年8月23日,英伟达宣布下一代汽车芯片Thor量产时间略有推迟,正式量产在2026财年,英伟达的财政年度与自然年相差11个月,也就是说正式量产最迟可能是2026年1月。

FY2019-FY2024H1英伟达自动驾驶AI座舱业绩情况

66a75e76-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

英伟达通常两年升级一次芯片架构。在2022年英伟达透露即将在2024年推出Blackwell架构,而Thor也会采用Blackwell架构。

Blackwell是致敬美国统计学家,加利福尼亚大学伯克利分校统计学名誉教授,拉奥-布莱克韦尔定理的提出者之一David Harold Blackwell。

英伟达Blackwell架构

Blackwell架构将采用COPA-GPU设计。很多人认为COPA-GPU就是Chiplet,不过COPA-GPU不是严格意义上的Chiplet,众所周知,英伟达一直对Chiplet缺乏兴趣。在2017年英伟达曾提出非常近似Chiplet的MCM设计,但在2021年12月,英伟达发表了一篇名为《GPU Domain Specialization via Composable On-Package Architecture》的论文,应该就是Blackwell架构的论文,这篇论文则否定了Chiplet设计。

2017年6月英伟达发表论文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM设计。

MCM-GPU设计

671c1d56-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

MCM-GPU设计基本就是现在比较火爆的Chiplet设计,但英伟达一直未将MCM付诸实际设计中。英伟达一直坚持Monolithic单一光刻设计,这是因为die与die之间通讯带宽永远无法和monolithic内部的通讯带宽相比,换句话说Chiplet不适合高AI算力场合,在纯CPU领域是Chiplet的最佳应用领域。

MCM-GPU架构

672f363e-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

英伟达2017年论文提及的MCM-GPU架构如上图。英伟达在MCM-GPU架构里主要引入了L1.5缓存,它介于L1缓存和L2缓存之间,XBAR是Crossbar,英伟达的解释是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit,有点像交换或路由。GPM就是GPU模块。

不同容量L1.5缓存下各种应用的速度对比

6747d770-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

上图是英伟达2017年论文仿真不同容量L1.5缓存下各种应用的速度对比,不过彼时各种应用还是各种浮点数学运算和存储密集型算子,而非深度学习

Transformer时代相对CNN时代,存储密集型算子所占比例大幅增加。

67507312-5db1-11ee-939d-92fbcf53809c.png

676828b8-5db1-11ee-939d-92fbcf53809c.png

以上是Transformer的计算过程,在此计算过程中,矩阵乘法是典型的计算密集型算子,也叫GEMM(通用矩阵乘法)。存储密集型算子分两种,一种是矢量或张量的神经激活,多非线性运算,也叫GEMV (通用矩阵矢量乘法)。另一种是逐点元素型element-wise,典型的如矩阵反转,实际没有任何运算,只是存储行列对调。

三星对GPT大模型workload分析

678f1b12-5db1-11ee-939d-92fbcf53809c.png

图片来源:三星

上图中,在运算操作数量上,GEMV所占比例高达86.53%,在大模型运算延迟分析上,82.27%的延迟都来自GEMV;GEMM占比只有2.12%;非线性运算也就是神经元激活部分占的比例也远高于GEMM。

三星对GPU利用率的分析

6799a14a-5db1-11ee-939d-92fbcf53809c.png

图片来源:三星

上图可以看出在GEMV算子时,GPU的利用率很低,一般不超过20%,换句话说80%的时间GPU都是在等待存储数据的搬运。GPU的灵活性还是比较高的,如果换做灵活性比较差的AI专用加速器,如谷歌的TPU,那么GEMV的利用率会更低,不到10%甚至5%。

三星的GPT瓶颈分析

67b0019c-5db1-11ee-939d-92fbcf53809c.png

图片来源:三星

Roof-line访存与算力模型

67cb4966-5db1-11ee-939d-92fbcf53809c.png

图片来源:互联网

上图是鼎鼎大名的roof-line访存与算力模型。

COPA-GPU架构

67d48008-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

上图是2021年12月英伟达论文提出的COPA-GPU架构,实际就是把一个特别大容量的L2缓存die分离出来。因为如果还是monolithic设计,那么整个die的面积会超过1000平方毫米,不过***决定了芯片的最大die size不超过880平方毫米,所以必须将L2分离。

67ef0162-5db1-11ee-939d-92fbcf53809c.png

注:GPU-N就是英伟达的COPA-GPU。

图片来源:英伟达

不同容量L2缓存对应的延迟

6805ca46-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

上图是不同容量L2缓存对应的延迟情况,显然L2缓存越高,延迟越低,不过在small-batch时不明显。

几种COPA-GPU的封装分析

6814f318-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

从英伟达的论文里我们看不到架构方面的丝毫改进,只有封装领域的改变。这篇论文实际应该由台积电来写,因为英伟达完全无法掌控芯片的封测工艺,CoWoS就是为英伟达这种设计而设计的,而CoWoS诞生在10年以前。

大模型不断消耗更多的算力和存储,这显然违背了自然界效率至上的原则,或许人类正在错误的道路上狂奔。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4424

    浏览量

    126722
  • 芯片架构
    +关注

    关注

    1

    文章

    27

    浏览量

    14515
  • 英伟达
    +关注

    关注

    22

    文章

    3331

    浏览量

    87798

原文标题:英伟达江郎才尽,下一代芯片架构变化只是封装

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英伟达寻求从三星采购HBM芯片

    英伟达正在寻求与三星建立合作伙伴关系,计划从后者采购高带宽存储(HBM)芯片。HBM作为人工智能(AI)芯片的核心组件,其重要性不言而喻。与此同时,三星正努力追赶业内领头羊SK海力士,后者已率先实现
    的头像 发表于 03-25 11:42 390次阅读

    新思科技携手英伟达:基于加速计算、生成式AI和Omniverse释放下一代EDA潜能

    。这一合作将在集成电路设计、验证、仿真及制造各环节实现最高15倍的效能提升; 将 Synopsys.ai 的芯片设计生成式AI技术与英伟达 AI 企业级软件平台进行整合,平台中包含英伟达微服务,并且利用
    发表于 03-20 13:43 101次阅读
    新思科技携手<b class='flag-5'>英伟</b>达:基于加速计算、生成式AI和Omniverse释放<b class='flag-5'>下一代</b>EDA潜能

    英伟达携手台积电、新思科技,力推下一代半导体芯片制造技术

    英伟达与台积电、 Synopsys 已做出决策,将在其软件环境、制造工艺以及系统上整合英伟达的 cuLitho 计算光刻平台。此举旨在大幅提升芯片制造速率,并为英伟达即将推出的 Bla
    的头像 发表于 03-19 11:41 239次阅读

    英伟达的下一代AI芯片

    根据英伟达(Nvidia)的路线图,它将推出其下一代black well架构很快。该公司总是先推出一个新的架构与数据中心产品,然后在几个月后公布削减的GeForce版本,所以这也是这次
    的头像 发表于 03-08 10:28 407次阅读
    <b class='flag-5'>英伟</b>达的<b class='flag-5'>下一代</b>AI<b class='flag-5'>芯片</b>

    下一代掌机芯片,深度学习、光线追踪还有与VR/AR联动?

    英伟达、AMD 和高通等。然而,对于下一代掌机芯片,我们还有什么可以期待的突破呢?   深度学习+光线追踪   要说卖得最好的掌机芯片,那无疑是任天堂Switch掌机所搭载的
    的头像 发表于 01-09 00:04 1080次阅读

    英伟达智能驾驶的核心芯片——Thor

    英伟达原定于 2024 年推出 Atlan,现在雷神(Thor)现已取代Atlan,带来了显著的性能提升,Thor 带来了两杯的性能,推动下一代 GPU 以及新的 Grace Neoverse V2 驱动的核心,进入下一代自动驾
    发表于 01-03 14:33 1530次阅读
    <b class='flag-5'>英伟</b>达智能驾驶的核心<b class='flag-5'>芯片</b>——Thor

    适用于下一代大功率应用的XHP™2封装

    适用于下一代大功率应用的XHP™2封装
    的头像 发表于 11-29 17:04 345次阅读
    适用于<b class='flag-5'>下一代</b>大功率应用的XHP™2<b class='flag-5'>封装</b>

    AMD选择三星代工厂制造下一代的4nm Zen 5c架构产品

    AMD一向倾向于使用台积电打造其最先进的硅设计,当然,并不包括他们目前正在研发中的下一代Zen 5c架构产品。根据一份来自台湾的新报告,AMD已经选择三星代工厂来生产为其下一代平台打造的Zen 5c
    的头像 发表于 11-22 13:44 319次阅读
    AMD选择三星代工厂制造<b class='flag-5'>下一代</b>的4nm Zen 5c<b class='flag-5'>架构</b>产品

    瑞萨公布下一代oC和MCU计划

    瑞萨还分享了即将推出的下一代R-Car产品家族两款MCU产品规划:一款为全新跨界MCU系列,旨在为下一代汽车E/E架构中的域和区域电子控制单元(ECU)打造所需的高性能,这款产品将缩小传统MCU与先进R-Car SoC间的性能差
    发表于 11-09 10:49 196次阅读
    瑞萨公布<b class='flag-5'>下一代</b>oC和MCU计划

    三星率先推出GDDR7,下一代英伟达GPU显存颗粒预定?

    ,16GB的GDDR7显存。 GDDR7显存 / 三星   抢下英伟下一代产品的订单?   新的GDDR显存对于GPU厂商,尤其是英伟达来说,往往都是其高端消费级GPU的标配。美光的GDDR6X以更高的带宽性能和更低的传输功耗
    的头像 发表于 07-22 00:01 1571次阅读
    三星率先推出GDDR7,<b class='flag-5'>下一代</b><b class='flag-5'>英伟</b>达GPU显存颗粒预定?

    高性能领导力:为下一代数据中心和汽车架构提供动力

    高性能领导力:为下一代数据中心和汽车架构提供动力 演讲ppt分享
    发表于 07-14 17:15 0次下载

    英伟达与联发科合作舱驾一体芯片

    可以理解为,联发科将在未来提供给汽车制造商和一级供应商的Dimensity Auto智舱芯片封装中加入英伟达的GPU,该GPU使用一种称为小芯片的技术。联发科制造的主
    的头像 发表于 06-01 15:17 921次阅读

    下一代天玑旗舰移动芯片将采用 Arm 最新 CPU 与 GPU IP

    MediaTek 下一代天玑旗舰移动芯片将采用 Arm 最新 CPU 与 GPU IP — Cortex-X4、Cortex-A720 以及Immortalis-G720 GPU,通过突破性的架构
    的头像 发表于 05-29 22:30 460次阅读

    联发科回应结盟英伟达合攻 Arm 架构芯片传闻

    联发科计划周下午举行 2023“旗舰科技 智领未来”记者会,由联发科 CEO 蔡力行与重量级嘉宾同出席,这位嘉宾应该是近来引起全球关注、并成为 AI 创新推动者的英伟达 CEO 黄仁勋。早些时候
    发表于 05-28 08:47

    英特尔下一代Max系列GPU芯片曝光,能否挑战英伟达?

    电子发烧友网报道(文/吴子鹏)日前,英特尔在德国汉堡举行的高性能计算展上,披露了公司未来AI算力战略部署的最新细节,其中包括业界最关心的下一代Max系列GPU芯片——Falcon Shores
    的头像 发表于 05-25 01:13 2501次阅读