0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AMD甩出最强AI芯片 单个GPU跑大模型

jf_GctfwYN7 来源:芯东西 2023-06-20 10:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

专为生成式AI设计的GPU:HBM密度是英伟达H100的2.4倍,带宽是英伟达H100的1.6倍。

英伟达的头号劲敌AMD,终于放出了令人期待已久的AI大招。

2014年,苏姿丰成为AMD CEO时,这家芯片企业正濒临生存危机,裁员约1/4,股价徘徊在2美元。随后在苏姿丰的掌舵之下,AMD完成了漂亮的转身,9年来股价飙升近30倍,对英伟达和英特尔两家顶级芯片巨头形成了制衡。 随着生成式AI飓风席卷全球,英伟达GPU被各家大厂争相抢购,焦点很快转移到AMD身上——AMD能否生产出足够强大的AI芯片来打破英伟达近乎垄断的市场地位,抓住新一波AI浪潮? 今日,AMD交出阶段性答卷。

在展示下一代AI芯片MI300X加速器时,苏姿丰满面笑容地说:“我爱这颗芯片”。 MI300X是一个纯GPU版本,采用AMD CDNA 3技术,使用多达192 GB的HBM3高带宽内存来加速大型语言模型和生成式AI计算。 AMD主要客户将在第三季度开始试用MI300X,第四季度开始全面生产。另一种型号Instinct MI300A现在正在向客户发售。 苏姿丰说,人工智能是AMD“最大、最具战略意义的长期增长机会”。 现场,AMD与明星AI独角兽企业Hugging Face宣布了一项新的合作伙伴关系,为AMD的CPU、GPU和其他AI硬件优化他们的模型。

除了AI芯片外,AMD还推出专为云计算和超大规模用户设计的全新EPYC服务器处理器,代号为Bergamo,每个插槽最多包含128个内核,并针对各种容器化工作负载进行了优化。 亚马逊旗下云计算部门AWS、甲骨文云、Meta、微软Azure的高管均来到现场,分享在其数据中心使用AMD芯片及软件的感受。

01. 加速生成式AI: 192GB HBM3,单个GPU跑大模型

此前,AMD Instinct GPU已经被许多世界上最快的超级计算机采用。

MI300X加速器是AMD Instinct MI300系列的新成员,提供一个仅有GPU配置的芯片版本。

MI300X及其CDNA架构专为大型语言模型和其他先进AI模型而设计,将12个5nm chiplets封装在一起,共有1530亿晶体管

这款全新AI芯片舍弃了APU的24个Zen内核和I/O芯片,转而采用更多的CDNA 3 GPU和更大的192GB HBM3,提供5.2 TB/s的内存带宽和896GB/s的无限带宽。

MI300X的HBM密度是英伟达H100的2.4倍,带宽是英伟达H100的1.6倍,这意味着AMD可以运行比英伟达芯片更大的模型。

AMD演示了在单个MI300X GPU上运行拥有400亿个参数的Falcon-40B大型语言模型,让它写了一首关于旧金山的诗。

“模型尺寸变得越来越大,你需要多个GPU来运行最新的大型语言模型,”苏姿丰说,随着AMD芯片上内存增加,开发者将不需要那么多GPU。

另一款MI300A被苏姿丰称作“面向AI和高性能计算的全球首款APU加速器”,将多个CPU、GPU和高带宽内存封在一起,在13个chiplets上拥有1460亿颗晶体管。

MI300A采用5nm和6nm制程、CDNA 3 GPU架构,搭配24个Zen 4核心、128GB HBM3,相比MI250提供了8倍以上的性能和5倍以上的效率。 AMD还公布了一种AMD Infinity架构。该架构将8个 MI300X加速器连接在一个考虑了AI推理和训练的标准系统中,提供共1.5TB HBM3内存。

据台媒报道,AMD的Instinct MI300系列以及英伟达的H100/H800系列GPU都在采用台积电先进的后端3D封装方法CoWoS,导致台积电CoWoS产能短缺将持续存在。台积电目前有能力每月处理大约8000片CoWoS晶圆,其中英伟达和AMD合计占了大约70%到80%。

此外,英伟达近年备受开发者偏爱的一大关键护城河是CUDA软件。AMD 总裁Victor Peng也展示了AMD在开发软件生态方面所做的努力。 AMD计划在AI软件生态系统开发中采用“开放(Open)、成熟(Proven)、就绪(Ready)”的理念。

AMD的ROCm是一套完整的库和工具,用于优化AI软件栈。不同于CUDA,这是一个开放的平台。

AMD还分享了PyTorch与ROCm的合作。新的PyTorch 2.0的速度几乎是之前版本的两倍。AMD是PyTorch基金会的创始成员之一。

AMD正在不断优化ROCm。Victor Peng说:“虽然这是一段旅程,但我们在构建可与模型、库、框架和工具的开放生态系统协同工作的强大软件栈方面取得了真正的巨大进步。”

02. 云原生处理器Bergamo: 128核,256个线程,最高vCPU密度

再来看下AMD的数据中心CPU。 苏姿丰首先分享了AMD EPYC处理器的进展,特别是在全球范围内可用的云计算实例方面。

她强调说,AMD第四代EPYC Genoa处理器在云计算工作负载方面的性能是英特尔竞品的1.8倍,在企业工作负载方面的性能提高到1.9倍

绝大多数AI都在CPU上运行,AMD称,与英特尔至强8490H相比,第四代EPYC在性能上遥遥领先,性能优势高出1.9倍

苏姿丰说,云原生处理器以吞吐量为导向,需要最高的性能、可扩展性、计算密度和能效。

新发布的Bergamo,便是云原生处理器市场的入口。

该芯片有820亿颗晶体管,提供了最高的vCPU密度。

在大散热器下,有一个表面看起来非常像以前的EPYC的芯片,跟与Rome或Milan一样有中央I/O芯片和8个核心复合芯片(CCD)。

Bergamo的每个插槽有多达128个核心、256个线程,分布在8个CCD上,每个CCD的核心数量是Genoa 16个核心的两倍,采用比标准Zen 4内核提供更高密度的全新Zen 4c核心设计,并支持一致的x86 ISA。

“Zen 4c针对性能和功耗的最佳平衡点进行了优化,这为我们提供了更好的密度和能效,”苏姿丰在演讲中谈道,“结果设计面积缩小了35%,每瓦性能显著提高。”

Bergamo现在正在向AMD的云客户发货。AMD还分享了第四代EPYC 9754与英特尔至强8490H的性能、密度和能效和对比:

除了Bergamo的新核心和Chiplet架构之外,该处理器与Genoa有很多共同之处,包括支持12通道DDR5内存、最新PCIe 5.0、单插槽或双插槽配置等等。 不过,多核心不再只是AMD处理器独有的特色。

不久之前,数据中心处理器新起之秀Ampere Computing刚推出拥有多达192个单线程Ampere核心的Ampere One系列处理器。

英特尔也计划在2024年初推出内核优化的至强处理器Sierra Forest,将内置144个高效能核心。 AMD还展示了其最新的缓存堆叠X芯片,代号为Genoa-X,现已上市。

该芯片针对高性能计算工作负载,包括计算流体动力学、电子设计自动化、有限元分析、地震层析成像及其他带宽敏感型工作负载,这些工作负载受益于大量共享缓存。

Genoa-X CPU基于AMD的标准Genoa平台,采用AMD 3D V-Cache技术,通过在每个CCD上垂直堆叠SRAM模块来提高可用的L3缓存。

该芯片可提供多达96个内核和总计1.1GB的L3高速缓存,每个CCD上堆叠了一个64MB SRAM块。 据AMD披露的数据,在各种计算流体动力学和有限元分析工作负载方面,与英特尔最高规格的60核Sapphire Rapids至强相比,Genoa-X缓存提升的性能提高到2.2倍2.9倍

03. 即将推出全新DPU

最后,AMD简要介绍了其网络基础设施。 去年AMD以19亿美元收购Pensando,进入DPU赛道。AMD解释了如何使用其DPU来减少数据中心的网络开销。

AMD将其P4 DPU架构称作“世界上最智能的DPU”,并称其Pensando SmartNIC是新数据中心架构不可或缺的一部分。

AMD还在现场展示了与Aruba Networks共同开发的智能交换机。AMD计划将P4 DPU卸载集成到网络交换机本身,从而提供机架级服务。

AMD最新的DPU旨在从CPU卸载网络、安全和虚拟化任务,与当前一代P4 DPU相比将提供更高的性能和能效。 其DPU已得到微软、IBM云、甲骨文云等许多主要云提供商以及VMware虚拟机管理程序等软件套件的支持。 AMD打算在今年晚些时候推出Giglio DPU之前扩大兼容软件列表,推出“芯片软件开发工具包”,以便用户更轻松地在其DPU上部署工作负载。

04. 结语:到2027年,数据中心AI加速器 市场规模将超过1500亿美元

全球数据中心GPU和CPU的头部企业英伟达和英特尔均在强调其加速AI的实力。作为这两条赛道“万年老二”的AMD,也在竞相满足对AI计算日益增长的需求,并通过推出适应最新需求的数据中心GPU来挑战英伟达在新兴市场的主导地位。

生成式AI和大型语言模型的应用热潮正在将数据中心推向极限。截至目前,英伟达在提供处理这些工作负载所需的技术方面具有优势。根据市场调研机构New Street Research的数据,英伟达占据了可用于机器学习的GPU市场的95%。 “我们仍处于AI生命周期的非常、非常早的阶段,”苏姿丰预测,到2027年,数据中心AI加速器总潜在市场规模将增长5倍,从今年的300亿美元左右以超过50%的复合年增长率增长到2027年的1500亿美元以上。

AMD并未透露两款MI300新芯片的价格,但这可能会给英伟达带来一定价格压力,之前H100价格据传高达30000美元乃至更多。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5707

    浏览量

    140406
  • 加速器
    +关注

    关注

    2

    文章

    841

    浏览量

    40240
  • 晶体管
    +关注

    关注

    78

    文章

    10439

    浏览量

    148598
  • 英伟达
    +关注

    关注

    23

    文章

    4115

    浏览量

    99615
  • AI芯片
    +关注

    关注

    17

    文章

    2164

    浏览量

    36869

原文标题:1530亿颗晶体管!AMD甩出最强AI芯片,单个GPU跑大模型

文章出处:【微信号:IC修真院,微信公众号:IC修真院】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AMD获Meta千亿美元芯片大单,AI芯片市场格局生变

    电子发烧友网报道(文/李弯弯)近日,Meta与AMD共同宣布达成一项重磅的多年期协议。Meta将在其AI数据中心大规模部署6吉瓦的AMD GPU,并配套使用
    的头像 发表于 02-26 09:19 6013次阅读
    <b class='flag-5'>AMD</b>获Meta千亿美元<b class='flag-5'>芯片</b>大单,<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>市场格局生变

    AI模型微调企业项目实战课

    数据、懂业务的“AI 架构师”。当企业真正掌握了从开源基座到专属模型的转化能力时,就拥有了抵御外部不确定性的最强护城河。筑牢自主可控的 AI 底座,企业才能在智能化转型的狂飙突进中,将
    发表于 04-16 18:48

    如何在 VisionFive v2 上使用外部 GPU

    如果旧的 amd gpu 在 VisionFive V2 上运行,我想使用带有开源 amd 驱动程序的 amd gpu。我需要什么以及如何将
    发表于 03-13 06:38

    Robotec.aiAMD Silo AI的合作实践

    AMD Silo AI 正与领先的机器人应用仿真平台开发商 Robotec.ai 合作,优化和扩展基于 AMD GPU 和 ROCm 软件堆
    的头像 发表于 01-28 16:23 881次阅读

    AMD 推出锐龙 AI 嵌入式处理器产品组合,为汽车、工业和物理 AI 领域提供 AI 驱动的沉浸式体验

    新闻亮点 · 全新 AMD 锐龙 AI 嵌入式 P100 和 X100 系列处理器融入了高性能“Zen 5”CPU 核心、AMD RDNA 3.5 GPU
    的头像 发表于 01-07 14:30 674次阅读
    <b class='flag-5'>AMD</b> 推出锐龙 <b class='flag-5'>AI</b> 嵌入式处理器产品组合,为汽车、工业和物理 <b class='flag-5'>AI</b> 领域提供 <b class='flag-5'>AI</b> 驱动的沉浸式体验

    AI硬件全景解析:CPU、GPU、NPU、TPU的差异化之路,一文看懂!​

    CPU作为“通用基石”,支撑所有设备的基础运行;GPU凭借并行算力,成为AI训练与图形处理的“主力”;TPU在Google生态中深耕云端大模型训练;NPU则让AI从“云端”走向“身边”
    的头像 发表于 12-17 17:13 2246次阅读
    <b class='flag-5'>AI</b>硬件全景解析:CPU、<b class='flag-5'>GPU</b>、NPU、TPU的差异化之路,一文看懂!​

    AMD Vitis AI 5.1测试版发布

    AMD Vitis AI 5.1全新发布——新增了对 AMD Versal AI Edge 系列神经网络处理单元 (NPU) 的支持。Vitis A
    的头像 发表于 10-31 12:46 991次阅读

    苹果AI革命:M5芯片10核GPUAI处理速度翻倍,Apple Glass在路上

    三款核心设备。这一场苹果围绕M5芯片AI硬件的革新,也成为苹果迈进AI时代以端侧大模型和空间计算的又一成绩。     3nm+10核GPU
    的头像 发表于 10-19 01:13 1.1w次阅读
    苹果<b class='flag-5'>AI</b>革命:M5<b class='flag-5'>芯片</b>10核<b class='flag-5'>GPU</b>、<b class='flag-5'>AI</b>处理速度翻倍,Apple Glass在路上

    AI模型的配置AI模型该怎么做?

    STM32可以AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI芯片的实现 1、技术需求 AI
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    流体芯片AI计算平台 ⑥基于AI的自主决策系统 ⑦基于AI的自主学习系统 2、面临的挑战 ①需要造就一个跨学科、全面性覆盖的知识库和科学基础模型
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    、Transformer 模型边缘部署 3、智能手机AI芯片 3.1概述 智能手机中最大的一块芯片就是应用处理器(AP)。AP中集成了CPU、GPU
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的工作吗? 从书中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的还是知道的,FPGA属于
    发表于 09-12 16:07

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    计算等类别AI芯片的及时、全面而富有远见的书。” 那么时至今日,这个世界发生了什么变化呢? 在这四年间,最重大的技术变革无疑就是大模型的横空出世,人类的时间仿佛被装上了加速器,从ChatGPT到
    发表于 07-28 13:54

    八天三次收购!AMD收购AI芯片制造商Untether AI团队,刺激创新

    电子发烧友原创 章鹰 6月6日,美国芯片大厂AMD宣布收购加拿大AI推理芯片公司Untether AI。这是
    的头像 发表于 06-08 07:01 6390次阅读
    八天三次收购!<b class='flag-5'>AMD</b>收购<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>制造商Untether <b class='flag-5'>AI</b>团队,刺激创新