0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AMD祭出杀手锏 首个百亿亿级GPU

lPCU_elecfans 来源:电子发烧友网 作者:周凯扬 2021-11-13 09:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)在不久前结束的 “加速数据中心”发布会上,AMD正式公开了下一代服务器CPU Milan-X和GPU加速卡Instinct MI200。这两大产品系列不仅面向数据中心,也将面向一系列HPC和超算应用,把通用计算和AI性能推向极致。Instinct MI200作为GPU加速卡,更是成为超级计算机百亿亿级(Exascale)的算力的基本构成单元。

在市场合作上,AMD更是开始了新一轮的攻城略地,前不久刚和腾讯联合发布了星星海服务器产品后,如今Azure等一众公有云厂商也开始部署基于Milan-X的服务器,甚至将刚改名为Meta的Facebook也被拉拢至AMD阵营,宣布将在其数据中心部署AMD的服务器产品。

Milan-X:6nm的大缓存怪兽

继上一代Milan处理器推出后不到一年,AMD就发布了该芯片的6nm改进版Milan-X。今年上半年通过融合Chiplet和Die堆叠两大技术,在Ryzen桌面处理器上做了3D Chiplet架构的演示。如今第三代Epyc处理器Milan-X,将成为首个使用该技术的服务器产品。通过在Chiplet上堆叠缓存,Milan-X的L3缓存是Milan的三倍,达到了可怕的768MB。

英特尔一样,AMD在正式发售前并没有公布Milan-X的具体性能细节,而是通过合作伙伴的测试来展示了Milan-X在EDA和公有云应用中表现。在新思的VCS功能验证中,Milan-X在1小时内完成了40.6项任务,而同样核心数的Milan仅完成了24.4项。微软在基于Milan-X的Azure服务器中进行了早期测试,无论是在航天模拟,还是在汽车碰撞测试建模中,Milan-X都做到了50%以上的性能提升。

除此之外,AMD CEO苏资丰博士还透露了下一代5nm Epyc处理器Genoa的情报。基于Zen 4架构的Genoa将具备2倍的晶体管密度和2倍的能效,性能可以达到上一代的1.25倍以上。Genoa最高支持96个Zen 4核心,同时也将加入一系列新标准的支持,比如DDR5、PCIe 5.0和CXL。AMD还将推出基于5nm的Zen 4C核心的处理器Bergamo,专门针对要求多核多线程的云原生计算,最高核心数将达到128核,晚于Genoa发布。

Genoa计划在2022年量产和发布,届时很可能就是英特尔的Sapphire Rapids和AMD的Genoa在通用计算领域争雄了。

Instinct MI200:GPU终于迎来MCM时代了?

除了Milan-X之外,发布会的最大亮点其实是全球首个MCM GPU,Instinct MI200。同样基于台积电的6nm工艺,Instinct MI200系列单芯片的晶体管数目达到580亿,最高集成了220个计算单元。作为首个采用AMD CDNA2架构的服务器GPU,Instinct MI200的目标很明确,那就是将计算能力推向ExaScale级。

在CDN2架构和第二代HPC&AI专用矩阵核心的支持下,Instinct MI200实现了远超竞品的性能表现。数据对比环节,AMD选择拿Nvidia目前最强的A100加速卡开刀。MI250X的FP64向量计算能力达到47.9TF,FP64矩阵计算能力达到95.7TF,均为A100的4.9倍。而在AI领域常用的FP16和BF16矩阵计算中,MI250X的算力也达到了383TF,是A100的1.2倍。即便两者都用上了HBM2E,MI200的内存带宽也达到了3.2TB/s,远超A100的2TB/s。不过MI250X的功耗确实要高出不少,峰值状态下的功耗可以达到560W,而A100的峰值功耗为300W。

与英特尔这种IDM厂商不同,AMD在封装上基本吃透了与台积电合作带来的技术红利,尤其是台积电的3D Fabric封装技术集合,而Instinct MI200则是这些技术的集大成之作。作为首个采用多Die设计的GPU,Instinct MI200选用了两个SoC+8个HBM2E的方案,AMD在发布会上宣称这一设计的实现要归功于2.5D的Elevated Fanout Bridge(EFB)架构。

从图解上来看,AMD的EFB与台积电的InFO-L 2.5D封装技术可以说是从一个模子里刻出来的。在专门用于HBM集成的方案,目前可以做到这种规模的异构似乎也只有台积电的InFO-L和CoWoS-L,利用LSI(本地硅互联)芯片,为SoC到SoC与SoC到HBM提供高布线密度的互联。

其实英特尔也有类似的2.5D封装方案EMIB,只不过该方案是在基板内放入一个硅桥die。而反观AMD的EFB和台积电的LSI方案则是将其至于基板的模具中,模具内分布着一系列铜柱。相较之下,EMIB虽然可以做到更低的寄生电感,却也对于基板的加工提出了很高的要求,这也是为何只有英特尔这个基板大厂才使用EMIB的原因之一。不过随着IDM 2..0模式的展开,英特尔也将公开提供自己的制程、IP和封装技术,未来也许会有其他厂商的芯片开始用上EMIB。但目前来看,虽然增加了高度控制的挑战,但为了使用标准的基板降低成本,EFB和LSI明显是最优解。

在外观尺寸上,AMD选择了OAM和PCIe两种形式。OAM为开放计算项目(OCP)定下的通用加速器模组标准,对于想要规模化部署GPU或其他加速器来说,OAM可以提供更大的带宽。作为Facebook和微软共同推行的公开标准,OAM已经在服务器领域有了不小的规模,不仅是英特尔、AMD和英伟达这些半导体厂商,浪潮、联想、百度和阿里巴巴等其他服务器与公有云厂商也开始支持这一标准。

目前OAM的MI250和MI250X已经进入可交付阶段,从今年第三季度起,AMD就已经在为美国能源部的橡树岭国家实验室持续交付MI250X GPU了,用于组成美国首个ExaScale级别的超级计算机Frontier。除了OAM模组外,AMD也将在不久提供PCIe版本的MI210,用于非密集运算的场景。

结语

随着英特尔、三星和台积电在2.5D/3D封装技术上的逐渐成熟,服务器芯片将成为受益最大的产品,未来2+8甚至3+8的MCM GPU可能更加常见。英伟达、AMD与英特尔三家在服务器/数据中心市场上的动向,也侧面体现了IDM与Fabless厂商之间在技术选择上的差异。英特尔如果不能尽快在制程和封装上超越台积电这样的晶圆代工厂,在服务器市场的优势可能会越来越小。

声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5647

    浏览量

    139021
  • 英特尔
    +关注

    关注

    61

    文章

    10275

    浏览量

    179296
  • 3D
    3D
    +关注

    关注

    9

    文章

    2990

    浏览量

    113826

原文标题:AMD祭出杀手锏,首个百亿亿级GPU

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    强势进入企业SATA SSD赛道!江波龙有哪些杀手锏,加入中移动产业链

    10月10日到12日,中国移动全球合作伙伴大会上,国产存储厂商头部企业江波龙以“存算合一,合创AI+时代”的主旨高调亮相,展示了企业SATA SSD、LPCAMM2、SOCAMM2、UFS4.1、DDR4等重磅产品。电子发烧友记者亲自现场采访,与技术大咖交流,为大家分享这些重磅产品的“含金量”。
    的头像 发表于 10-17 09:00 1.3w次阅读
    强势进入企业SATA SSD赛道!江波龙有哪些<b class='flag-5'>杀手锏</b>,加入中移动产业链

    UWB技术正迅速崛起!出货千万颗,驰芯半导体有哪些杀手锏产品?

    电子发烧友原创 章鹰 2025年,更多搭载UWB的芯片产品出现。小米5月发布的“玄戒O1“处理器支持UWB超宽带互联。6月26日,国内UWB车规芯片方案提供商长沙驰芯半导体传来喜讯,其CX500
    的头像 发表于 09-10 09:20 8766次阅读
    UWB技术正迅速崛起!出货千万颗,驰芯半导体有哪些<b class='flag-5'>杀手锏</b>产品?

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    瑞之辰传感器:从“卡脖子”到“杀手锏”的技术突围

    压力传感器的国产化替代,将这一“卡脖子”难题逐步转变为自身的技术“杀手锏”。破解“卡脖子”的技术密码当动力电池安全监测需要精度达1%FS的微型压力传感器时,当工业自动化
    的头像 发表于 07-01 17:06 1742次阅读
    瑞之辰传感器:从“卡脖子”到“<b class='flag-5'>杀手锏</b>”的技术突围

    安富利低功耗传感器解决方案助力可穿戴设备创新

    大规模商用的贴身医疗终端。再看去年华为WATCH D2海外亮相,直接祭出24小时动态血压监测的杀手锏。从心电图(ECG)、血氧到车祸检测,再到血压监测,智能手表这波操作,简直就是你的“赛博扁鹊”本鹊!
    的头像 发表于 05-07 14:23 1694次阅读

    NVIDIA NVLink 深度解析

    了现代计算工作负载日益增长的需求。与通用性 PCIe 相比,NVLink 专为满足高性能计算和人工智能领域中紧密耦合的 GPU 所需的大规模数据交换而设计。这项技术对于充分发挥百亿亿次级计算的潜力以及
    的头像 发表于 05-06 18:14 4083次阅读

    新能源电网稳压神器ACR10R-E4S/CE

    新能源发电的"卡脖子"难题日益严峻,电网频率剧烈波动,传统监测设备力不从心。ACR10R-E4S/CE智能电测设备以其快速响应、亚赫兹精度和工业以太网直连三大杀手锏,重塑调频游戏规则。
    的头像 发表于 04-10 16:47 537次阅读
    新能源电网稳压神器ACR10R-E4S/CE

    京东方精电2024年营收破百亿

    近日,在香港联交所上市的BOE(京东方)旗下全球车载业务平台京东方精电(股份代号:00710.HK)发布2024年度业绩公告,以134.49亿港元(约合125.72亿人民币)的营业收入成功突破百亿
    的头像 发表于 03-31 14:37 904次阅读

    智能制造时代,设备管理系统的五大“杀手锏”功能

    智能制造的核心路径是设备管理系统的智能化水平。实时监控与故障预测,智能维护调度,备件管理数字化,能效优化与绿色生产,移动端应用场景为智能制造带来显著价值。
    的头像 发表于 03-27 10:27 639次阅读
    智能制造时代,设备管理系统的五大“<b class='flag-5'>杀手锏</b>”功能

    专访AMD王启尚 从RDNA 4到FSR 4,AMD GPU技术创新引领行业新发展

    在近日于珠海举办的AMD新一代Radeon RX 9070系列显卡发布会后,AMD GPU技术与工程研发副总裁王启尚接受了我们的专访。在本次交谈中,他详细分享了RDNA 4架构的设计理念、FSR 4
    的头像 发表于 03-06 11:19 694次阅读
    专访<b class='flag-5'>AMD</b>王启尚 从RDNA 4到FSR 4,<b class='flag-5'>AMD</b> <b class='flag-5'>GPU</b>技术创新引领行业新发展

    国产替代新标杆:紫光THA6车规MCU的功耗控制与热管理方案

    当全球汽车行业因芯片短缺陷入“卡脖子”困境时,紫光同芯的THA6系列车规MCU横空出世,不仅填补了国产高端MCU的空白,更凭借“功耗控制”与“热管理”两大杀手锏,直接对标国际大厂英飞凌TC387
    的头像 发表于 02-19 17:11 2060次阅读
    国产替代新标杆:紫光THA6车规MCU的功耗控制与热管理方案

    AMD集成DeepSeek-V3模型至Instinct MI300X GPU

    AMD近日宣布了一项重要的技术进展,即将全新的DeepSeek-V3模型成功集成到其旗舰GPU产品——Instinct MI300X上。这一举措标志着AMD在人工智能推理领域迈出了坚
    的头像 发表于 02-05 13:58 780次阅读

    冲刺海外高端市场 传音控股也有杀手锏

    当下,智能手机市场正呈现出明显的高端化趋势,更多消费者愿意为高端设备买单,这也推动了智能手机均价的提升。作为中国科技品牌出海的代表,传音控股凭借在折叠屏手机、AI技术、多肤色影像技术等方面的优势,在全球高端手机市场上展现出强大的竞争力。智能手机高端化趋势明显,传音打造AI技术优势12月初,全球市场调研机构Counterpoint发布报告称,2024年三季度,
    的头像 发表于 12-23 16:22 1179次阅读
    冲刺海外高端市场 传音控股也有<b class='flag-5'>杀手锏</b> ​

    《CST Studio Suite 2024 GPU加速计算指南》

    的各个方面,包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 - NVIDIA GPU
    发表于 12-16 14:25