0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AMD全新架构计算卡Instinct MI100,专为HPC高性能计算而生

ss 来源:快科技 作者:快科技 2020-11-17 10:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在游戏领域,基于RDNA 2架构的Radeon RX 6000系列显卡已经开始闪亮登场。在高性能计算领域,基于CDNA全新架构的新一代计算卡Instinct MI100也终于登台了!

AMD Radeon Instinct系列计算卡已经发展了多款型号,但是在此之前,AMD GPU一直都是一套架构打天下,游戏、计算不分家,自然不利于不同方向的深度优化。

今年3月份,AMD宣布了首个专门针对数据中心高性能计算而设计的CDNA架构,从此与RDNA游戏架构分道扬镳。二者虽然还有一些共通点,但在设计、优化上已经泾渭分明,在各自领域的性能、能效也更高。

而在产品命名方面,AMD计算卡也放弃了Radeon字样,不再称呼Radeon Instinct,而是简单地叫做Instinct。

AMD Instinct可以说是专为HPC高性能计算而生的,志在推动超级计算机进入百亿亿次计算时代(ExaScale)。

回顾历史,21世纪的前10个年头属于万亿次计算时代(TeraScale),完全依赖CPU运算;最近10个年头属于千万亿次计算时代(PetaScale),GPU加速运算展露锋芒。

不过近两年,传统的GPU加速计算也已经初显疲态,性能增强曲线也缓了下来,必须实现全新的突破。

CDNA架构和MI100加速卡就是这样的突破性产品,也是AMD开拓新未来的新旗舰。

AMD Instinct MI100是其迄今为止性能最高的HPC GPU,FP64双精度浮点性能首次突破10TFlops(也就是每秒1亿亿次),并在架构设计上专门加入了Matrix Core(矩阵核心),用于加速HPC、AI运算,号称在混合精度和FP16半精度的AI负载上,性能提升接近7倍。

另外,新卡的外观设计也令人眼前一亮,更有质感的拉丝外壳,深灰色调,非常沉稳大气。

它集成多达120个计算单元、7680个流处理器,搭配32GB HBM2,带宽高达1.23TB/s,同时支持PCIe 4.0,集成Infinity Fabric x16高速互联通道,峰值带宽达276GB/s(相当于PCIe 4.0 x16的大约4倍),而整卡功耗控制在300W。

计算性能方面,FMA64/FP64双精度为11.5TFlops(每秒1.15亿亿次),FMA32/FP32单精度为23.1TFlops(每秒2.31亿亿次),FP32 Matrix单精度矩阵计算为46.1TFlops(每秒4.61亿亿次),FP16 Matrix半精度矩阵计算为184.6TFlops(每秒18.46亿亿次),Bfloat16浮点为92.3TFlops(每秒9.23亿亿次)。

这些数字是什么概念呢?

就拿11.5TFlops的双精度性能来说,2000年排名世界第一的超级计算机ASCI White,这个指标也不过12.3TFlops,但却是付出了600万瓦的功耗、106吨的身材才获得的,Instinct MI100却只要300瓦、1.16千克。

换言之,如今的一块卡,就相当于20年前的一个大规模计算集群!

AMD上代计算卡Instinct MI50采用的还是Vega 20核心,60个计算单元,3840个流处理器,32GB HBM2显存带宽1TB/s,Infinity Fabric总线带宽92GB/s,功耗300W。

Instinct MI100的核心规模翻了一番,显存带宽提升了超过20%,Infinity Fabric带宽提升了整整2倍,但是功耗却完全没变(工艺应当也还是7nm),新架构的能效可见一斑。

新卡的性能更是不可同日而语,FP64双精度、FP32单精度性能均提升74%,FP32矩阵性能提升接近2.5倍,AI负载性能更是几乎7倍的飞跃。

在美国能源部旗下的橡树岭国家实验室,AMD MI100计算卡已经在支撑多项百亿亿次科研项目,涉及NAMD分子动力学模拟、CHOLLA星系形成研究、PIConGPU激光放射癌症疗法、GESTS流体动力学等等诸多前沿科技。

AMD Instinct MI100计算卡还有一个绝佳搭档,那就是AMD自家的霄龙数据中心处理器,慧与、戴尔、超威、技嘉等多家行业巨头都有提供这种双A方案。

当然了,只有硬件,是做不成高性能计算的,AMD同时一直在推进一站式软件解决方案ROCm。

从2016年初入江湖的1.x版本,2018年奠定基础的2.0版本,到2019年专注于机器学习的3.0版本,再到如今最新的4.0版本,AMD ROCm已经打造成了一整套针对机器学习、高性能计算的百亿亿次级开发方案,规划中的各项功能特性也基本都已经实现。

软件优化的力量无疑是巨大的,可以充分释放硬件潜力,比如说上代MI50,搭配ROCm 3.0的话性能相比于搭配ROCm 2.0可以提升3-4倍,而最新的MI100、ROCm 4.0联合,更是可以轻松带来5-8倍的性能提升。

AMD ROCm生态的进步速度非常快,已经有众多领域的头部厂商采纳和支持,而且它沿袭了AMD一贯的原则,那就是完全开源开放,非常方便代码迁移,比如说HACC(宇宙学)只用了一个下午,SPECFEM3D(地震学)半天就搞定,CHOLLA(天体物理学)花了几天,QUDA(量子物理学)也不过21天。

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5707

    浏览量

    140414
  • 显卡
    +关注

    关注

    17

    文章

    2523

    浏览量

    71717
  • AI
    AI
    +关注

    关注

    91

    文章

    41107

    浏览量

    302589
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    选择AMD Alveo V80加速的五大理由

    V80 是一款用途高度多样化的加速,业已应用于高性能计算、金融科技、数据分析、传感器处理、网络、存储等众多市场,能利用 AMD Versal 自适应 SoC
    的头像 发表于 04-10 14:59 307次阅读

    伟创力与AMD进一步深化战略合作

    近日,伟创力宣布与全球领先的高性能与自适应计算芯片公司 AMD(超威半导体) 进一步深化战略合作,在美国本土制造 AMD Instinct
    的头像 发表于 03-11 15:11 395次阅读

    Chiplet,如何助力HPC

    纵横小芯片架构代表了芯片设计和集成方式的根本性变革。随着传统芯片架构在功耗、散热和空间方面逼近物理极限,一种新型架构正在兴起,有望为高性能计算
    的头像 发表于 02-26 15:15 873次阅读
    Chiplet,如何助力<b class='flag-5'>HPC</b>?

    国产高性能ONFI IP解决方案全解析

    1. 什么是ONFI IP?其在AI时代的作用是什么?ONFI (Open NAND Flash Interface) 是连接闪存控制器与NAND颗粒的关键高速接口协议。在AI和高性能计算HPC
    发表于 01-13 16:15

    AMD UltraScale架构高性能FPGA与SoC的技术剖析

    AMD UltraScale架构高性能FPGA与SoC的技术剖析 在当今的电子设计领域,高性能FPGA和MPSoC/RFSoC的需求日益增长。AM
    的头像 发表于 12-15 14:35 736次阅读

    Amphenol 400POS 0.635MM PITCH COM - HPC 连接器:高性能嵌入式应用新选择

    Amphenol 400POS 0.635MM PITCH COM - HPC 连接器:高性能嵌入式应用新选择 在嵌入式计算机领域,随着应用对性能和带宽的要求不断攀升,
    的头像 发表于 12-11 10:30 691次阅读

    【产品介绍】Altair HPCWorks高性能计算管理平台(HPC平台)

    AltairHPCWorksAltair高性能计算平台最大限度地利用复杂的计算资源,并简化计算密集型任务的工作流程管理,包括人工智能、建模和仿真,以及可视化应用。强大的
    的头像 发表于 09-18 17:56 983次阅读
    【产品介绍】Altair HPCWorks<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>管理平台(<b class='flag-5'>HPC</b>平台)

    强强联手!爱丁堡大学与算能破局:RISC-V进军高性能计算,SG2044多核性能飙涨近5倍

    在RISC-V架构的普及浪潮中,嵌入式领域的成功早已众人皆知,但高性能计算HPC)始终是其难以突破的“高地”。算能SOPHONSG2044的出现打破了僵局,其64核
    的头像 发表于 08-26 16:31 2144次阅读
    强强联手!爱丁堡大学与算能破局:RISC-V进军<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>,SG2044多核<b class='flag-5'>性能</b>飙涨近5倍

    中科驭数亮相2025 CCF全国高性能计算学术大会

    在昨日开幕的中国计算机学会全国高性能计算学术大会(CCF HPC China 2025)上,中科驭数作为高通量以太网联盟成员参与联盟成果发布。同期举办的世界算力博览会上,中科驭数展出的
    的头像 发表于 08-20 09:39 1127次阅读

    知合计算:RISC-V架构创新,阿基米德系列剑指高性能计算

    在2025 RISC-V中国峰会上,知合计算处理器设计总监刘畅就高性能RISC-V处理器架构探索与实践进行了精彩分享。 在以X86和ARM为代表的处理器架构之下,RISC-V在
    的头像 发表于 07-18 14:17 2983次阅读
    知合<b class='flag-5'>计算</b>:RISC-V<b class='flag-5'>架构</b>创新,阿基米德系列剑指<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>

    重磅!AMD将恢复向中国出口MI308芯片!

    电子发烧友网获悉,AMD向中国出口的MI308芯片将恢复出货。AMD方面表示,“我们最近收到特朗普政府的通知,向中国出口MI308产品的许可证申请将被推进至审核流程。我们计划在许可证获
    的头像 发表于 07-15 20:52 3808次阅读

    AI芯片:加速人工智能计算的专用硬件引擎

    人工智能(AI)的快速发展离不开高性能计算硬件的支持,而传统CPU由于架构限制,难以高效处理AI任务中的大规模并行计算需求。因此,专为AI优
    的头像 发表于 07-09 15:59 1959次阅读

    高性能计算集群在AI领域的应用前景

    随着人工智能技术的飞速发展,高性能计算集群(HPC)在AI领域的应用前景日益受到关注。HPC提供的计算能力与AI的智能分析能力相结合,为解决
    的头像 发表于 06-23 13:07 1424次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>集群在AI领域的应用前景

    使用树莓派构建 Slurm 高性能计算集群:分步指南!

    在这篇文章中,我将分享我尝试使用树莓派构建Slurm高性能计算集群的经历。一段时间前,我开始使用这个集群作为测试平台,来创建一个更大的、支持GPU计算高性能
    的头像 发表于 06-17 16:27 1960次阅读
    使用树莓派构建 Slurm <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>集群:分步指南!

    高性能计算面临的芯片挑战

    高性能计算(简称HPC)听起来像是科学家在秘密实验室里才会用到的东西,但它实际上是当今世界上最重要的技术之一。从预测天气到研发新药,甚至训练人工智能,高性能
    的头像 发表于 05-27 11:08 1235次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>面临的芯片挑战