0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新一代计算卡Instinct MI100终于登台

lhl545545 来源:快科技 作者:上方文Q 2020-11-17 10:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在游戏领域,基于RDNA 2架构的Radeon RX 6000系列显卡已经开始闪亮登场。在高性能计算领域,基于CDNA全新架构的新一代计算卡Instinct MI100也终于登台了!

AMD Radeon Instinct系列计算卡已经发展了多款型号,但是在此之前,AMD GPU一直都是一套架构打天下,游戏、计算不分家,自然不利于不同方向的深度优化。

今年3月份,AMD宣布了首个专门针对数据中心高性能计算而设计的CDNA架构,从此与RDNA游戏架构分道扬镳。二者虽然还有一些共通点,但在设计、优化上已经泾渭分明,在各自领域的性能、能效也更高。

而在产品命名方面,AMD计算卡也放弃了Radeon字样,不再称呼Radeon Instinct,而是简单地叫做Instinct。

AMD Instinct可以说是专为HPC高性能计算而生的,志在推动超级计算机进入百亿亿次计算时代(ExaScale)。

回顾历史,21世纪的前10个年头属于万亿次计算时代(TeraScale),完全依赖CPU运算;最近10个年头属于千万亿次计算时代(PetaScale),GPU加速运算展露锋芒。

不过近两年,传统的GPU加速计算也已经初显疲态,性能增强曲线也缓了下来,必须实现全新的突破。

CDNA架构和MI100加速卡就是这样的突破性产品,也是AMD开拓新未来的新旗舰。

AMD Instinct MI100是其迄今为止性能最高的HPC GPU,FP64双精度浮点性能首次突破10TFlops(也就是每秒1亿亿次),并在架构设计上专门加入了Matrix Core(矩阵核心),用于加速HPC、AI运算,号称在混合精度和FP16半精度的AI负载上,性能提升接近7倍。

另外,新卡的外观设计也令人眼前一亮,更有质感的拉丝外壳,深灰色调,非常沉稳大气。

它集成多达120个计算单元、7680个流处理器,搭配32GB HBM2,带宽高达1.23TB/s,同时支持PCIe 4.0,集成Infinity Fabric x16高速互联通道,峰值带宽达276GB/s(相当于PCIe 4.0 x16的大约4倍),而整卡功耗控制在300W。

计算性能方面,FMA64/FP64双精度为11.5TFlops(每秒1.15亿亿次),FMA32/FP32单精度为23.1TFlops(每秒2.31亿亿次),FP32 Matrix单精度矩阵计算为46.1TFlops(每秒4.61亿亿次),FP16 Matrix半精度矩阵计算为184.6TFlops(每秒18.46亿亿次),Bfloat16浮点为92.3TFlops(每秒9.23亿亿次)。

这些数字是什么概念呢?

就拿11.5TFlops的双精度性能来说,2000年排名世界第一的超级计算机ASCI White,这个指标也不过12.3TFlops,但却是付出了600万瓦的功耗、106吨的身材才获得的,Instinct MI100却只要300瓦、1.16千克。

换言之,如今的一块卡,就相当于20年前的一个大规模计算集群!

AMD上代计算卡Instinct MI50采用的还是Vega 20核心,60个计算单元,3840个流处理器,32GB HBM2显存带宽1TB/s,Infinity Fabric总线带宽92GB/s,功耗300W。

Instinct MI100的核心规模翻了一番,显存带宽提升了超过20%,Infinity Fabric带宽提升了整整2倍,但是功耗却完全没变(工艺应当也还是7nm),新架构的能效可见一斑。

新卡的性能更是不可同日而语,FP64双精度、FP32单精度性能均提升74%,FP32矩阵性能提升接近2.5倍,AI负载性能更是几乎7倍的飞跃。

在美国能源部旗下的橡树岭国家实验室,AMD MI100计算卡已经在支撑多项百亿亿次科研项目,涉及NAMD分子动力学模拟、CHOLLA星系形成研究、PIConGPU激光放射癌症疗法、GESTS流体动力学等等诸多前沿科技。

AMD Instinct MI100计算卡还有一个绝佳搭档,那就是AMD自家的霄龙数据中心处理器,慧与、戴尔、超威、技嘉等多家行业巨头都有提供这种双A方案。

当然了,只有硬件,是做不成高性能计算的,AMD同时一直在推进一站式软件解决方案ROCm。

从2016年初入江湖的1.x版本,2018年奠定基础的2.0版本,到2019年专注于机器学习的3.0版本,再到如今最新的4.0版本,AMD ROCm已经打造成了一整套针对机器学习、高性能计算的百亿亿次级开发方案,规划中的各项功能特性也基本都已经实现。

软件优化的力量无疑是巨大的,可以充分释放硬件潜力,比如说上代MI50,搭配ROCm 3.0的话性能相比于搭配ROCm 2.0可以提升3-4倍,而最新的MI100、ROCm 4.0联合,更是可以轻松带来5-8倍的性能提升。

AMD ROCm生态的进步速度非常快,已经有众多领域的头部厂商采纳和支持,而且它沿袭了AMD一贯的原则,那就是完全开源开放,非常方便代码迁移,比如说HACC(宇宙学)只用了一个下午,SPECFEM3D(地震学)半天就搞定,CHOLLA(天体物理学)花了几天,QUDA(量子物理学)也不过21天。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5707

    浏览量

    140412
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136069
  • 数据中心
    +关注

    关注

    18

    文章

    5767

    浏览量

    75204
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    告别高成本!新一代极简光端机,性能对标,价格直降近50%

    互联网领域,企业均迫切需要款兼顾严苛传输需求、成本控制与简易部署的光端机解决方案。 、传统光端机方案陷入两难 新一代光端机极简方案顺势而生,以架构革新打破行业困境,实现高性能平替的同时拉满成本优势
    发表于 04-23 10:09

    伟创力与AMD进步深化战略合作

    ,AMD Instinct MI355X 平台已在伟创力奥斯汀工厂正式投产,并计划于下季度实现规模化生产。未来,双方还将把合作拓展至下一代 AMD Instinct 平台,以持续满足数
    的头像 发表于 03-11 15:11 395次阅读

    福田欧曼银河全新一代混动重友高效运营

    银河全新一代混动重应运而生,依托超级混动3.0智能平台化架构打造,覆盖油电混、气电混多种组合,搭配银河9/5M/3三款智慧车身,用全方位的技术革新,为友破解运营难题,打造更具竞争力的运输利器。
    的头像 发表于 12-31 15:15 690次阅读

    福田欧曼银河全新一代混动重正式发布

    2025年12月18日,在福田汽车新产品发布会上,欧曼银河全新一代混动重正式发布。此次发布的混动产品,涵盖欧曼银河9/5M/3三款车型,其以超级混动3.0智能平台化架构、行业最强HCU智慧大脑等
    的头像 发表于 12-25 16:24 931次阅读

    福田汽车发布全新一代产品Wonder Plus

    在11月9日举行的福田汽车2026全球合作伙伴大会上,福田汽车正式面向全球市场发布了全新一代产品——Wonder Plus。面对全球不同末端配送市场的升级需求,以“超配”的产品理念,解决用户面临
    的头像 发表于 11-18 09:39 705次阅读

    中科驭数亮相2025新一代计算产业大会

    近日,由中国电子工业标准化技术协会指导、新一代计算标准工作委员会(以下简称 “新一代计算标工委”)主办,中科驭数、Intel 及经开区国家信创园联合承办的
    的头像 发表于 09-26 11:14 914次阅读

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦!

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦! 聆思全新一代六合芯片「LS26系列」,搭载WIFI / BLE & BT / NPU,与「小聆AI」强强联合
    发表于 09-25 11:47

    智算融合 标准筑基2025新一代计算产业大会顺利召开

    日,新一代计算产业大会在北京顺利召开。本次大会由中国电子工业标准化技术协会指导,新一代计算标准工作委员会主办,中科驭数、Intel、经开区国家信创园共同承办,
    的头像 发表于 09-18 10:47 665次阅读
    智算融合 标准筑基2025<b class='flag-5'>新一代</b><b class='flag-5'>计算</b>产业大会顺利召开

    腾讯发布全新一代智能驾驶地图9.0

    9月16-17日,2025腾讯全球数字生态大会在深圳举行。会议期间,腾讯正式发布全新一代智能驾驶地图9.0。
    的头像 发表于 09-18 10:23 1718次阅读

    新一代神经拟态类脑计算机“悟空”发布,神经元数量超20亿

    电子发烧友网综合报道 8月2日,浙江大学脑机智能全国重点实验室发布新一代神经拟态类脑计算机——Darwin Monkey(中文名“悟空”)。   “悟空”堪称国际首台神经元规模超20亿、基于专用神经
    的头像 发表于 08-06 07:57 7863次阅读
    <b class='flag-5'>新一代</b>神经拟态类脑<b class='flag-5'>计算</b>机“悟空”发布,神经元数量超20亿

    新一代高效电机技术—PCB电机

    纯分享帖,点击下方附件免费获取完整资料~~~ *附件:新一代高效电机技术—PCB电机.pdf 内容有帮助可以关注、点赞、评论支持下,谢谢! 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第
    发表于 07-17 14:35

    重磅!AMD将恢复向中国出口MI308芯片!

    出货。” 此前美国政府针对Instinct MI308产品出货至中国进行出口管制,该产品与英伟达H20样禁止向中国销售。   如今,MI308也将恢复供货,以满足国内AI基础设施建设
    的头像 发表于 07-15 20:52 3808次阅读

    伟创力推出新一代中间总线转换器BMR323

    Flex Power Modules宣布推出BMR323。这是新一代非隔离、非稳压中间总线转换器(IBC),专为满足AI和云计算应用中日益增长的低电压、高功率需求而设计。
    的头像 发表于 06-03 09:54 1102次阅读

    MediaTek新一代前沿技术亮相COMPUTEX 2025

    计算新一代前沿技术;MediaTek 副董事长暨执行长蔡力行博士于 5 月 20 日发表主题演讲,深入探讨 AI、6G、边缘计算、云计算在数字化转型浪潮中所扮演的角色,并展现 Me
    的头像 发表于 05-23 09:32 1038次阅读

    Nordic nRF9151 新一代低功耗蜂窝SIP模组

    Nordic nRF9151 新一代低功耗蜂窝SIP模组产品介绍
    的头像 发表于 05-22 11:19 2323次阅读
    Nordic nRF9151 <b class='flag-5'>新一代</b>低功耗蜂窝SIP模组