0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

分析 丨 AI数据中心堪比超算,NVIDIA与AMD同场竞技

芯查查 来源:芯查查 作者:芯查查 2023-07-17 10:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

超级计算机对于科学研究、能源、工程设计领域具有重要意义,在商业用途中也发挥重要作用。2022年高性能计算专业大会发布的全球超级计算机Top500排行榜显示,美国橡树岭国家实验室(ORNL)的Frontier系统位列榜首,自2022年6月以来,Frontier一直是全球超级计算机Top500名单上的强大设备。

wKgaomS0o3WAHNjJAACA-ItwBNA72.webp

图注:全球超级计算机Top10,发布时间为2022年11月(来源:中科院网信工作网)

进入2023年,超级计算机的排行将发生改变。

芯查查APP显示,在美国劳伦斯利弗莫尔国家实验室(LLNL)安装的“El Capitan”超级计算机最快于2023年底启动,从而可能刷新全球超级计算机榜单。El Capitan估计FP64峰值性能约为2.3 exaflops,比Frontier超级计算机的1.68 exaflops性能高出约37%。

同时,人工智能AI)应用掀起,超大规模云服务企和AI初创企业都开始构建大型数据中心,比如,NVIDIA和CoreWeave正在为Inflection AI开发数据中心;Microsoft Azure正在为OpenAI构建的数据中心。从下图可以看出,目前在建的这两个AI数据中心在TFLOPS算力性能上虽然不如现有的超级计算机,但是在成本上已经超出很多。

wKgZomS0o3WAcF1_AAqzKgfquTo13.webp

图注:超级计算机与AI数据中心对比(来源:nextplatform网站)

AI数据中心面向AI训练和推理进行配置,在建的AI数据中心进程如何?使用了哪些处理器

Inflection AI使用处理器:NVIDIA H100Inflection AI是一家由Deep Mind前负责人创建,并由Microsoft和Nvidia支持的新创业公司。目前估值约为40亿美元,产品为AI聊天机器人,支持计划、调度和信息收集。

在筹集了13亿美元的资金之后,Inflection AI将建立一个由多达22000个NVIDIA H100 GPU驱动的超级计算机集群,其峰值理论计算能力将与Frontier相当。理论上能够提供1.474 exaflops的FP64性能。在CUDA内核上运行通用FP64代码时,峰值吞吐量仅为其一半:0.737 FP64 exaflops(与前文图表数值略有出入,但相差不大)。虽然FP64性能对于许多科学工作负载很重要,但对于面向AI的任务,该系统可能会更快。FP16/BF16的峰值吞吐量为43.5 exaflops,FP8吞吐量的峰值吞吐量是87.1 exaflops。

图片来源:NVIDIA

Inflection AI的服务器集群成本尚不清楚,但NVIDIA H100 GPU零售价超过30000美元,预计该集群的GPU成本将达到数亿美元。加上所有机架服务器和其他硬件,将占13亿美元资金的大部分。

在市场需求远远超过供应的情况下,NVIDIA或AMD不会为其GPU计算引擎给予大幅折扣就,其服务器OEM和ODM合作伙伴同样如此。因此,与美国的百亿亿次高性能计算系统相比,这些设备非常昂贵。Inflection AI的FP16半精度性能为21.8 exaflops,足以驱动一些非常大的LLM和DLRM(大型语言模型和深度学习推荐模型)。

El Capitan使用处理器:AMD Instinct MI300A为超级计算机“El Capitan”提供算力的处理器是“Antares”AMD Instinct MI300A CPU-GPU混合体,其FP16矩阵数学性能仍然未知。

wKgZomS0o3aAJ_eFAAgqMM3KNEw45.webp

图注:基于AMD MI300的刀片设施(来源:http://tomshardware.com

Instinct MI300是一款数据中心APU,它混合了总共13个chiplet,其中许多是3D堆叠的,形成一个单芯片封装,其中包含24个Zen 4 CPU内核,融合CDNA 3图形引擎和八个总容量为128GB的HBM3内存堆栈。这个芯片拥有1460亿个晶体管,使其成为AMD投入生产的最大芯片。其中,由9个计算die构成的5nm CPU和GPU混合体,在4个6nm die上进行3D堆叠,这4个die主要处理内存和I/O流量。

预计每个MI300A在2.32 GHz时钟频率下可提供784 teraflops性能,常规MI300的时钟频率约为1.7GHz。惠普公司(HPE)或许在El Capitan系统中为每个滑轨配置8个MI300A,El Capitan的计算部分应该有大约2931个节点、46个机柜和8行设备。基于上述猜测,El Capitan应该有大约23500个MI300 GPU,具备大约18.4 exaflops的FP16矩阵数学峰值性能。相比Inflection AI,用更少的钱,发挥出更大性能。

Microsoft/OpenAI使用处理器:NVIDIA H100传闻Microsoft正在为OpenAI构建25000 GPU集群,用于训练GPT-5。

从历史上看,Microsoft Azure使用PCI-Express版本的NVIDIA加速器构建其HPC和AI集群,并使用InfiniBand网络将它们连接在一起。

为OpenAI构建的集群使用NVIDIA H100 PCI-Express板卡,假设为每个20000美元,即5亿美元。另外,使用英特尔“Sapphire Rapids”至强SP主机处理器、2TB的主内存和合理数量的本地存储,每个节点再增加150000美元,这将为容纳这25000个GPU的3125个节点再增加4.69亿美元。InfiniBand网络将增加2.42亿美元。合计12.1亿美元,这些费用要比国家实验室的超级计算机贵很多。

全球超级计算机追求新颖的架构,为最终商业化而进行研发。超大规模云服务商可以做同样的数学运算,构建自己的计算引擎,包括亚马逊网络服务、谷歌、百度和Facebook都是如此。即使有50%的折扣,诸如Inflection AI和OpenAI的设备单位价格仍然比国家实验室为超级计算机昂贵。

“神威·太湖之光”使用处理器:申威26010以2022年的全球超级计算机榜单来看,进入Top10的我国超级计算机是“神威·太湖之光”。资料显示,该计算机安装了40960个中国自主研发的申威26010众核处理器,采用64位自主神威指令系统,峰值性能为12.5亿亿次每秒,持续性能为9.3亿亿次每秒,核心工作频率1.5GHz。

申威和龙芯目前是我国自研处理器的代表,两者均采用自研处理器的指令集架构。CPU国产化目前有3种方式,一个是获得x86内核授权,一个是获得Arm指令集架构授权,另一种是自研指令集架构,这种方式的安全可控程度较高,也是自主化较为彻底的一种方式。

wKgaomS0o3aAKjaPAAC8Au-mzr868.webp

图注:国内服务器处理器厂商

小 结随着人工智能应用发酵,超级计算机与AI数据中心的界限可能变得模糊,两者的硬件和架构已经发展到可以更快地处理更多数据,因此其配置将会逐步超越,芯查查认为,整体呈现为几点趋势:面向AI应用,高性能处理器采用更多核心、异质架构将更加普遍,以支持更多的并行计算和更快的数据处理速度,处理器的内存管理和缓存设计也得到了优化,以减少对主存储器的访问延迟。专门的加速器,比如图形处理单元(GPU)和神经网络处理单元(NPU),将被引入处理器,高效地执行矩阵计算和神经网络。能效是AI数据中心和超级计算机共同难点,处理器能效成为要点,设计趋向于降低功耗和散热需求,采用更先进的制程技术、优化的电源管理以及动态频率调节等方法。AI数据中心和超级计算机建设的需求推动了处理器的发展,也推动了存储、结构和GPU的进步,这些组件都将服务于系统的数据吞吐量和效率。


审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    5519

    浏览量

    74655
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296694
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    微软最新AI技术数据中心即将启用

    微软在美国威斯康星州 Mount Pleasant 建设的最新AI技术数据中心即将投入使用,预计 2026 年初正式启用。第二座规模中心也在规划中,总投资将超过 70 亿美元。
    的头像 发表于 11-05 16:37 597次阅读

    华为星河AI数据中心网络亮相ODCC 2025

    以“拥抱AI变革 点燃网引擎”为主题的2025开放数据中心大会(以下简称“ODCC 2025”)在北京国际会议中心召开。在这场汇集了数据中心
    的头像 发表于 09-16 14:54 2388次阅读
    华为星河<b class='flag-5'>AI</b>高<b class='flag-5'>算</b>效<b class='flag-5'>数据中心</b>网络亮相ODCC 2025

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    合作案例,成为AI数据中心升级的关键推动者。 一、技术实力:AI光模块的研发与量产先锋 睿海光电作为全球AI光模块的领先品牌,专注于为数据中心
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    客户的共同选择 中心应用 :为某国家实验室提供800G OSFP SR8模块,构建E级互联网络
    发表于 08-13 16:38

    华为面向拉美地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区发布全新升级的星河AI
    的头像 发表于 08-11 10:42 2001次阅读

    PCIe协议分析仪在数据中心中有何作用?

    案例:PCIe分析仪在数据中心中的成功应用 案例1:AI训练集群性能提升 问题:某AI训练集群中,8块GPU通过PCIe交换机互联,训练任务完成时间
    发表于 07-29 15:02

    国民技术发布面向AI数据中心的3 kW数字电源参考设计方案

    报告记录,电力消耗已占AI数据中心运营成本的60%以上,AI电源是驱动瓦特向比特转化的智能神经中枢,通过极致能效与动态调度实现“每度电产出最大有效
    的头像 发表于 07-22 14:01 1011次阅读
    国民技术发布面向<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的3 kW数字电源参考设计方案

    国民技术发布面向AI数据中心的3 kW数字电源参考设计方案

    2024报告记录,电力消耗已占AI数据中心运营成本的60%以上,AI电源是驱动瓦特向比特转化的智能神经中枢,通过极致能效与动态调度实现“每度电产出最大有效
    的头像 发表于 07-16 17:13 1178次阅读
    国民技术发布面向<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的3 kW数字电源参考设计方案

    简单认识安森美AI数据中心电源解决方案

    面对AI力需求爆发式增长,数据中心电力系统正面临前所未有的挑战。安森美(onsemi)推出的AI数据中心电源解决方案,直击能效、尺寸等痛点
    的头像 发表于 07-05 13:03 3127次阅读
    简单认识安森美<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>电源解决方案

    晶科能源N型TOPCon组件满足AI数据中心的能源刚需

    人工智能的爆发式发展正将数据中心推向能源消耗的“临界点”——一座大型数据中心年用电量一座小型城市的居民用电总和,而国际能源署预测,到2030年全球
    的头像 发表于 04-23 09:33 808次阅读

    适用于数据中心AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G网
    发表于 03-25 17:35

    Cadence颠覆AI数据中心设计

    日前举办的英伟达 GTC 2025 开发者大会汇聚了众多行业精英,共同探讨人工智能的未来。而人工智能正在重塑全球数据中心的格局。据预测,未来将有 1 万亿美元用于 AI 驱动的数据中心升级。然而
    的头像 发表于 03-21 15:43 865次阅读

    数据中心发展与改造

    存在的问题 1. 电费成本高企,占40% 数据中心电力成本占运营总成本的40%-60%,部分AI力密集型场景甚至高达70%。以年耗电2
    的头像 发表于 02-28 16:50 741次阅读
    <b class='flag-5'>数据中心</b>发展与改造

    AI力需求激增,数据中心如何应对能源挑战

      “AI的爆发带来了巨大的力需求,为了满足AI大模型的训练和应用推理,智中心的建设将加速。根据工信部的规划,中国智能
    的头像 发表于 02-22 09:49 1074次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b>力需求激增,<b class='flag-5'>数据中心</b>如何应对能源挑战

    中心会取代通用中心吗?

    随着人工智能(AI)技术的飞速发展,计算需求不断攀升,数据中心行业正经历着前所未有的变革。传统的通用中心与新兴的智
    的头像 发表于 01-06 14:45 891次阅读
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>会取代通用<b class='flag-5'>算</b>力<b class='flag-5'>中心</b>吗?