0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

千亿美元打造一个系统,成本越来越高的AI超算

E4Life 来源:电子发烧友 作者:周凯扬 2024-04-09 00:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)从近年来新发布的超算机器和新的HPC AI性能榜单可以看出,AI算力已经在超算中成了不可忽视的性能指标之一,但也为厂商带来了更大的成本挑战。比如微软近期就爆出和OpenAI合作,打造一个千亿美元级别的超算系统。

千亿美元打造AI超算

根据外媒报道,此次打造的千亿美元超算系统名为Stargate,星门。这一超算系统仅仅只是微软和OpenAI一系列数据中心合作项目之一,但造价已经高到离谱了。从规模上看,这个超算的硬件配置已经到了远超现有系统的程度。据爆料,星门将集成百亿个最新的英伟达GPU,造价可能会达到1150亿美元。不过在互联方案上,微软可能会跳过英伟达的InfiniBand专用方案,而采用更加通用以太网方案。

当然了,虽然总成本较高,但微软并没有一次建成的部署策略,而是分拆成五个阶段,整个项目在2028年成功建成。这样可以尽早让该系统投入使用,毕竟对于新的模型而言,率先发布才不会错失市场机会。这或许也与微软采用通用的以太网方案有关,毕竟面对跨度如此长的方案而言,专用方案很可能会面临被兼容性差和被淘汰的局面。微软预计会在第四阶段,也就是2026年左右,正式启用这一超算系统。

除此之外,超算的部署地点依然待定,这无疑与部署地的电网供电能力息息相关,当地政府如果能提供支持自然最好。不过从硬件规模来看,单系统的耗电已经达到千兆瓦级,无论是对美国哪个州而言,都是巨大的供电挑战。也正因如此,微软正在考虑核能在内的其他替代能源方案。

超算部署成本发生的变化

时至今日,微软已经在OpenAI上花了130亿美元,使用其数据中心来为ChatGPT之类的应用提供硬件支持。但此次的星门项目更是规模浩大,这也说明了新模型的训练和推理,仍在对数据中心的硬件提出新的要求,需要用性能更强的AI超算来解决。

但这并不意味着普遍的超算成本真的有这么夸张的变化,要知道目前TOP500上排名第一的超算Frontier,其成本也只有6亿美元。对于科研专用的单个超算系统而言,虽然造价不算低,但在政府的科研经费支持下,研究机构还是可以负担起的。

不过值得注意的是,TOP500上的超算都有公开的跑分成绩,为了实现这样的成绩,需要一定时间的优化,再运行一段时间的测试才会有此成绩。而市面上,尤其是在不少大型互联网公司内部,也存在并没有公开提交成绩的超算,因为这类系统几乎是从诞生起就被投入商业使用了。

所以市面上肯定有超过6亿美元的超算系统,比如Meta就在几个月前打造了两套系统,分别集成了2万个H100 GPU,总成本在10亿美元以上。其他的互联网公司,诸如国内的百度、腾讯等,想必也有庞大的硬件购买计划。

写在最后

随着HPC与AI在需求和计算负载上的融合,市场趋势从前几年的“带AI功能的HPC系统”变成了“同样可以用于HPC的AI系统”。但从其规模来看,对于HPC市场也未尝不是一件好事,毕竟目前AI超算的商业价值更高,能够吸引到更多的投资和补贴,也有望进一步推动HPC硬件的革新速度。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41141

    浏览量

    302608
  • HPC
    HPC
    +关注

    关注

    0

    文章

    350

    浏览量

    25073
  • 超算
    +关注

    关注

    1

    文章

    118

    浏览量

    9546
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AMD获Meta千亿美元芯片大单,AI芯片市场格局生变

    GPU的AMD Helios整机柜服务器,预计于今年晚些时候开启交付。 AMD首席执行官苏姿丰称,交易价值每吉瓦达百亿美元级别,协议总金额或600亿美元,甚至可能达到上千亿
    的头像 发表于 02-26 09:19 6020次阅读
    AMD获Meta<b class='flag-5'>千亿</b><b class='flag-5'>美元</b>芯片大单,<b class='flag-5'>AI</b>芯片市场格局生变

    Vicor助力为在轨AI驱动通信供电

    AI 赋能卫星需要具有越来越高的精密运算能力,这需求不断逼近最新深亚微米 FPGA 和 ASIC 及其供电网络的极限。这些高性能处理器对低电压、大电流供电提出了严苛要求,以实现在轨
    的头像 发表于 04-21 16:22 813次阅读
    Vicor助力为在轨<b class='flag-5'>AI</b>驱动通信供电

    onsemi FDME1034CZT MOSFET:为便携应用量身打造的高性能解决方案

    onsemi FDME1034CZT MOSFET:为便携应用量身打造的高性能解决方案 在如今的电子设备中,尤其是手机等便携设备,对电源管理和功率转换的要求越来越高。MOSFET作
    的头像 发表于 04-16 15:05 122次阅读

    为什么AI数据中心越来越依赖电流监测?

    随着人工智能技术的快速发展,力需求正在以前所未有的速度增长。从大型语言模型到多模态AI,再到智能体系统越来越多的应用开始依赖高性能计算平台。 最近
    的头像 发表于 03-11 14:07 191次阅读

    边缘AI力临界点:深度解析176TOPS香橙派AI Station的产业价值

    逻辑控制器)内网,另一个网口连接上层管理系统或云端,实现物理级别的网络冗余和安全隔离。 3、40Pin扩展接口 :这是开发板的灵魂。AI Station完整引出了I2C, SPI, PWM, UART
    发表于 03-10 14:19

    内存是AI能效提升的下一个前沿领域

    我们正在进入新的计算时代。AI 工作负载的占比越来越高,已成为影响企业基础设施战略、硅芯片路线图和业务指令的决定性力量。如今的 AI,规模大到令人咋舌:超大规模企业正在部署单个集群中包含数万块
    的头像 发表于 02-09 09:47 668次阅读

    为什么原厂越来越需要套自己的 Studio

    过去几年,在和 MCU 原厂的合作过程中,趋势越来越明显: 原厂正在从“只提供芯片”,走向“提供完整使用路径”。 而 Studio 工具,正好处在这个变化的中心。 、芯片性能已经
    发表于 02-05 09:37

    高速互联技术正在成为AI力发展的关键基础设施

    当大模型参数规模从百亿迈向千亿、万亿级,AI 的竞争早已不再只是芯片性能的比拼,而是系统级工程能力的竞争。越来越多行业共识正在形成:
    的头像 发表于 02-04 14:50 675次阅读
    高速互联技术正在成为<b class='flag-5'>AI</b><b class='flag-5'>算</b>力发展的关键基础设施

    特种电子系统也有高温挑战,电源模块要求越来越高

    、为何军工领域迫切需要高温DC/DC电源模块? 军工电子设备经常需要在极端恶劣的环境下工作,其中高温是最常见的严酷条件之。高温DC/DC电源模块的应用场景主要包括: 1.航空航天与飞行器
    的头像 发表于 11-20 15:35 583次阅读
    特种电子<b class='flag-5'>系统</b>也有高温挑战,电源模块要求<b class='flag-5'>越来越高</b>

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升力还是智力

    新信息的情况下持续学习和改进的AI计算方式。 终身短发怎么保持已有知识和技能的有效性呢 ①知识蒸馏:将已有知识从模型转移到另一个模型 ②知识更新:根据新知识更新已有知识 ③知识重组
    发表于 09-14 14:04

    睿海光电领航AI光模块:快交付与全场景兼容赋能智时代——以创新实力助力全球客户构建高效力底座

    AI力革命催生光模块新需求,睿海光电以技术优势抢占制高点 人工智能、超大规模数据中心和云计算的高速发展,对光模块的传输效率、兼容性及交付周期提出更高要求。作为全球AI光模块领域的
    发表于 08-13 19:03

    文看懂AI力集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI力集群。AI的三要素,是
    的头像 发表于 07-23 12:18 1945次阅读
    <b class='flag-5'>一</b>文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b>力集群

    后摩尔时代:芯片不是越来越凉,而是越来越

    1500W,而在消费领域,旗舰显卡RTX5090也首次引入了液态金属这更高效但成本更高的热界面材料(TIM)。为什么芯片越来越热?它的热从哪里来?芯片内部每一个晶体管
    的头像 发表于 07-12 11:19 2417次阅读
    后摩尔时代:芯片不是<b class='flag-5'>越来越</b>凉,而是<b class='flag-5'>越来越</b>烫

    Intel至强6:AI江湖的幕后大佬、NVIDIA B300的唯伙伴

    随着生成式AI、预测式AI的浪潮波高过波,工作负载的类型越来越丰富、复杂度越来越高,对于
    的头像 发表于 06-19 16:37 852次阅读
    Intel至强6:<b class='flag-5'>AI</b>江湖的幕后大佬、NVIDIA B300的唯<b class='flag-5'>一</b>伙伴

    加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,力才是硬通货。你有没有发现,现在越来越多的
    的头像 发表于 06-05 13:39 1896次阅读
    智<b class='flag-5'>算</b>加速卡是什么东西?它真能在<b class='flag-5'>AI</b>战场上干掉GPU和TPU!