0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI化革命:大厂如何重新定义数据中心的未来

SDNLAB 来源:SDNLAB 2023-10-10 16:29 次阅读

数据中心在现代社会扮演着至关重要的角色,它们是数字化时代的神经中枢,支持着云计算、大数据、人工智能等技术的快速发展。在传统的数据中心中,冷空气通过充斥着计算、网络和存储系统的机架被加热后,通过冷却设施捕获并排出。

但这仅适用于传统的数据中心,随着计算需求的不断增加,传统数据中心面临着巨大的挑战,包括能源效率、资源优化以及冷却问题。铺天盖地的 AI 大模型时代,当着手部署用于训练AI 模型的系统的那一刻,GPU节点可以轻松消耗整个机架的功率,这迫使数据中心运营商做出一些重大的设计改变。本文将探讨人工智能如何改变数据中心建设和冷却,以及其对数据中心行业的影响。

数据中心建设的革新

人工智能应用通常需要大规模的高性能计算资源,包括GPU和TPU等加速器。因此,数据中心需要具备足够的计算能力来支持这些应用的训练和推理。这意味着数据中心需要更多的服务器和更强大的网络基础设施,以确保高性能计算任务能够顺畅执行。

特斯拉似乎已经意识到了这一点。这家美国电动汽车制造商正在寻找人员来帮助其建立“同类首个数据中心”。

近期,该公司表示正在寻找一名数据中心高级工程项目经理,他将“领导特斯拉首个此类数据中心的端到端设计和工程,并将成为特斯拉数据中心的关键成员之一”。

目前尚不清楚所谓的“同类首个数据中心”是什么意思,推测它可能与去年在 Hot Chips 上展示的定制 Dojo AI 加速器有关。

特斯拉计划从现在到 2024 年底向该项目投入超过 10 亿美元,以加速其自动驾驶软件的开发。整个系统的运算能力可能超过 100 exaFLOPS,预计相当于 BF16 的性能。这意味着特斯拉必须找到能够容纳该设备的地方。

然而,构建和管理一个能够提供足够电力和冷却以保持 AI 加速器正常运转的设施可能是一场噩梦。

Dojo 是一台可组合的超级计算机,完全由特斯拉内部开发。从计算、网络、IO,到指令集架构、电力传输、封装和冷却,一切都是定制的,目的是加速特斯拉的机器学习算法

该系统的基本构建模块是特斯拉的 D1 小芯片,其中 25 个使用台积电的晶圆系统技术封装到Dojo 训练模块中。总而言之,这个半立方英尺的系统具有 11GB SRAM、9TB/s 的结构连接,并且可以管理 9 petaFLOPS 的 BF16 性能。

将所有性能塞进如此紧凑的外形尺寸已经带来一些挑战了,例如如何为单个 15kW 加速器提供动力和冷却,更不用说构成 1 exaFLOPS Dojo V1 系统的 6个加速器了。这还只是加速器,你还需要为所有用于通过加速器提供和协调数据流的支持系统提供动力和冷却。

然后是高速网格的问题,这可能会限制这些模块的部署方式。在这些速度下,将它们包装得越紧密越好,但热负荷也越大。因此,如果特斯拉完全放弃使用传统机架的想法而转而采用全新的东西,也就不足为奇了。

无论该系统最终采用何种形式,有一点是肯定的:无论特斯拉决定在哪里部署该系统,都将需要超级计算水平的冷却能力。

数据中心冷却的重要性

数据中心冷却是现代 IT 基础设施中的一个关键问题,推动了创新系统和解决方案的发展,涉及空调、水冷技术和其他基于液体的机制,以确保最佳性能和能源效率。由于冷却系统约占数据中心总能耗的 40%,因此成本也是一个关键考虑因素。数据中心冷却在维持系统性能方面发挥着至关重要的作用。

什么是数据中心冷却?

数据中心冷却是指用于调节数据中心设施内的温度、湿度和气流的设备、系统、方法和技术。由于数据中心通常容纳数千台服务器、IT 设备和其他产生大量热量的电子设备,因此适当的冷却对于保持最佳性能和防止过热至关重要。

数据中心冷却的目的是什么?

数据中心的冷却系统用于将服务器、存储设备、网络硬件和各种其他设备运行时产生的热量散出去。这种热量以温度的形式测量,是在电能转化为热能时产生的,这一过程是由于电子元件效率低下而发生的。

除了管理热量外,数据中心冷却系统还可以维持设施内适当的湿度水平。这样可以防止静电和冷凝的积聚,这两个因素都会对电子设备造成重大损坏。

数据中心冷却的主要目的是维持适合IT设备运行的环境条件。行业组织ASHRAE建议数据中心的温度保持在 18°C 至 27°C范围内。ASHRAE 还建议数据中心的湿度水平应在 40% 至 60% 的范围内,具体取决于具体的设备和配置。

为什么数据中心冷却很重要?

数据中心冷却之所以重要,原因有很多,包括性能、防止停机、设备寿命和能源效率等:

# 性能

数据中心的过热会产生“热点”,导致处理器和内存等服务器组件出现故障。过热时,计算机系统可能会变慢、冻结,甚至遭受永久性的硬件损坏。适当的冷却可以使系统能够保持最佳性能和服务器的板载逻辑。

# 防止停机

过热可能会导致系统故障并导致停机。在数据中心,停机不仅会造成破坏,而且代价高昂。实施适当的冷却技术有助于防止此类问题。

# 设备寿命

长时间暴露在高温下会缩短硬件的使用寿命。相反,保持凉爽的环境可以延长设备的使用寿命。还需要注意的是,湿度过高会对设备造成损害。当潮湿的灰尘颗粒粘附在电气元件上时,会减少热传递,甚至会导致腐蚀。

# 能源效率

高效的冷却系统消耗更少的能源和水,使其更加环保且更具成本效益。传统的“机械”数据中心冷却方法(例如空调)可能非常耗能并消耗大量的水。因此,采用使用较少能源或水的现代冷却解决方案对于降低运营电力成本特别有利。

人工智能已经在改变数据中心的面貌

人工智能基础设施提出的冷却和电力要求已经促使一些大型超大规模企业和数据中心运营商重新评估他们如何构建数据中心。

Facebook 母公司 Meta 也是推动这些变革的公司之一。该公司在人工智能研发方面投入巨资,去年使用了由 16,000 个 英伟达A100 GPU 组成的人工智能超级计算机。

在去年的 OCP 峰会上,Meta展示了其 Grand Teton AI 训练平台以及 Open Rack v3 (ORV3) 规范,该规范旨在适应系统的更高功率和热负载。例如,根据 Meta 的规范,单个母线可以支持 30kW 的机架。

Meta的基础设施副总裁Alexis Bjorlin在博客中写道:“ORV3生态系统可以适应几种不同形式的液冷策略,包括空气辅助液体冷却和设施水冷却。”“我们看到,功率趋势正在增加,对液冷技术的需求正在迫使我们对平台、机架、电源和数据中心设计的所有元素进行不同的思考。”

在博客发表后不久,Meta取消了两个荷兰数据中心,并宣布将重新设计位于阿拉巴马州亨茨维尔的第三个数据中心,该公司将其称为“人工智能战略投资”。

数据中心冷却的演进

传统的数据中心冷却方法通常依赖于大型制冷设备,这些设备耗能巨大,导致高昂的运营成本。其次,这些设备需要占用大量物理空间,从而限制了数据中心内部服务器和存储设备的部署密度,增加了建设和运营成本。此外,高密度计算设备的普及导致了过热问题,传统冷却系统则难以有效地处理这一挑战。同时,它们还会对环境造成负面影响,如碳排放和水资源消耗,不符合可持续性原则。

6f922dbc-6744-11ee-939d-92fbcf53809c.png

空气辅助液体冷却成为焦点

Meta等大公司正在投资的关键技术之一是空气辅助液体冷却。

与多年来在 HPE Cray、Atos 和联想超级计算机中看到的全液冷基础设施不同。该技术大量使用后门热交换器 (RDHx),以减少支持热运行芯片所需的全设施基础设施投资。

RDHx 真的很简单,相当于一个机架大小的散热器和一些大风扇。该技术因其灵活性而受到很多青睐,这使得它可以部署在支持机架级液体冷却所需管道的设施中。

在 Meta 的案例中,该公司将 RDHx 视为一种更有效地消除系统热量的方法。据了解,该实施涉及直接液冷 (DLC) 服务器,该服务器通过管道连接到机架内储液器和泵,推动加热的冷却剂通过 RDHx,系统中的热量在 RDHx 中排出到热通道。

在这种配置中,RDHx 的功能很像游戏 PC 中的定制水冷回路,但它不是冷却一个系统,而是冷却整个机架。

RDHx 也可用于空气冷却。在这种配置下,冷设施水通过 RDHx 泵送。当热空气从空气冷却系统的后部排出时,热量被散热器吸收。Meta 去年 10 月发表了一篇关于该技术可行性的完整论文。

这种方法的最大好处之一,特别是对于托管服务器而言,是它不要求客户在准备好之前就接受 DLC,并且对于他们支持液体冷却行业中不会相互冲突。

随着技术的不断发展,我们可以期待新型冷却技术的涌现,如量子冷却等。这些技术将进一步降低能源消耗,提高可持续性。

在人工智能的时代下,数据中心建设和冷却技术的演进正共同塑造着数字化世界的未来。人工智能时代不仅催生了数据中心建设方面的创新和改变,也对数据中心冷却技术提出了挑战,这两者相辅相成,不断演进,以满足巨大的计算需求和可持续性标准。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超级计算机
    +关注

    关注

    2

    文章

    434

    浏览量

    41609
  • 数据中心
    +关注

    关注

    15

    文章

    4187

    浏览量

    70009
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230600

原文标题:AI化革命:大厂如何重新定义数据中心的未来

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    港灯打造了面向未来的下一代电力数据中心网络

    通过华为数据中心网络CloudFabric解决方案实现了秒级切换,保障了“业务零中断”和“零单点故障”,港灯打造了面向未来的下一代电力数据中心网络, 为港灯未来全面演进软件
    的头像 发表于 04-16 09:29 158次阅读

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    模块化机房:数据中心未来

    随着数字化转型加速,数据中心已成为企业运营的核心。传统的数据中心面临空间利用不足、能源效率低下、扩展性差和维护成本高等问题。模块化机房应运而生,它不仅克服了传统设计的局限,还为数据中心的建设和运营带来了
    的头像 发表于 03-12 17:26 305次阅读

    麦科信重新定义高压差分探头,强势来袭!

    麦科信高压差分探头MDP系列是一款基于光隔离探头技术重新定义的高压差分探头。它采用先进的设计理念和工艺技术,具备超低底噪、优秀的幅频特性和业内更高的共模抑制比,可轻松应对各种高频高压信号测试。
    的头像 发表于 01-18 15:06 179次阅读
    麦科信<b class='flag-5'>重新定义</b>高压差分探头,强势来袭!

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    墨芯人工智能CEO王维:需要重新定义和设计AI计算机

    AI时代,我们需要重新定义和设计AI计算机。仅依靠硅基的摩尔定律,2年翻一倍的线性增长的算力供给远不能满足指数级增长的需求问题。
    的头像 发表于 01-12 11:12 646次阅读

    数据处理器:DPU编程入门》读书笔记

    。以DPU为技术代表的新算力架构,正在重新定义数据中心和云原生技术的基础架构。 DPU的出现,是随着数据中心的高速发展,通信能力和计算能力成为数据中心基础设施的相辅相成的两个重要发展方
    发表于 12-21 10:47

    Microchip CEO博文《AI将如何重新定义数据中心?》

    AI已经存在了一段时间,其影响也相当巨大。生成式AI刚开始崭露头角,对于其如何颠覆世界的种种预言已经迅速成为热门话题,影响之深广,令人深思。  这项技术已经对数据中心产生了重大影响。基于必须在云端
    的头像 发表于 12-11 14:50 955次阅读
    Microchip CEO博文《<b class='flag-5'>AI</b>将如何<b class='flag-5'>重新定义</b><b class='flag-5'>数据中心</b>?》

    ADC中的集成式容性PGA:重新定义性能

    电子发烧友网站提供《ADC中的集成式容性PGA:重新定义性能.pdf》资料免费下载
    发表于 11-22 10:40 0次下载
    ADC中的集成式容性PGA:<b class='flag-5'>重新定义</b>性能

    适用于数据中心AI 时代的网络

    数据中心未来和推动 AI 时代方面发挥的关键作用。 专用数据中心AI 工厂和 AI 云 目前
    的头像 发表于 10-27 20:05 250次阅读
    适用于<b class='flag-5'>数据中心</b>和 <b class='flag-5'>AI</b> 时代的网络

    重新定义连接-物联网卡流量池解决方案

    重新定义连接-物联网卡流量池解决方案
    的头像 发表于 09-22 10:11 305次阅读

    华为发布《数据中心2030》报告,引领新型数据中心创新与发展

    [中国,上海,2023年9月20日] 在华为全联接大会2023期间,华为发布《数据中心2030》报告,与产业界共同展望数据中心未来发展前景,定义未来
    的头像 发表于 09-20 23:30 470次阅读
    华为发布《<b class='flag-5'>数据中心</b>2030》报告,引领新型<b class='flag-5'>数据中心</b>创新与发展

    AI智能呼叫中心

    数据驱动决策以及人力成本节约,旨在深入剖析其核心优势和对企业的重要意义。一、自动化处理AI智能呼叫中心通过引入自然语言处理(NLP)、机器学习和自动技术,使得呼叫
    发表于 09-20 17:53

    构建一个灵活的软件定义数据中心

    电子发烧友网站提供《构建一个灵活的软件定义数据中心.pdf》资料免费下载
    发表于 08-29 15:35 0次下载
    构建一个灵活的软件<b class='flag-5'>定义</b><b class='flag-5'>数据中心</b>

    软件定义数据中心

    电子发烧友网站提供《软件定义数据中心.pdf》资料免费下载
    发表于 08-10 16:10 0次下载
    软件<b class='flag-5'>定义</b><b class='flag-5'>数据中心</b>