0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI化革命:大厂如何重新定义数据中心的未来

SDNLAB 来源:SDNLAB 2023-10-10 16:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据中心在现代社会扮演着至关重要的角色,它们是数字化时代的神经中枢,支持着云计算、大数据、人工智能等技术的快速发展。在传统的数据中心中,冷空气通过充斥着计算、网络和存储系统的机架被加热后,通过冷却设施捕获并排出。

但这仅适用于传统的数据中心,随着计算需求的不断增加,传统数据中心面临着巨大的挑战,包括能源效率、资源优化以及冷却问题。铺天盖地的 AI 大模型时代,当着手部署用于训练AI 模型的系统的那一刻,GPU节点可以轻松消耗整个机架的功率,这迫使数据中心运营商做出一些重大的设计改变。本文将探讨人工智能如何改变数据中心建设和冷却,以及其对数据中心行业的影响。

数据中心建设的革新

人工智能应用通常需要大规模的高性能计算资源,包括GPU和TPU等加速器。因此,数据中心需要具备足够的计算能力来支持这些应用的训练和推理。这意味着数据中心需要更多的服务器和更强大的网络基础设施,以确保高性能计算任务能够顺畅执行。

特斯拉似乎已经意识到了这一点。这家美国电动汽车制造商正在寻找人员来帮助其建立“同类首个数据中心”。

近期,该公司表示正在寻找一名数据中心高级工程项目经理,他将“领导特斯拉首个此类数据中心的端到端设计和工程,并将成为特斯拉数据中心的关键成员之一”。

目前尚不清楚所谓的“同类首个数据中心”是什么意思,推测它可能与去年在 Hot Chips 上展示的定制 Dojo AI 加速器有关。

特斯拉计划从现在到 2024 年底向该项目投入超过 10 亿美元,以加速其自动驾驶软件的开发。整个系统的运算能力可能超过 100 exaFLOPS,预计相当于 BF16 的性能。这意味着特斯拉必须找到能够容纳该设备的地方。

然而,构建和管理一个能够提供足够电力和冷却以保持 AI 加速器正常运转的设施可能是一场噩梦。

Dojo 是一台可组合的超级计算机,完全由特斯拉内部开发。从计算、网络、IO,到指令集架构、电力传输、封装和冷却,一切都是定制的,目的是加速特斯拉的机器学习算法

该系统的基本构建模块是特斯拉的 D1 小芯片,其中 25 个使用台积电的晶圆系统技术封装到Dojo 训练模块中。总而言之,这个半立方英尺的系统具有 11GB SRAM、9TB/s 的结构连接,并且可以管理 9 petaFLOPS 的 BF16 性能。

将所有性能塞进如此紧凑的外形尺寸已经带来一些挑战了,例如如何为单个 15kW 加速器提供动力和冷却,更不用说构成 1 exaFLOPS Dojo V1 系统的 6个加速器了。这还只是加速器,你还需要为所有用于通过加速器提供和协调数据流的支持系统提供动力和冷却。

然后是高速网格的问题,这可能会限制这些模块的部署方式。在这些速度下,将它们包装得越紧密越好,但热负荷也越大。因此,如果特斯拉完全放弃使用传统机架的想法而转而采用全新的东西,也就不足为奇了。

无论该系统最终采用何种形式,有一点是肯定的:无论特斯拉决定在哪里部署该系统,都将需要超级计算水平的冷却能力。

数据中心冷却的重要性

数据中心冷却是现代 IT 基础设施中的一个关键问题,推动了创新系统和解决方案的发展,涉及空调、水冷技术和其他基于液体的机制,以确保最佳性能和能源效率。由于冷却系统约占数据中心总能耗的 40%,因此成本也是一个关键考虑因素。数据中心冷却在维持系统性能方面发挥着至关重要的作用。

什么是数据中心冷却?

数据中心冷却是指用于调节数据中心设施内的温度、湿度和气流的设备、系统、方法和技术。由于数据中心通常容纳数千台服务器、IT 设备和其他产生大量热量的电子设备,因此适当的冷却对于保持最佳性能和防止过热至关重要。

数据中心冷却的目的是什么?

数据中心的冷却系统用于将服务器、存储设备、网络硬件和各种其他设备运行时产生的热量散出去。这种热量以温度的形式测量,是在电能转化为热能时产生的,这一过程是由于电子元件效率低下而发生的。

除了管理热量外,数据中心冷却系统还可以维持设施内适当的湿度水平。这样可以防止静电和冷凝的积聚,这两个因素都会对电子设备造成重大损坏。

数据中心冷却的主要目的是维持适合IT设备运行的环境条件。行业组织ASHRAE建议数据中心的温度保持在 18°C 至 27°C范围内。ASHRAE 还建议数据中心的湿度水平应在 40% 至 60% 的范围内,具体取决于具体的设备和配置。

为什么数据中心冷却很重要?

数据中心冷却之所以重要,原因有很多,包括性能、防止停机、设备寿命和能源效率等:

# 性能

数据中心的过热会产生“热点”,导致处理器和内存等服务器组件出现故障。过热时,计算机系统可能会变慢、冻结,甚至遭受永久性的硬件损坏。适当的冷却可以使系统能够保持最佳性能和服务器的板载逻辑。

# 防止停机

过热可能会导致系统故障并导致停机。在数据中心,停机不仅会造成破坏,而且代价高昂。实施适当的冷却技术有助于防止此类问题。

# 设备寿命

长时间暴露在高温下会缩短硬件的使用寿命。相反,保持凉爽的环境可以延长设备的使用寿命。还需要注意的是,湿度过高会对设备造成损害。当潮湿的灰尘颗粒粘附在电气元件上时,会减少热传递,甚至会导致腐蚀。

# 能源效率

高效的冷却系统消耗更少的能源和水,使其更加环保且更具成本效益。传统的“机械”数据中心冷却方法(例如空调)可能非常耗能并消耗大量的水。因此,采用使用较少能源或水的现代冷却解决方案对于降低运营电力成本特别有利。

人工智能已经在改变数据中心的面貌

人工智能基础设施提出的冷却和电力要求已经促使一些大型超大规模企业和数据中心运营商重新评估他们如何构建数据中心。

Facebook 母公司 Meta 也是推动这些变革的公司之一。该公司在人工智能研发方面投入巨资,去年使用了由 16,000 个 英伟达A100 GPU 组成的人工智能超级计算机。

在去年的 OCP 峰会上,Meta展示了其 Grand Teton AI 训练平台以及 Open Rack v3 (ORV3) 规范,该规范旨在适应系统的更高功率和热负载。例如,根据 Meta 的规范,单个母线可以支持 30kW 的机架。

Meta的基础设施副总裁Alexis Bjorlin在博客中写道:“ORV3生态系统可以适应几种不同形式的液冷策略,包括空气辅助液体冷却和设施水冷却。”“我们看到,功率趋势正在增加,对液冷技术的需求正在迫使我们对平台、机架、电源和数据中心设计的所有元素进行不同的思考。”

在博客发表后不久,Meta取消了两个荷兰数据中心,并宣布将重新设计位于阿拉巴马州亨茨维尔的第三个数据中心,该公司将其称为“人工智能战略投资”。

数据中心冷却的演进

传统的数据中心冷却方法通常依赖于大型制冷设备,这些设备耗能巨大,导致高昂的运营成本。其次,这些设备需要占用大量物理空间,从而限制了数据中心内部服务器和存储设备的部署密度,增加了建设和运营成本。此外,高密度计算设备的普及导致了过热问题,传统冷却系统则难以有效地处理这一挑战。同时,它们还会对环境造成负面影响,如碳排放和水资源消耗,不符合可持续性原则。

6f922dbc-6744-11ee-939d-92fbcf53809c.png

空气辅助液体冷却成为焦点

Meta等大公司正在投资的关键技术之一是空气辅助液体冷却。

与多年来在 HPE Cray、Atos 和联想超级计算机中看到的全液冷基础设施不同。该技术大量使用后门热交换器 (RDHx),以减少支持热运行芯片所需的全设施基础设施投资。

RDHx 真的很简单,相当于一个机架大小的散热器和一些大风扇。该技术因其灵活性而受到很多青睐,这使得它可以部署在支持机架级液体冷却所需管道的设施中。

在 Meta 的案例中,该公司将 RDHx 视为一种更有效地消除系统热量的方法。据了解,该实施涉及直接液冷 (DLC) 服务器,该服务器通过管道连接到机架内储液器和泵,推动加热的冷却剂通过 RDHx,系统中的热量在 RDHx 中排出到热通道。

在这种配置中,RDHx 的功能很像游戏 PC 中的定制水冷回路,但它不是冷却一个系统,而是冷却整个机架。

RDHx 也可用于空气冷却。在这种配置下,冷设施水通过 RDHx 泵送。当热空气从空气冷却系统的后部排出时,热量被散热器吸收。Meta 去年 10 月发表了一篇关于该技术可行性的完整论文。

这种方法的最大好处之一,特别是对于托管服务器而言,是它不要求客户在准备好之前就接受 DLC,并且对于他们支持液体冷却行业中不会相互冲突。

随着技术的不断发展,我们可以期待新型冷却技术的涌现,如量子冷却等。这些技术将进一步降低能源消耗,提高可持续性。

在人工智能的时代下,数据中心建设和冷却技术的演进正共同塑造着数字化世界的未来。人工智能时代不仅催生了数据中心建设方面的创新和改变,也对数据中心冷却技术提出了挑战,这两者相辅相成,不断演进,以满足巨大的计算需求和可持续性标准。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超级计算机
    +关注

    关注

    2

    文章

    479

    浏览量

    43143
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74632
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261420

原文标题:AI化革命:大厂如何重新定义数据中心的未来

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英威腾亮相2025中国数据中心标准峰会

    2025年第13届CDCC数据中心标准大会于11月20日-21日在北京国家会议中心举行。本届大会以“重新定义AI基础”为主题,将汇聚标准制定者、技术领航者与产业先锋,共同探讨
    的头像 发表于 11-21 17:39 1088次阅读

    物联网数据中心是什么?有什么功能?

    物联网数据中心是集成和管理物联网设备数据的核心平台,具备数据采集、处理、存储、分析、可视及安全管控等功能,其本质是通过技术融合实现物理世界与数字世界的双向交互与智能决策。以下从
    的头像 发表于 09-22 17:14 683次阅读

    人工智能正在重新定义嵌入式系统

    人工智能(AI)正在从设计到功能等各个层面重新定义嵌入式系统。
    的头像 发表于 09-04 16:57 1660次阅读

    NVIDIA如何优化AI工厂的网络可靠性与功耗

    随着 AI 重新定义计算格局,网络已成为构建未来数据中心发展的关键支柱。大语言模型的训练性能不仅取决于计算资源,更受到底层网络敏捷性、容量和智能程度的影响。行业正从传统以 CPU 为
    的头像 发表于 09-04 11:23 1058次阅读
    NVIDIA如何优化<b class='flag-5'>AI</b>工厂的网络可靠性与功耗

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    核心网络支撑。未来,随着1.6T光模块的落地,睿海光电将进一步推动数据中心向更高性能、更智能演进,携手全球伙伴开启AI新时代。 睿海光电——AI
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    在人工智能算力需求呈指数级增长的2025年,数据传输效率已成为制约AI发展的关键瓶颈。作为全球AI光模块领域的标杆企业,深圳市睿海光电凭借技术领先的800G OSFP光模块解决方案,正在重新定
    发表于 08-13 16:38

    重新思考数据中心架构,推进AI的规模落地

    人工智能(AI)对计算资源的贪婪需求推动了基础设施的变革,业界正着力解决如何满足AI在功率、可扩展性以及效率等方面的需求。这促使大量投资涌入,旨在重新配置数据中心架构,以更好应对上述及
    的头像 发表于 05-30 13:51 649次阅读
    <b class='flag-5'>重新</b>思考<b class='flag-5'>数据中心</b>架构,推进<b class='flag-5'>AI</b>的规模<b class='flag-5'>化</b>落地

    施耐德电气发布数据中心高密度AI集群部署解决方案

    在人工智能(AI)驱动的产业革命浪潮中,数据中心正迎来深刻变革。面对迅猛增长的人工智能算力需求,部署高密度AI集群已成为数据中心发展的必然选
    的头像 发表于 04-19 16:54 1237次阅读
    施耐德电气发布<b class='flag-5'>数据中心</b>高密度<b class='flag-5'>AI</b>集群部署解决方案

    适用于数据中心AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G网
    发表于 03-25 17:35

    TCL携手INDEMIND重新定义家庭AI交互边界

    与INDEMIND联合打造的创新产品,不仅重新定义了家庭陪伴方式,更通过全场景视觉感知技术助力机器人实现从"功能执行"到"情感共生"的跨越式突破。
    的头像 发表于 03-25 13:32 1023次阅读

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 849次阅读

    Cadence颠覆AI数据中心设计

    日前举办的英伟达 GTC 2025 开发者大会汇聚了众多行业精英,共同探讨人工智能的未来。而人工智能正在重塑全球数据中心的格局。据预测,未来将有 1 万亿美元用于 AI 驱动的
    的头像 发表于 03-21 15:43 854次阅读

    华普微,以射频“基因”重新定义数字隔离器

    在“内卷”时代,华普微选择了一条艰难的路:让技术创新成为破除同质竞争的重锤。华普微数字隔离器,不是简单的市场“跟随者”,而是以射频技术重新定义数字隔离器的 “革命者”。
    的头像 发表于 03-21 11:32 1068次阅读
    华普微,以射频“基因”<b class='flag-5'>重新定义</b>数字隔离器

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    ”“大模型圈的大黑马”“硅谷震惊了”“来自中国的学霸级AI”…… 从智能手机到自动驾驶,从数据中心到物联网,FPGA 正悄然改变着我们的生活。未来,FPGA 又将如何塑造世界?DeepSeek 带你一起
    发表于 03-03 11:21

    重新定义智能安防边界——SSD2351如何让边缘计算更高效

    4K级可视结果。此外,安全引擎支持国密算法SM2/SM4,确保数据全链路加密,满足金融、政务等高安全场景需求。 26mm×26mm的紧凑尺寸与Linux系统支持,让开发者可快速适配无人机巡检、智能门禁等设备,重新定义边缘
    发表于 02-27 16:14