0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心如何更快、更经济地利用AI?

康普中国 来源:康普中国 2023-11-08 15:21 次阅读

人气科幻小说在描绘“机器智能的崛起”时,通常伴随着激光、爆炸等场景,就算不是这般震撼,至少也会带有些许哲学上的恐惧意味。但毋庸置疑的是,人们日益关注人工智能AI)和机器学习(ML)在更广泛应用中的可能性,而且新的应用也层出不穷。

目前,数百万人已经开始通过 ChatGPT 和其他AI界面来尝试这些想法。但这些用户中的许多人并没有意识到,他们通过电脑屏幕与富有好奇心的AI助手之间的交流实际上是由位于全球各地的大型数据中心驱动的。

企业也在其数据中心内投资建立自己的AI集群,构建、训练并完善自己的AI模型,以满足其自身商业利益。这些AI的核心就是由大量 GPU(图形处理器)机架所构成的,其可提供AI模型所需的惊人的并行处理能力,以便对其算法进行详尽的训练。

在导入数据集后,AI推理会对数据进行分析,并阐释其中蕴含的意义。例如,基于猫与狗特征差异进行训练,就能识别出图片中呈现的是猫还是狗。然后,生成式AI就可以对此数据进行处理,以创建全新的图像或文本。

正是这种“智能”的处理吸引着全球各地的人们、政府和企业发挥想象力。据IDC最新发布的《全球人工智能支出指南》预计,2027年中国AI投资规模有望达到381亿美元,全球占比约9%。近年来,本土人工智能产业向高质量发展迈进,并加速与各行业的不同需求的融合落地。然而,创建一个有用的AI算法需要大量的数据用于训练,而这是一个成本高昂且耗能的过程。

“智能”源自高效的训练

数据中心一般都有着离散式的AI和计算集群,他们协同工作以提供训练AI算法的数据。这些高能耗 GPU 产生的热量限制了在给定机架空间内能够安装GPU的数量,因此必须优化物理布局。另一个令人担忧的问题是,光纤线缆线路过长会增加插入损耗。

光纤是一种高效、低损耗、低延迟的基础设施,AI集群的运行速度可达 100G 或 400G。然而,随着大量数据在AI集群中传输,每增加一米光纤布线,都会带来成本高昂的延迟和损耗。

一般认为,训练大规模AI所需的时间中,约有三成消耗在网络延迟上,其余七成用于计算时间。任何减少延迟的机会,哪怕是通过减少 10 米光纤来减少 50 纳秒的延迟,都能节省大量的时间和成本。考虑到训练这样一个大型AI模型动辄需要花费 1000 万美元或更多,延迟的代价就非常明显了。

缩减光纤米数、延迟纳秒数和功耗瓦数

运营商应仔细考虑在AI集群中使用哪些光收发器和光缆,以最大限度地降低成本和功耗。由于光纤运行必须尽可能短,因此光学成本将取决于收发器。使用并行光纤的收发器的优势在于其无需用于波分复用的光复用器和解复用器。因此,使用并行光纤的收发器成本和功耗都更低。收发器成本的节省足以抵消多芯光缆(而非双工光缆)成本的小幅增加。例如,使用8芯光缆的 400G-DR4 收发器比使用双工光缆的 400G-FR4 收发器更具成本效益。

单模光纤和多模光纤应用可支持长达 100 米的链路。硅光等技术的进步降低了单模收发器的成本,使其接近同等多模收发器的成本。对于高速收发器(400G +)而言,单模收发器的成本往往是同等多模收发器成本的两倍。虽然多模光纤的成本略高于单模光纤,但由于多模光纤线缆成本主要取决于 MPO 连接器,因此多模和单模之间的线缆成本差异较小。

此外,高速多模收发器的功耗比单模收发器低一到两瓦。单一AI集群中最多有 768 个收发器,使用多模光纤的设置将节省高达 1.5 千瓦的功率。与每台 GPU 服务器 10 千瓦的功耗相比,这似乎微不足道,但对于AI集群而言,任何节省功耗的机会都能在AI训练和运行过程中节省大量费用。

收发器与AOC

许多 AI/ML 集群和 HPC 使用有源光缆(AOC)来实现 GPU 和交换机之间的互连。有源光缆是一种设备直连线缆,两端集成了光发射器和接收器。大多数有源光缆用于短距离传输,其通常使用多模光纤和 VCSEL光源。高速(>40G)有源光缆和连接光收发器的光缆相同,使用的都是 OM3 或 OM4 光纤。AOC 中的发射器和接收器可能与同类收发器中的发射器和接收器相同,但它们不一定适合所有场合使用。每个发射器和接收器都不需要满足严格的互操作性规范,它们只需要与连接到光缆另一端的特定设备一同运行即可。由于安装人员无法接触到光纤连接器,因此无需具备清洁和检查光纤连接器的技能。

AOC 的缺点是不具备收发器能提供的灵活性。安装 AOC 需要耗费大量时间,因为必须在连接着收发器的情况下布线。正确安装带分支的 AOC 尤其具有挑战性。AOC 的故障率是同等收发器的两倍。当 AOC 出现故障时,新的 AOC 必须通过网络来布线,这也就占用了计算时间。最后,当需要升级网络链路时,必须移除 AOC 并用新的 AOC 取而代之。对于收发器,光纤布线是基础设施的一部分,并且可以在几代数据速率下保持不变。

结论

AI/ML 已经到来,并将成为人、企业和设备之间交互方式中更重要、更集成的一部分。但不可否认的是,虽然与AI服务的交互可以在手机上实现,但它仍然依赖于大型数据中心基础设施和算力的驱动,而能够快速高效地训练AI的企业将在当前瞬息万变、超级互联的世界中占据重要的一席之地。如若当下投资于先进的光纤基础设施以推动AI的训练和运行,日后就会收获令人难以置信的成果。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230601
  • 图形处理器
    +关注

    关注

    0

    文章

    185

    浏览量

    24899
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130562
  • GPU芯片
    +关注

    关注

    1

    文章

    289

    浏览量

    5688

原文标题:康普观点:数据中心如何更快、更经济地利用AI

文章出处:【微信号:康普中国,微信公众号:康普中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    #mpo光纤跳线 #数据中心光纤跳线

    光纤数据中心
    jf_51241005
    发布于 :2024年03月22日 10:18:31

    #gyta53光缆 #gyty53光缆 #数据中心光缆

    数据中心光缆
    jf_51241005
    发布于 :2024年03月18日 14:03:02

    #光纤弯曲 #光纤衰减 #数据中心光纤

    光纤数据中心
    jf_51241005
    发布于 :2024年03月08日 09:59:50

    #MPO预端接 #数据中心机房 #机房布线

    数据中心MPO
    jf_51241005
    发布于 :2024年03月01日 11:12:47

    #永久链路 #信道测试 #数据中心

    数据中心
    jf_51241005
    发布于 :2024年02月23日 10:17:58

    #紧套光缆 #松套光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月26日 09:44:11

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    数据中心 3D 机房数字孪生 #数据中心

    3D数据中心
    阿梨是苹果
    发布于 :2023年12月28日 10:02:33

    Microchip CEO博文《AI将如何重新定义数据中心?》

    AI已经存在了一段时间,其影响也相当巨大。生成式AI刚开始崭露头角,对于其如何颠覆世界的种种预言已经迅速成为热门话题,影响之深广,令人深思。  这项技术已经对数据中心产生了重大影响。基于必须在云端
    的头像 发表于 12-11 14:50 956次阅读
    Microchip CEO博文《<b class='flag-5'>AI</b>将如何重新定义<b class='flag-5'>数据中心</b>?》

    #预端接光缆 #24芯光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2023年12月08日 11:01:21

    大模型时代,数据中心将转向何方?

    数据中心大模型
    脑极体
    发布于 :2023年11月22日 09:01:41

    适用于数据中心AI 时代的网络

    十多年来,传统的云数据中心一直是计算基础设施的基石,满足了各种用户和应用程序的需求。然而,近年来,为了跟上技术的进步和对 AI 驱动的计算需求的激增,数据中心进行了发展。 本文探讨了网络在塑造
    的头像 发表于 10-27 20:05 250次阅读
    适用于<b class='flag-5'>数据中心</b>和 <b class='flag-5'>AI</b> 时代的网络

    数据中心 AI 加速器:当前一代和下一代

    数据中心 AI 加速器:当前一代和下一代演讲ppt分享
    发表于 07-14 17:15 0次下载

    数据中心光模块中,并行光学和WDM波分光学技术是什么?

    数据中心
    hycsystembella
    发布于 :2023年07月11日 18:01:47