0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心如何更快、更经济地利用AI?

康普中国 来源:康普中国 2023-11-08 15:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人气科幻小说在描绘“机器智能的崛起”时,通常伴随着激光、爆炸等场景,就算不是这般震撼,至少也会带有些许哲学上的恐惧意味。但毋庸置疑的是,人们日益关注人工智能AI)和机器学习(ML)在更广泛应用中的可能性,而且新的应用也层出不穷。

目前,数百万人已经开始通过 ChatGPT 和其他AI界面来尝试这些想法。但这些用户中的许多人并没有意识到,他们通过电脑屏幕与富有好奇心的AI助手之间的交流实际上是由位于全球各地的大型数据中心驱动的。

企业也在其数据中心内投资建立自己的AI集群,构建、训练并完善自己的AI模型,以满足其自身商业利益。这些AI的核心就是由大量 GPU(图形处理器)机架所构成的,其可提供AI模型所需的惊人的并行处理能力,以便对其算法进行详尽的训练。

在导入数据集后,AI推理会对数据进行分析,并阐释其中蕴含的意义。例如,基于猫与狗特征差异进行训练,就能识别出图片中呈现的是猫还是狗。然后,生成式AI就可以对此数据进行处理,以创建全新的图像或文本。

正是这种“智能”的处理吸引着全球各地的人们、政府和企业发挥想象力。据IDC最新发布的《全球人工智能支出指南》预计,2027年中国AI投资规模有望达到381亿美元,全球占比约9%。近年来,本土人工智能产业向高质量发展迈进,并加速与各行业的不同需求的融合落地。然而,创建一个有用的AI算法需要大量的数据用于训练,而这是一个成本高昂且耗能的过程。

“智能”源自高效的训练

数据中心一般都有着离散式的AI和计算集群,他们协同工作以提供训练AI算法的数据。这些高能耗 GPU 产生的热量限制了在给定机架空间内能够安装GPU的数量,因此必须优化物理布局。另一个令人担忧的问题是,光纤线缆线路过长会增加插入损耗。

光纤是一种高效、低损耗、低延迟的基础设施,AI集群的运行速度可达 100G 或 400G。然而,随着大量数据在AI集群中传输,每增加一米光纤布线,都会带来成本高昂的延迟和损耗。

一般认为,训练大规模AI所需的时间中,约有三成消耗在网络延迟上,其余七成用于计算时间。任何减少延迟的机会,哪怕是通过减少 10 米光纤来减少 50 纳秒的延迟,都能节省大量的时间和成本。考虑到训练这样一个大型AI模型动辄需要花费 1000 万美元或更多,延迟的代价就非常明显了。

缩减光纤米数、延迟纳秒数和功耗瓦数

运营商应仔细考虑在AI集群中使用哪些光收发器和光缆,以最大限度地降低成本和功耗。由于光纤运行必须尽可能短,因此光学成本将取决于收发器。使用并行光纤的收发器的优势在于其无需用于波分复用的光复用器和解复用器。因此,使用并行光纤的收发器成本和功耗都更低。收发器成本的节省足以抵消多芯光缆(而非双工光缆)成本的小幅增加。例如,使用8芯光缆的 400G-DR4 收发器比使用双工光缆的 400G-FR4 收发器更具成本效益。

单模光纤和多模光纤应用可支持长达 100 米的链路。硅光等技术的进步降低了单模收发器的成本,使其接近同等多模收发器的成本。对于高速收发器(400G +)而言,单模收发器的成本往往是同等多模收发器成本的两倍。虽然多模光纤的成本略高于单模光纤,但由于多模光纤线缆成本主要取决于 MPO 连接器,因此多模和单模之间的线缆成本差异较小。

此外,高速多模收发器的功耗比单模收发器低一到两瓦。单一AI集群中最多有 768 个收发器,使用多模光纤的设置将节省高达 1.5 千瓦的功率。与每台 GPU 服务器 10 千瓦的功耗相比,这似乎微不足道,但对于AI集群而言,任何节省功耗的机会都能在AI训练和运行过程中节省大量费用。

收发器与AOC

许多 AI/ML 集群和 HPC 使用有源光缆(AOC)来实现 GPU 和交换机之间的互连。有源光缆是一种设备直连线缆,两端集成了光发射器和接收器。大多数有源光缆用于短距离传输,其通常使用多模光纤和 VCSEL光源。高速(>40G)有源光缆和连接光收发器的光缆相同,使用的都是 OM3 或 OM4 光纤。AOC 中的发射器和接收器可能与同类收发器中的发射器和接收器相同,但它们不一定适合所有场合使用。每个发射器和接收器都不需要满足严格的互操作性规范,它们只需要与连接到光缆另一端的特定设备一同运行即可。由于安装人员无法接触到光纤连接器,因此无需具备清洁和检查光纤连接器的技能。

AOC 的缺点是不具备收发器能提供的灵活性。安装 AOC 需要耗费大量时间,因为必须在连接着收发器的情况下布线。正确安装带分支的 AOC 尤其具有挑战性。AOC 的故障率是同等收发器的两倍。当 AOC 出现故障时,新的 AOC 必须通过网络来布线,这也就占用了计算时间。最后,当需要升级网络链路时,必须移除 AOC 并用新的 AOC 取而代之。对于收发器,光纤布线是基础设施的一部分,并且可以在几代数据速率下保持不变。

结论

AI/ML 已经到来,并将成为人、企业和设备之间交互方式中更重要、更集成的一部分。但不可否认的是,虽然与AI服务的交互可以在手机上实现,但它仍然依赖于大型数据中心基础设施和算力的驱动,而能够快速高效地训练AI的企业将在当前瞬息万变、超级互联的世界中占据重要的一席之地。如若当下投资于先进的光纤基础设施以推动AI的训练和运行,日后就会收获令人难以置信的成果。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49752

    浏览量

    261636
  • 图形处理器
    +关注

    关注

    0

    文章

    202

    浏览量

    27446
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • GPU芯片
    +关注

    关注

    1

    文章

    306

    浏览量

    6403

原文标题:康普观点:数据中心如何更快、更经济地利用AI

文章出处:【微信号:康普中国,微信公众号:康普中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    微软最新AI技术数据中心即将启用

    微软在美国威斯康星州 Mount Pleasant 建设的最新AI技术数据中心即将投入使用,预计 2026 年初正式启用。第二座同规模中心也在规划中,总投资将超过 70 亿美元。
    的头像 发表于 11-05 16:37 597次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    核心网络支撑。未来,随着1.6T光模块的落地,睿海光电将进一步推动数据中心向更高性能、智能化演进,携手全球伙伴开启AI新时代。 睿海光电——AI网络升级的可靠伙伴!
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    华为面向拉美地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区发布全新升级的星河AI
    的头像 发表于 08-11 10:42 2001次阅读

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换数据
    发表于 07-29 15:02

    简单认识安森美AI数据中心电源解决方案

    面对AI算力需求爆发式增长,数据中心电力系统正面临前所未有的挑战。安森美(onsemi)推出的AI数据中心电源解决方案,直击能效、尺寸等痛点,助力客户把握
    的头像 发表于 07-05 13:03 3133次阅读
    简单认识安森美<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>电源解决方案

    数据中心液冷技术和风冷技术的比较

    近年来,随着数字经济的蓬勃发展,数据中心建设规模不断扩大,导致机房单位面积功耗居高不下,对数据中心散热制冷技术提出了更高的要求。同时,根据国家对数据中心的节能要求,全国范围内新建
    的头像 发表于 05-09 09:41 2820次阅读
    <b class='flag-5'>数据中心</b>液冷技术和风冷技术的比较

    晶科能源N型TOPCon组件满足AI数据中心的能源刚需

    。面对这一挑战,晶科能源依托高效N型TOPCon技术组件与储能系统,响应“东数西算”国家战略,为AI数据中心提供高可靠、高经济性的绿色能源保障,破解高能耗与低碳化的两难困局。
    的头像 发表于 04-23 09:33 810次阅读

    是德科技推出AI数据中心构建器

    是德科技(NYSE:KEYS)推出Keysight AI (KAI)数据中心构建器,这是一款先进的软件套件,通过模拟真实工作负载来评估新算法、组件和协议对AI训练性能的影响。KAI数据中心
    的头像 发表于 04-07 11:06 812次阅读

    适用于数据中心AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G网
    发表于 03-25 17:35

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 854次阅读

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    一种经济高效的方式,实现更大的带宽传输。 800G有源光缆 800G有源光缆通过增加带宽、降低延迟并减少功耗来优化性能,非常适合去中心数据中心和云环境。此外,VCSEL与PAM4 DSP技术
    发表于 03-24 14:20

    Cadence颠覆AI数据中心设计

    日前举办的英伟达 GTC 2025 开发者大会汇聚了众多行业精英,共同探讨人工智能的未来。而人工智能正在重塑全球数据中心的格局。据预测,未来将有 1 万亿美元用于 AI 驱动的数据中心升级。然而
    的头像 发表于 03-21 15:43 867次阅读

    数据中心发展与改造

    全球多数数据中心基础设施已超六年,能耗高而效率低。随着AI的发展,企业正致力于整合与提升能效的现代化改造。同时数据中心呈现规模化、高密化、绿色化发展趋势。19821800313 一、目前数据中
    的头像 发表于 02-28 16:50 744次阅读
    <b class='flag-5'>数据中心</b>发展与改造

    韩国将建全球最大AI数据中心

    据最新报道,韩国即将启动一项雄心勃勃的计划——建设全球最大的人工智能(AI)数据中心。该数据中心不仅在规模上令人瞩目,更在技术和投资上展现了韩国的强大实力。 据悉,该数据中心的电力容量
    的头像 发表于 02-20 09:24 896次阅读