0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

反思 GTC 和 OFC 2024:没有一刀切的方法,但上市时间是关键!

易天小讲堂 来源:易天小讲堂 作者:易天小讲堂 2024-05-31 16:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在GTC 2024期间,英伟达宣布了最新的Blackwell B200张量核心GPU,旨在为万亿参数的AI大型语言模型提供支持。Blackwell B200需要先进的800Gbps网络,完全符合在AI工作负载的AI网络报告中概述的预测。随着人工智能工作负载的流量预计每两年增长10倍,这些人工智能工作负载预计将超过传统前端网络至少两个速度升级周期。

wKgZomZZimOALHo-AADf9Rimt1w102.png

虽然在OFC上讨论了许多关于跨数据中心应用的主题和创新解决方案,以及在同一领域内扩展加速器数量的计算互连,但本篇文章将主要关注数据中心内的应用。具体来说,它将专注于扩展连接大型人工智能集群中各种加速节点所需的网络,并使用1000个加速器。这个网络在业界通常被称为“人工智能后端网络”(还提到;由一些供应商提供;作为东西向流量的网络)。以下是展会上探讨的一些主题和解决方案:

1)线性驱动可插拔光学vs线性接收光学vs共封装光学

可插拔光学器件预计将在系统级的功耗中占越来越大的比例。随着云服务提供商构建以高速光学扩散为特征的下一代人工智能网络,这个问题将进一步放大。

在OFC 2023上,线性驱动可插拔光学(LPOs)的引入通过去除DSP来实现显著的成本和功耗节约,引发了一系列的测试活动。快进到OFC 2024,我们见证了近20场演示。活动期间的对话显示了全行业对集成到最新51.2Tbps网络交换芯片中的高质量100G SerDes的热情,许多人渴望利用这一进步,能够从光可插拔模块中去除DSP。

然而,尽管令人兴奋,但超大规模企业的犹豫表明,LPOs可能还没有做好大规模采用的准备。采访强调,超大规模企业不愿承担LPOs的资格认证和潜在失败的责任。相反,他们更倾向于让转换供应商来承担这些责任。

在此期间,预计51.2Tbps网络芯片的早期部署将继续利用可插拔光学,至少到明年年中。然而,如果LPOs 能够展示大规模的安全部署,同时为超大规模企业提供显著的功耗节省——使他们能够在每个机架上部署更多的加速器——那么采用LPOs 的诱惑可能是不可抗拒的。最终,决定取决于LPOs 能否兑现这些承诺。

此外,半定时线性光学(HALO),也被称为线性接收光学(LROs)在展会上进行了讨论。LRO仅在发送端集成DSP芯片(而不是在LPOs的情况下完全移除它)。虽然LPOs在100G-PAM4 SerDes下可能是可行的,但在200G-PAM4 SerDes下可能变得具有挑战性,这时可能需要LROs。

与此同时,协同封装光学(CPOs)仍处于开发阶段,Broadcom等大型行业参与者正在展示该技术的持续发展和进步。虽然我们相信目前的LPO和LRO解决方案肯定会像CPOs一样有更快的上市时间,但后者最终可能在未来的某个时候成为能够实现更高速度的唯一解决方案。

在结束本节之前,请不要忘记,在可能的情况下,铜将是比上面讨论的所有光连接选项更好的选择。简而言之,尽可能使用铜,必要时使用光学。有趣的是,液体冷却可以促进机架内加速器的致密化,从而增加铜的使用,以连接同一机架内的各种加速器节点。最近在GTC上发布的NVIDIA GB200 NVL72完美地说明了这一趋势。

2)光电路开关

OFC 2024带来了一些有趣的光学电路开关(OCS)相关公告。OCS可以带来许多好处,包括高带宽和低网络延迟,以及显著的资本支出节省。这是因为OCS开关可以显著减少网络中所需的电气开关数量,从而消除了与电气开关相关的昂贵的光-电-光转换。此外,与电气开关不同,OCS开关与速度无关,当服务器采用下一代光收发器时,不需要升级。

然而,OCS是一项新技术,到目前为止,只有经过多年开发的谷歌能够在其数据中心网络中大规模部署OCS。此外,OCS交换机可能需要改变光纤的安装底座。因此,我们仍在观察,除了谷歌之外,是否有其他云服务提供商计划效仿,在网络中采用OCS交换机。

3) 3.2 Tbps的路径

在OFC 2023上,推出了许多基于200G / lambda的1.6Tbps光学元件和收发器。在OFC 2024上,我们见证了这种1.6 Tbps光学器件的进一步技术演示。虽然我们预计到2025/2026年才能实现1.6Tbps的批量出货量,但业界已经开始努力探索实现3.2 Tbps的各种途径和选择。

考虑到从100G-PAM4电子通道速度过渡到200G-PAM4所遇到的复杂性,最初的3.2 Tbps解决方案可能在OSFP-XD外形因素中使用16条200G-PAM4通道,而不是8条400G-PAMx通道。值得注意的是,OSFP-XD最初是在两年前的OFC 2022上进行探索和演示的,由于人工智能集群部署的紧迫性,它可能会重新投入使用。与1.6Tbps相比,OSFP-XD外形尺寸的3.2Tbps解决方案提供了更高的面板密度和成本节约。最终,业界有望找到一种基于8通道400G-PAMx SerDes实现3.2 Tbps的方法,尽管可能需要一些时间才能实现这一目标。

总之,OFC 2024展示了许多潜在的解决方案,旨在解决共同的挑战:成本、功率和速度。我们预计不同的超大规模厂商将做出不同的选择,从而导致市场多样化。然而,关键的考虑因素之一是上市时间。值得注意的是,AI后端网络的更新周期通常在18到24个月左右,与用于连接通用服务器的传统前端网络的5到6年相比,这要短得多。

原文转自:Reflecting on GTC and OFC 2024: No One-Size-Fits-All but Time to Market is Key! - Dell'Oro Group

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    18

    文章

    5772

    浏览量

    75208
  • AI
    AI
    +关注

    关注

    91

    文章

    41141

    浏览量

    302609
  • OF
    OF
    +关注

    关注

    0

    文章

    8

    浏览量

    10858
  • 光纤模块
    +关注

    关注

    0

    文章

    36

    浏览量

    4067
  • gtc
    gtc
    +关注

    关注

    0

    文章

    75

    浏览量

    4775
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    电价市场化变革下,工商业企业控费破局:安科瑞ADW300A无线计量仪表重磅升级

    王鑫杰(安科瑞电能计量产品负责人) 13524471462 近日,全国11省市正式取消固定分时电价,电力市场迎来颠覆性变革!当“峰谷平”的固定时段成为历史,电价彻底告别“一刀切”,开始跟随市场供需
    的头像 发表于 04-13 17:19 394次阅读
    电价市场化变革下,工商业企业控费破局:安科瑞ADW300A无线计量仪表重磅升级

    空调智能控制系统方案,数据驱动,精准调温

    诸多痛点,难以适配当下绿色节能、智能管控、精细化运营的核心需求: 是能耗浪费严重,多依赖人工手动操控,存在“人走机不停”、过度制冷制热、区域温控一刀切等问题,无效空转能耗占比极高; 二是控制精度不足,无法根据室内人员
    的头像 发表于 03-18 17:05 393次阅读

    中央空调节能智能控制系统解决方案,全链路优化,能耗直降

    %,商业建筑中空调能耗甚至占总能耗的50%以上,工业场景更是高达60%。传统中央空调“一刀切”的运行模式、人工巡检的管理方式,导致能耗浪费严重、管理效率低下、故障响应滞后等突出痛点。为破解上述难题,依托物联网(IoT)、人工智
    的头像 发表于 03-17 16:19 271次阅读

    双脉冲测试:差分探头带宽限制按键,该开还是该关?

    双脉冲测试中,差分探头的带宽限制按键,从来没有一刀切”的标准答案。 不少工程师在测试时会纠结这个按键的开关,其实关键不在于按键本身,而在于你的测试目标、被测器件特性,以及现场的干扰情况——找对场景
    的头像 发表于 03-03 08:58 172次阅读
    双脉冲测试:差分探头带宽限制按键,该开还是该关?

    双模式智控,让无功补偿告别“一刀切

    易控宝新代无功补偿控制器通过累计功率因数模式和最佳无功模式,精准应对光伏场景和变压器空载,解决力调电费罚款和设备损耗问题,提升发电效率,实现降本增效。
    的头像 发表于 01-25 16:34 230次阅读
    双模式智控,让无功补偿告别“<b class='flag-5'>一刀切</b>”

    华为云Flexus AI智能体:多元适配你的业务场景

    落地的核心挑战:不同行业的业务逻辑、合规要求、数据特点差异巨大,“一刀切” 的 AI 方案往往 “水土不服”。 IDC 报告显示,85% 的 AI 项目失败源于 “场景适配不足”:互联网企业觉得 “功能太笨重”,医疗企业担忧 “数据不合规”,制造企业抱怨 “
    的头像 发表于 12-31 13:03 266次阅读
    华为云Flexus AI智能体:多元适配你的业务场景

    【节能学院】节能 + 安全双在线!安科瑞智能微断守护城市夜间光明

    、传统路灯管理痛点突出,亟待升级路灯是城市夜晚的“守护者”,传统管理模式存在诸多亟待解决的问题:“一刀切”亮灯方式造成30%以上的电力浪费;线路潜在隐患难以提前察觉;人工巡检不仅成本高昂,故障
    的头像 发表于 12-16 09:23 722次阅读
    【节能学院】节能 + 安全双在线!安科瑞智能微断守护城市夜间光明

    电能质量在线监测装置的暂态事件台账存储容量有限,如何进行数据管理?

    丢失、存储资源高效利用、运维成本可控。以下是结构化的解决方案: 、核心原则:数据分级,价值优先 首先按数据价值划分等级,优先保障高价值数据的存储与备份,避免 “一刀切” 的存储策略导致关键数据丢失: 数据等级 数据类型
    的头像 发表于 12-11 10:53 627次阅读
    电能质量在线监测装置的暂态事件台账存储容量有限,如何进行数据管理?

    无功补偿控制器投时间奥秘:延时、震荡、放电次讲透!

    在无功补偿控制器中,电容器投是其中重要的环,它在定程度上决定了功率因数的大小以及你是否在被罚款,那么什么时候去做投,投
    的头像 发表于 10-31 11:15 653次阅读
    无功补偿控制器投<b class='flag-5'>切</b>的<b class='flag-5'>时间</b>奥秘:延时、震荡、放电<b class='flag-5'>一</b>次讲透!

    分析负载特性时,有哪些常见的错误或误区?

    及正确做法: 、误区 1:负载分类 “一刀切”,不细分具体类型 错误表现: 将同大类的负载视为 “完全相同”,比如把 “电机” 都归为类,不区分 “普通异步电机” 和 “变频驱动
    的头像 发表于 10-10 17:03 1098次阅读

    跨越域冲突:多实例并发与PTP可配置性的融合之道

    PTP之所以需要高度可配置的特性,并非出于复杂化的目的,而是为了应对多样化的现实应用场景和网络环境的必然要求。没有种“一刀切”的配置能在所有网络中同时实现最佳精度、最高稳定性和最低资源消耗。 PTP的可配置性正是为了在这些因素
    的头像 发表于 09-05 17:14 1652次阅读
    跨越域冲突:多实例并发与PTP可配置性的融合之道

    物联网云平台解决方案:破解行业痛点,赋能场景落地

    物联网云平台作为连接设备、数据与应用的核心枢纽,其解决方案并非“一刀切”的标准化产品,而是针对不同行业的痛点需求,融合感知技术、通信协议、数据分析与应用开发的定制化体系。从工厂车间的设备运维到农田
    的头像 发表于 08-08 17:43 1575次阅读

    双智网络概述和关键技术

    随着5G网络的规模商用,在精准保障差异化用户体验的同时提升5G网络资源利用率,逐步成为网络优化、演进与发展的核心命题。运营商希迫切望提升5G利用率,往往采用一刀切的方式,将全网的5G->4G
    的头像 发表于 06-09 13:51 1120次阅读
    双智网络概述和<b class='flag-5'>关键</b>技术

    突发!全球三大家EDA断供大陆,国产EDA崛起?

    这两天EDA断供的事传的沸沸扬扬,金融时报和路透社都报道了这件事。截止到目前,最新的消息还是这两个报告中的内容,还不知道具体的细节。笔者认为全面断供即一刀切的可能性并不是很大,这样就基本意味着中美
    的头像 发表于 05-30 09:16 2288次阅读
    突发!全球三大家EDA断供大陆,国产EDA崛起?

    PCB Layout 约束管理,助力优化设计

    本文重点PCBlayout约束管理在设计中的重要性Layout约束有助避免些设计问题设计中可以使用的不同约束在PCB设计规则和约束管理方面,许多设计师试图采用“一刀切”的方法,认为同样的规则设定
    的头像 发表于 05-16 13:02 1199次阅读
    PCB Layout 约束管理,助力优化设计