0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

反思 GTC 和 OFC 2024:没有一刀切的方法,但上市时间是关键!

易天小讲堂 来源:易天小讲堂 作者:易天小讲堂 2024-05-31 16:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在GTC 2024期间,英伟达宣布了最新的Blackwell B200张量核心GPU,旨在为万亿参数的AI大型语言模型提供支持。Blackwell B200需要先进的800Gbps网络,完全符合在AI工作负载的AI网络报告中概述的预测。随着人工智能工作负载的流量预计每两年增长10倍,这些人工智能工作负载预计将超过传统前端网络至少两个速度升级周期。

wKgZomZZimOALHo-AADf9Rimt1w102.png

虽然在OFC上讨论了许多关于跨数据中心应用的主题和创新解决方案,以及在同一领域内扩展加速器数量的计算互连,但本篇文章将主要关注数据中心内的应用。具体来说,它将专注于扩展连接大型人工智能集群中各种加速节点所需的网络,并使用1000个加速器。这个网络在业界通常被称为“人工智能后端网络”(还提到;由一些供应商提供;作为东西向流量的网络)。以下是展会上探讨的一些主题和解决方案:

1)线性驱动可插拔光学vs线性接收光学vs共封装光学

可插拔光学器件预计将在系统级的功耗中占越来越大的比例。随着云服务提供商构建以高速光学扩散为特征的下一代人工智能网络,这个问题将进一步放大。

在OFC 2023上,线性驱动可插拔光学(LPOs)的引入通过去除DSP来实现显著的成本和功耗节约,引发了一系列的测试活动。快进到OFC 2024,我们见证了近20场演示。活动期间的对话显示了全行业对集成到最新51.2Tbps网络交换芯片中的高质量100G SerDes的热情,许多人渴望利用这一进步,能够从光可插拔模块中去除DSP。

然而,尽管令人兴奋,但超大规模企业的犹豫表明,LPOs可能还没有做好大规模采用的准备。采访强调,超大规模企业不愿承担LPOs的资格认证和潜在失败的责任。相反,他们更倾向于让转换供应商来承担这些责任。

在此期间,预计51.2Tbps网络芯片的早期部署将继续利用可插拔光学,至少到明年年中。然而,如果LPOs 能够展示大规模的安全部署,同时为超大规模企业提供显著的功耗节省——使他们能够在每个机架上部署更多的加速器——那么采用LPOs 的诱惑可能是不可抗拒的。最终,决定取决于LPOs 能否兑现这些承诺。

此外,半定时线性光学(HALO),也被称为线性接收光学(LROs)在展会上进行了讨论。LRO仅在发送端集成DSP芯片(而不是在LPOs的情况下完全移除它)。虽然LPOs在100G-PAM4 SerDes下可能是可行的,但在200G-PAM4 SerDes下可能变得具有挑战性,这时可能需要LROs。

与此同时,协同封装光学(CPOs)仍处于开发阶段,Broadcom等大型行业参与者正在展示该技术的持续发展和进步。虽然我们相信目前的LPO和LRO解决方案肯定会像CPOs一样有更快的上市时间,但后者最终可能在未来的某个时候成为能够实现更高速度的唯一解决方案。

在结束本节之前,请不要忘记,在可能的情况下,铜将是比上面讨论的所有光连接选项更好的选择。简而言之,尽可能使用铜,必要时使用光学。有趣的是,液体冷却可以促进机架内加速器的致密化,从而增加铜的使用,以连接同一机架内的各种加速器节点。最近在GTC上发布的NVIDIA GB200 NVL72完美地说明了这一趋势。

2)光电路开关

OFC 2024带来了一些有趣的光学电路开关(OCS)相关公告。OCS可以带来许多好处,包括高带宽和低网络延迟,以及显著的资本支出节省。这是因为OCS开关可以显著减少网络中所需的电气开关数量,从而消除了与电气开关相关的昂贵的光-电-光转换。此外,与电气开关不同,OCS开关与速度无关,当服务器采用下一代光收发器时,不需要升级。

然而,OCS是一项新技术,到目前为止,只有经过多年开发的谷歌能够在其数据中心网络中大规模部署OCS。此外,OCS交换机可能需要改变光纤的安装底座。因此,我们仍在观察,除了谷歌之外,是否有其他云服务提供商计划效仿,在网络中采用OCS交换机。

3) 3.2 Tbps的路径

在OFC 2023上,推出了许多基于200G / lambda的1.6Tbps光学元件和收发器。在OFC 2024上,我们见证了这种1.6 Tbps光学器件的进一步技术演示。虽然我们预计到2025/2026年才能实现1.6Tbps的批量出货量,但业界已经开始努力探索实现3.2 Tbps的各种途径和选择。

考虑到从100G-PAM4电子通道速度过渡到200G-PAM4所遇到的复杂性,最初的3.2 Tbps解决方案可能在OSFP-XD外形因素中使用16条200G-PAM4通道,而不是8条400G-PAMx通道。值得注意的是,OSFP-XD最初是在两年前的OFC 2022上进行探索和演示的,由于人工智能集群部署的紧迫性,它可能会重新投入使用。与1.6Tbps相比,OSFP-XD外形尺寸的3.2Tbps解决方案提供了更高的面板密度和成本节约。最终,业界有望找到一种基于8通道400G-PAMx SerDes实现3.2 Tbps的方法,尽管可能需要一些时间才能实现这一目标。

总之,OFC 2024展示了许多潜在的解决方案,旨在解决共同的挑战:成本、功率和速度。我们预计不同的超大规模厂商将做出不同的选择,从而导致市场多样化。然而,关键的考虑因素之一是上市时间。值得注意的是,AI后端网络的更新周期通常在18到24个月左右,与用于连接通用服务器的传统前端网络的5到6年相比,这要短得多。

原文转自:Reflecting on GTC and OFC 2024: No One-Size-Fits-All but Time to Market is Key! - Dell'Oro Group

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74649
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296556
  • OF
    OF
    +关注

    关注

    0

    文章

    8

    浏览量

    10833
  • 光纤模块
    +关注

    关注

    0

    文章

    27

    浏览量

    3961
  • gtc
    gtc
    +关注

    关注

    0

    文章

    73

    浏览量

    4719
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    无功补偿控制器投时间奥秘:延时、震荡、放电次讲透!

    在无功补偿控制器中,电容器投是其中重要的环,它在定程度上决定了功率因数的大小以及你是否在被罚款,那么什么时候去做投,投
    的头像 发表于 10-31 11:15 151次阅读
    无功补偿控制器投<b class='flag-5'>切</b>的<b class='flag-5'>时间</b>奥秘:延时、震荡、放电<b class='flag-5'>一</b>次讲透!

    电能隐患藏得深?安科瑞 “体检 + 治疗 + 监护” 全链条,让用电更安全

    各行业 “隐形杀手”—— 而多数企业还在盲目更换设备,却没找到病根。 (187   ++++    2210    ++98782++++ 分享资料) 作为电能质量治理专家,安科瑞的秘诀在于: 不搞一刀切,先诊断再开方 。这套 “监测 - 治理 - 平台” 全链条方案,已帮医疗、工
    的头像 发表于 10-16 13:47 182次阅读
    电能隐患藏得深?安科瑞 “体检 + 治疗 + 监护” 全链条,让用电更安全

    分析负载特性时,有哪些常见的错误或误区?

    及正确做法: 、误区 1:负载分类 “一刀切”,不细分具体类型 错误表现: 将同大类的负载视为 “完全相同”,比如把 “电机” 都归为类,不区分 “普通异步电机” 和 “变频驱动
    的头像 发表于 10-10 17:03 515次阅读

    跨越域冲突:多实例并发与PTP可配置性的融合之道

    PTP之所以需要高度可配置的特性,并非出于复杂化的目的,而是为了应对多样化的现实应用场景和网络环境的必然要求。没有种“一刀切”的配置能在所有网络中同时实现最佳精度、最高稳定性和最低资源消耗。 PTP的可配置性正是为了在这些因素
    的头像 发表于 09-05 17:14 1267次阅读
    跨越域冲突:多实例并发与PTP可配置性的融合之道

    物联网云平台解决方案:破解行业痛点,赋能场景落地

    物联网云平台作为连接设备、数据与应用的核心枢纽,其解决方案并非“一刀切”的标准化产品,而是针对不同行业的痛点需求,融合感知技术、通信协议、数据分析与应用开发的定制化体系。从工厂车间的设备运维到农田
    的头像 发表于 08-08 17:43 995次阅读

    双智网络概述和关键技术

    随着5G网络的规模商用,在精准保障差异化用户体验的同时提升5G网络资源利用率,逐步成为网络优化、演进与发展的核心命题。运营商希迫切望提升5G利用率,往往采用一刀切的方式,将全网的5G->4G
    的头像 发表于 06-09 13:51 802次阅读
    双智网络概述和<b class='flag-5'>关键</b>技术

    突发!全球三大家EDA断供大陆,国产EDA崛起?

    这两天EDA断供的事传的沸沸扬扬,金融时报和路透社都报道了这件事。截止到目前,最新的消息还是这两个报告中的内容,还不知道具体的细节。笔者认为全面断供即一刀切的可能性并不是很大,这样就基本意味着中美
    的头像 发表于 05-30 09:16 1927次阅读
    突发!全球三大家EDA断供大陆,国产EDA崛起?

    PCB Layout 约束管理,助力优化设计

    本文重点PCBlayout约束管理在设计中的重要性Layout约束有助避免些设计问题设计中可以使用的不同约束在PCB设计规则和约束管理方面,许多设计师试图采用“一刀切”的方法,认为同样的规则设定
    的头像 发表于 05-16 13:02 821次阅读
    PCB Layout 约束管理,助力优化设计

    是德科技OFC 2025亮点抢先看

    是德科技将在OFC 2025上展示尖端的设计、仿真和测试解决方案,以实现更智能的测试和更深入的洞察,优化AI数据中心的性能。
    的头像 发表于 03-27 11:48 1112次阅读

    NVIDIA GTC 2025精华文读完 黄仁勋在GTC上的主题演讲

    来自 NVIDIA 年度最大活动 GTC 的精华新闻,内容涵盖最新服务和硬件、技术演示以及 AI 的未来发展趋势。 GTC 2025 将揭示 AI 的最新发展趋势。这里不仅有最新技术,还汇聚了推动
    的头像 发表于 03-20 14:54 1716次阅读
    NVIDIA <b class='flag-5'>GTC</b> 2025精华<b class='flag-5'>一</b>文读完 黄仁勋在<b class='flag-5'>GTC</b>上的主题演讲

    英伟达GTC2025大会关键信息点总结 Blackwell Ultra 量子计算与机器人

    英伟达 GTC 2025 大会关键信息点总结
    的头像 发表于 03-20 14:18 1351次阅读

    电梯按需维保:个性化定制的电梯维护方案

    在现代城市生活中,电梯已成为高楼大厦中不可或缺的垂直交通工具。然而,电梯的安全运行离不开定期的维护保养。传统的电梯维保模式往往采用固定周期的保养计划,这种“一刀切”的方式可能无法满足不同电梯的实际
    的头像 发表于 02-19 17:37 735次阅读

    ADS1259的OFC和FSC寄存器是怎么设置?

    我想请教下ADS1259的OFC和FSC寄存器是怎么设置的呢,也就是怎样确定校准值呢,有什么对照标准吗?如果是芯片自校准的话,是不是取默认值就可以了,另外,全量程校准的时候是不是需要准确的全量程值呢?
    发表于 01-16 07:43

    铣削加工如何正确选择走方式

    、总体加工时间、机床刀具的使用寿命等多个方面,最终决定生产效率。 本文通过对走方式的不同特点,及影响其选择的部分因素的分析,并且针对铣削过程中工艺方法及走方式的比较,为如何选择合适
    的头像 发表于 12-24 10:20 1525次阅读
    铣削加工如何正确选择走<b class='flag-5'>刀</b>方式

    2024年半导体IPO:关键词是什么?

    尽管由于IPO政策相对收紧,2024年半导体企业上市数量相比2023年有所下降,但是从新上市企业布局中,可以看出哪些半导体行业发展动向? 随着全球数字化转型的加速,半导体行业正站在新
    的头像 发表于 12-23 11:32 1150次阅读
    <b class='flag-5'>2024</b>年半导体IPO:<b class='flag-5'>关键</b>词是什么?