0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

曦智科技探讨AI数据中心三大扩展策略

曦智科技 来源:曦智科技 2026-04-21 16:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

导语

在OFC 2026期间,曦智科技接受了Semiconductor Engineering的专访,探讨了AI数据中心三大扩展策略——纵向扩展(Scale-up)、横向扩展(Scale-out)和跨数据中心扩展(Scale-across)。

以下内容编译自Semiconductor Engineering,点击“阅读原文”查看完整文章内容。

随着当今数据中心工作负载,尤其是 AI 和 HPC 工作负载,持续突破单机架或单个数据中心在物理空间、供电能力和架构上的限制,数据中心的扩展方式正日益受到重视。

纵向扩展(Scale-up)通常指单机架内的扩展;横向扩展(Scale-out)则是指同一数据中心内的跨机架扩展;当单个数据中心内可调度的资源仍不足时,才进一步走向跨数据中心扩展(Scale-across) 。

纵向扩展主要追求更低延迟,横向扩展则更关注抖动等网络传输波动。在跨数据中心扩展中,其面临的问题总体上更接近横向扩展,但由于长距离传输场景下对抖动和拥塞的处理方式会有所不同,因此通常被单独作为一类来讨论。

纵向扩展(Scale-up):

GPU集群对外表现得更像一个大型处理器

纵向扩展的核心思路是将计算资源(主要是GPU)汇聚在一起,让它们整体上像一个大型处理器那样工作,而不是一堆小型处理器的简单堆叠。

关键特征

首要优化指标是延迟;

采用内存语义——所有处理器看到统一的内存空间;

资源配置通常是静态的,在启动时完成;

在纵向扩展的短距离场景下,铜缆仍是可行选择;但当互连距离进一步拉长时,光互连将成为实现高速互连和大规模扩展的必要手段。

横向扩展(Scale-out):

从其他机架调动资源

关键特征

首要优化指标是报文传输抖动(packet jitter);

采用RDMA(远程直接内存访问)语义,而非内存语义;

资源会在计算过程中按需动态分配和释放;

在更长距离互连场景下,光互连正变得越来越关键。

在横向扩展场景中,以太网目前占据主导地位。NVIDIA也推出了面向AI分布式计算负载的以太网方案,以适配那些已经大规模部署了以太网基础设施的用户。

纵向扩展跨出单机架:

不同国家下的连接需求差异

作为一家全球化公司,曦智科技在不同国家观察到了各不相同的数据中心架构需求。公司高级产品战略副总裁Maurice Steinman在采访中分享了他的见解。

在中国,由于单节点 GPU 性能受限,为获得同等集群算力,Scale-up域可能需要扩展到两到三个机架。这意味着跨机架通信往往不再保持一跳(one-hop),而可能需要经过两级交换,但这是实现目标算力的必要折中。

在日本,情况类似,但原因不同:单机架可获得的功率预算提升较慢,机架供电能力受限。为了达到目标集群性能,往往需要部署更多机架。文章同时援引Peter Judge在Uptime Intelligence的信息称,日本正推进面向数据中心的新能效法规,预计将于 2026年4月起实施。

跨数据中心扩展(Scale-across):

当单个数据中心已无法满足目标规模需求

当单个数据中心在资源、功率或容量上已无法承载目标规模工作负载时,就需要把不同地理位置的数据中心连接起来,以支撑同一个工作负载跨数据中心运行。

跨数据中心扩展在机制上与横向扩展较为接近,但由于距离进一步拉长,拥塞处理所采用的算法和方法会发生变化。可以把它理解为更长距离下的横向扩展。

c582ef32-3a22-11f1-90a1-92fbcf53809c.png

不同数据中心,不同实现方式

每个 AI 数据中心都会采用这些扩展策略,但具体实现方式往往并不相同。

需要注意的是,这些描述针对的是当下的网络与数据中心实践,并不意味着这些定义是固定不变的。

受不同国家约束条件影响,纵向扩展与横向扩展之间的边界已经开始出现模糊;随着数据中心的持续演进,纵向扩展、横向扩展与跨数据中心扩展之间的边界也可能进一步模糊。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    18

    文章

    5756

    浏览量

    75195
  • AI
    AI
    +关注

    关注

    91

    文章

    40982

    浏览量

    302533
  • 曦智科技
    +关注

    关注

    0

    文章

    41

    浏览量

    8083

原文标题:你的AI集群该往哪扩?Scale-up、Scale-out还是Scale-across?

文章出处:【微信号:曦智科技,微信公众号:曦智科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    跳线架在数据中心的应用与优化策略

    数据中心作为信息时代的核心基础设施,其网络布线的复杂性和重要性不言而喻。跳线架作为数据中心网络布线中的关键组件,其应用和优化策略直接影响到数据中心的运行效率和稳定性。本文将
    的头像 发表于 04-02 10:56 165次阅读

    国产数据中心AI芯片企业一览

    具有国际竞争力的企业。包括华为昇腾、寒武纪、昆仑芯、中科海光、平头哥、摩尔线程、沐股份、天数智芯、燧原科技、壁仞科技、望、清微智能、瀚博半导体等,国产数据中心AI芯片展现出蓬勃生机
    的头像 发表于 02-09 09:07 1.1w次阅读

    1分钟带你了解数据中心供电架构 #电子元器件 #数据中心 #供电架构

    数据中心
    沛城芯动力
    发布于 :2026年02月03日 15:39:04

    数据中心发展的大驱动力

    、可靠的基础支持。相关部门明确了加快5G网络、大数据中心等新型基础设施建设进度, 数据中心发展的大驱动力 1、中国对于数据中心的政策支持 数据中心
    的头像 发表于 12-26 10:34 511次阅读

    人工智能数据中心的光纤布线策略

    随着人工智能(AI)技术的飞速发展,数据中心的光纤布线策略正面临前所未有的挑战和机遇。AI的高带宽需求、低延迟要求以及大规模并行计算的特点,对数据中
    的头像 发表于 11-21 10:21 580次阅读

    微软最新AI技术数据中心即将启用

    微软在美国威斯康星州 Mount Pleasant 建设的最新AI技术数据中心即将投入使用,预计 2026 年初正式启用。第二座同规模中心也在规划中,总投资将超过 70 亿美元。
    的头像 发表于 11-05 16:37 1087次阅读

    是德科技如何提升AI数据中心集群的可扩展

    全球范围内,一场高投入的竞赛正在展开:各国与各类企业不断扩建数据中心,以支撑其人工智能(AI)的发展。
    的头像 发表于 09-25 17:09 1207次阅读

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营

    [1]  利用搭载 DGX GB200 系统的 NVIDIA DGX SuperPOD[2] 数字孪生系统实现了库的重大扩展 。借助 NVIDIA 高性能加速计算平台的新模型,数据中心设计人员与操作
    的头像 发表于 09-15 15:19 1648次阅读

    华为数字能源亮相2025开放数据中心大会

    AI变革,点燃算网引擎”为主题,云集全球数据中心领域权威专家、头部企业代表、高校学者,聚焦算电协同、液冷、边缘计算等热门话题,深度探讨和分享智算产业新趋势、新技术和新业态,为产业高质量发展指明方向。
    的头像 发表于 09-11 13:50 1397次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    NVIDIA Quantum-2交换机等主流设备。 平滑扩展:与现有400G/100G设备无缝互通,降低数据中心升级成本。 多场景覆盖:从AI训练集群的“大象流”到AI推理的碎片化流量
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    华为面向拉美地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区发布全新升级的星河AI
    的头像 发表于 08-11 10:42 2560次阅读

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换数据,若带宽利用率低
    发表于 07-29 15:02

    简单认识安森美AI数据中心电源解决方案

    面对AI算力需求爆发式增长,数据中心电力系统正面临前所未有的挑战。安森美(onsemi)推出的AI数据中心电源解决方案,直击能效、尺寸等痛点,助力客户把握
    的头像 发表于 07-05 13:03 3725次阅读
    简单认识安森美<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>电源解决方案

    华为面向中东中亚地区发布全新星河AI数据中心网络

    联接、AI网元层网络架构,为企业构建智联满载算力,业务永续护航的数据中心网络,助力中东中亚地区网络基础设施升级与业务创新。
    的头像 发表于 05-21 15:49 1036次阅读