0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

重新思考 AI 时代的分布式计算

颖脉Imgtec 2025-07-31 14:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek的崛起,不仅因其巨大成就,更因其高效性而在AI行业引起了震动。虽然大家的关注重点大都放在DeepSeek仅花费了560万美元的训练成本,而OpenAI花费超过1亿美元,但其中更深层次的关注点在于这一效率突破揭示了传统分布式计算范式与AI工作负载独特需求之间的根本不匹配。

AI技术浪潮对基础设施选型带来了深层挑战:当前广泛部署的分布式计算架构本质上仍是为解决20世纪的大规模数据处理问题而设计,却承担着运行21世纪AI工作负载的重任。DeepSeek的突破性实践揭示了一个关键命题——业界需要从根本上重新思考如何实现AI的分布式计算,其影响将远远超出训练成本的范畴。


分布式计算与AI发展不匹配

传统的分布式计算是基于一些假设而设计的,而这些假设在人工智能时代已不复存在。不妨想想经典的 MapReduce 范式,它彻底改变了大数据处理:它擅长处理高度并行的问题,即数据可以清晰地分区,并且计算在很大程度上是独立的。然而,Transformer 架构展现出了截然不同的计算模式。

Transformer 训练在注意力计算过程中涉及密集的、all-to-all的通信模式。每个 token 都可能关注其他所有 token,从而产生随序列长度平方增长的通信需求。这与传统分布式系统处理良好的稀疏、分层通信模式截然相反。注意力机制的全局依赖性意味着,在传统分布式工作负载中行之有效的“分而治之”策略在AI中变得适得其反。

再看内存访问模式,问题更为严重。传统的分布式计算假设计算可以与数据共存,从而最大限度地减少网络流量——这是自集群计算早期以来一直指导系统设计的原则。但Transformer 架构需要在海量参数空间(有时甚至高达数千亿个参数)中频繁同步梯度更新。由此产生的通信开销可能会占据总训练时间的大部分,这也解释了为什么增加更多 GPU 往往会带来的收益递减,而非设计良好的分布式系统所预期的线性扩展。


DeepSeek 效率革命的经验教训

DeepSeek 的成就不仅在于其巧妙的算法,更在于其架构选择能够更好地契合 AI 工作负载的特性。其混合专家 (MoE) 方法通过使计算再次稀疏化,从根本上改变了分布式计算方程。MoE 架构并非要求每个 GPU 都处理所有参数,而是在每次计算中仅激活模型的子集,从而显著降低了通信需求。

更有趣的是,DeepSeek 强调“蒸馏”和强化学习,而非传统的监督微调,这表明它正在转向更高效的通信训练范式。与监督学习相比,基于奖励的强化学习可以比需要跨所有节点紧密同步标记训练数据的监督学习更自然地分布。但更深层次的教训并非关于具体的技术,而是关于如何将AI工作负载与分布式系统协同设计,而不是强迫AI工作负载适应现有的分布式计算模式。这代表着我们需要从根本上对分布式系统设计思维方式进行转变。


重新思考分布式人工智能系统:三个核心原则

如果从头开始为AI工作负载设计分布式计算,会是什么样子?总的来说可以归纳为以下三个原则:

1. 异步优先设计:传统参数服务器假设同步更新以保持一致性,这一原则借鉴自数据库系统,在数据库系统中,正确性至关重要。但AI训练本身对某些不一致性具有鲁棒性;即使梯度过时,模型也能收敛。采用有限异步可以显著降低通信开销,同时保持训练效率。这不仅仅关乎最终一致性,而是设计能够容忍并从受控不一致性中受益的系统。

2. 分层通信模式:AI 原生的分布式系统应该利用 Transformer 架构中自然的层级结构,而非扁平的all-to-all通信。层内注意力模式与跨层依赖关系不同,这为多层通信优化提供了机会。我们需要能够理解这些计算依赖关系并相应地优化通信的分布式系统。

3. 自适应资源分配:与资源需求可预测的传统工作负载不同,AI 训练表现出阶段依赖性行为。早期训练侧重于学习基本模式,对通信精度的要求低于后期的微调阶段。分布式系统应该在整个训练过程中调整其通信策略和资源分配,而不是将其视为静态工作负载。


基础设施投资悖论

业界目前应对 AI 扩展挑战的措施,例如 Stargate 宣布的 5000 亿美元基础设施投资,基本上都遵循着“大同小异”的策略:更大的 GPU 集群、更快的互连速度、更高的内存带宽。虽然有必要,但这种策略治标不治本,就像在高速公路上增加车道,却不解决交通信号灯的配时问题。

如果目前的趋势持续下去,AI训练可能会在几十年内消耗掉全球相当一部分电力。但能源消耗不仅仅取决于操作次数,它很大程度上受到数据移动的影响。在对节能分布式系统的研究过程中可以观察到,数据移动通常比计算本身消耗的能量高出几个数量级。更好的分布式计算架构可以最大限度地减少不必要的通信,从而实现大量的能源节约,使AI的发展更具可持续性。


跨层优化:尚未开发的前沿

最有前景的方法涉及跨层优化,而传统系统在维护抽象边界时会避免使用这种优化。例如,现代 GPU 支持混合精度计算,但分布式系统很少能够智能地利用这一能力。梯度更新可能不需要与前向传播相同的精度,这意味着精度感知通信协议有机会将带宽需求降低 50% 或更多。

同样,从谷歌的TPU到新兴的神经形态芯片,AI专用硬件的兴起也带来了新的分布式计算挑战。这些架构通常具有不统一的内存层次结构和专用互连,无法清晰地映射到传统的分布式计算抽象上。我们需要新的分布式系统设计,能够利用这些硬件特定的优化,同时保持可移植性。

31a4497c-6dd7-11f0-9080-92fbcf53809c.png

从传统的基于网格的分布式计算架构(左)到AI原生的流畅互连系统设计(右)的演变。可视化显示几何节点从僵化的层级模式演变为针对AI工作负载通信模式优化的自适应、密集连接的类神经架构。


展望:后 GPU 时代

或许最重要的是,我们目前以 GPU 为中心的 AI 基础设施观念可能只是暂时的。随着我们越来越接近摩尔定律和登纳德缩放定律的极限,未来很可能属于专用的异构计算架构。量子-经典混合系统、神经形态处理器光学计算平台将需要全新的分布式计算范式。

在这个过渡中成功的组织将不是那些拥有最多GPU的组织,而是那些最理解如何为AI工作负载编排复杂的、异构的分布式系统的组织。DeepSeek的效率突破只是一个开始,它表明,架构创新并非仅仅是原始计算能力,仍然是AI进步的关键。

随着AI行业日趋成熟,超越了当前“投入更多计算”的阶段,分布式系统的基本原则——一致性、可用性、分区容错性和效率,将决定哪些方法能够持续发展。未来的道路需要我们摒弃对传统分布式计算模式的执着,拥抱专为 AI 工作负载优化的设计。这不仅仅是一个优化问题,更是对如何为 AI 优先的世界构建分布式系统的根本性反思。

*本文转自SDNLAB,编译自 CACM Blog,作者:Akshay Mittal。

原文链接:https://cacm.acm.org/blogcacm/rethinking-distributed-computing-for-the-ai-era/


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41284

    浏览量

    302658
  • DeepSeek
    +关注

    关注

    2

    文章

    854

    浏览量

    3408
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2022全新版!Java分布式架构设计与开发实战(完结)

    2022全新版!Java分布式架构设计与开发实战(完结) 分库分表实战:Java海量数据存储架构设计 在现代互联网应用中,随着业务规模的指数级增长,数据库性能瓶颈已成为制约系统发展的关键因素。当单
    发表于 03-30 15:20

    分布式能源管理物联网解决方案

    分布式能源系统(如光伏电站、储能电站等)具有设备多样、分布较广、数据量大等特点,传统人工抄表或本地监控模式存在数据滞后、管理低效、优化困难等问题。物通博联(WideIOT)结合边缘计算与云端协同技术
    的头像 发表于 01-21 11:39 479次阅读
    <b class='flag-5'>分布式</b>能源管理物联网解决方案

    剖析AI分布式KVM系统的革新意义

    AI技术的深度融合,不仅解决了传统系统在复杂场景下的效率瓶颈,更通过数据驱动、场景感知与自主决策能力,重构了人机协作的底层逻辑。本文将从技术演进、行业痛点、应用价值三个维度,剖析AI分布式KVM系统的革新意义。
    的头像 发表于 11-11 11:28 1044次阅读

    如何解决分布式光伏计量难题?

    分布式光伏成增长主力 据《2025-2030年中国分布式光伏行业市场前景预测及未来发展趋势研究报告》显示,2024年中国分布式光伏新增装机118.18GW,同比增长23%,占光伏新增装机总量的43
    的头像 发表于 11-07 14:55 425次阅读
    如何解决<b class='flag-5'>分布式</b>光伏计量难题?

    全新分布式智慧投屏终端开启智慧教学新时代

    全新分布式智慧教室系统的核心设备是分布式智慧投屏终端,集无线投屏、白板书写、多机联动、信息发布于一体,为老师学生分组投屏、互动分享提供多屏协作解决方案。智能书写功能与方案中多屏互动相辅相成,可随时以多视窗方式…
    的头像 发表于 09-19 11:35 970次阅读
    全新<b class='flag-5'>分布式</b>智慧投屏终端开启智慧教学新<b class='flag-5'>时代</b>!

    【节能学院】Acrel-1000DP分布式光伏监控系统在奉贤平高食品 4.4MW 分布式光伏中应用

    摘要:在“双碳”和新型电力系统建设背景下,分布式光伏接入比例不断提高,对配电网电压、调度运行及调峰等环节造成强烈冲击。本文设计包含平台层、设备层二层架构体系的分布式光伏管控平台,以及小容量工商业
    的头像 发表于 08-23 08:04 3668次阅读
    【节能学院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏监控系统在奉贤平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中应用

    分布式光伏发电监测系统技术方案

    分布式光伏发电监测系统技术方案 柏峰【BF-GFQX】一、系统目标 :分布式光伏发电监测系统旨在通过智能化的监测手段,实现对分布式光伏电站的全方位、高精度、实时化管理。该系统能
    的头像 发表于 08-22 10:51 3484次阅读
    <b class='flag-5'>分布式</b>光伏发电监测系统技术方案

    AcrelCloud-1200 分布式光伏运维云平台 用于居民屋顶光伏发电

    摘要:在当今追求绿色可持续发展的时代,越来越多的企业选择部署分布式光伏系统,既响应环保号召,又能降低用电成本。然而,随着分布式光伏项目规模的不断扩大,企业在运维管理方面面临着诸多难题。如何管理
    的头像 发表于 08-05 10:48 1181次阅读
    AcrelCloud-1200 <b class='flag-5'>分布式</b>光伏运维云平台 用于居民屋顶光伏发电

    一键部署无损网络:EasyRoCE助力分布式存储效能革命

    分布式存储的性能瓶颈往往在于网络。如何构建一个高带宽、超低时延、零丢包的无损网络,是释放分布式存储全部潜力、赋能企业关键业务(如实时数据库、AI训练、高性能计算)的关键挑战。
    的头像 发表于 08-04 11:34 1823次阅读
    一键部署无损网络:EasyRoCE助力<b class='flag-5'>分布式</b>存储效能革命

    分布式光伏总出问题?安科瑞分布式光伏监控系统来“救场”

    一、分布式光伏的痛点大揭秘 在 “双碳” 目标的大力推动下,分布式光伏作为绿色能源领域的重要力量,正以前所未有的速度蓬勃发展,越来越多的企业和家庭选择安装分布式光伏系统。然而,随着分布式
    的头像 发表于 07-16 16:50 967次阅读
    <b class='flag-5'>分布式</b>光伏总出问题?安科瑞<b class='flag-5'>分布式</b>光伏监控系统来“救场”

    Ceph分布式存储系统解析

    在当今数据爆炸的时代,企业对存储系统的需求日益增长,传统的集中式存储已经无法满足大规模数据处理的要求。分布式存储系统应运而生,而Ceph作为开源分布式存储系统的佼佼者,以其高可用性、高扩展性和统一存储架构赢得了众多企业的青睐。
    的头像 发表于 07-14 11:15 1235次阅读

    双电机分布式驱动汽车高速稳定性机电耦合控制

    摘要:为了利用所设计的双电机防滑差速驱动系统来提高分布式驱动汽车的动力学性能,在前期同轴耦合驱动控制理论研究的基础上,开展该车的高速稳定性机电耦合控制研究。建立并验证包含所设计驱动系统在内的分布式
    发表于 06-18 16:37

    讯维AI分布式控制系统的核心优势和应用场景

    在数字化转型的浪潮中,音视频技术正从传统的信号传输工具进化为智能交互的核心载体。讯维AI分布式可视化控制系统通过深度融合AI技术与分布式架构,构建了"去中心化节点+
    的头像 发表于 05-26 15:12 1274次阅读

    曙光存储领跑中国分布式存储市场

    近日,赛迪顾问发布《中国分布式存储市场研究报告(2025)》,指出2024 年中国分布式存储市场首次超过集中式存储,规模达 198.2 亿元,增速 43.7%。
    的头像 发表于 05-19 16:50 1458次阅读

    分布式光伏电力问题层出不穷?安科瑞分布式光伏运维系统来“救场”

    一、分布式光伏电力运维,痛点大揭秘​ ​ 分布式光伏作为实现绿色能源转型的关键一环,近年来在我国得到了迅猛发展。国家能源局数据显示,截至 2023 年底,中国分布式光伏电站累计并网容量约为 2.5
    的头像 发表于 05-07 17:14 1098次阅读
    <b class='flag-5'>分布式</b>光伏电力问题层出不穷?安科瑞<b class='flag-5'>分布式</b>光伏运维系统来“救场”