0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

重新思考 AI 时代的分布式计算

颖脉Imgtec 2025-07-31 14:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek的崛起,不仅因其巨大成就,更因其高效性而在AI行业引起了震动。虽然大家的关注重点大都放在DeepSeek仅花费了560万美元的训练成本,而OpenAI花费超过1亿美元,但其中更深层次的关注点在于这一效率突破揭示了传统分布式计算范式与AI工作负载独特需求之间的根本不匹配。

AI技术浪潮对基础设施选型带来了深层挑战:当前广泛部署的分布式计算架构本质上仍是为解决20世纪的大规模数据处理问题而设计,却承担着运行21世纪AI工作负载的重任。DeepSeek的突破性实践揭示了一个关键命题——业界需要从根本上重新思考如何实现AI的分布式计算,其影响将远远超出训练成本的范畴。


分布式计算与AI发展不匹配

传统的分布式计算是基于一些假设而设计的,而这些假设在人工智能时代已不复存在。不妨想想经典的 MapReduce 范式,它彻底改变了大数据处理:它擅长处理高度并行的问题,即数据可以清晰地分区,并且计算在很大程度上是独立的。然而,Transformer 架构展现出了截然不同的计算模式。

Transformer 训练在注意力计算过程中涉及密集的、all-to-all的通信模式。每个 token 都可能关注其他所有 token,从而产生随序列长度平方增长的通信需求。这与传统分布式系统处理良好的稀疏、分层通信模式截然相反。注意力机制的全局依赖性意味着,在传统分布式工作负载中行之有效的“分而治之”策略在AI中变得适得其反。

再看内存访问模式,问题更为严重。传统的分布式计算假设计算可以与数据共存,从而最大限度地减少网络流量——这是自集群计算早期以来一直指导系统设计的原则。但Transformer 架构需要在海量参数空间(有时甚至高达数千亿个参数)中频繁同步梯度更新。由此产生的通信开销可能会占据总训练时间的大部分,这也解释了为什么增加更多 GPU 往往会带来的收益递减,而非设计良好的分布式系统所预期的线性扩展。


DeepSeek 效率革命的经验教训

DeepSeek 的成就不仅在于其巧妙的算法,更在于其架构选择能够更好地契合 AI 工作负载的特性。其混合专家 (MoE) 方法通过使计算再次稀疏化,从根本上改变了分布式计算方程。MoE 架构并非要求每个 GPU 都处理所有参数,而是在每次计算中仅激活模型的子集,从而显著降低了通信需求。

更有趣的是,DeepSeek 强调“蒸馏”和强化学习,而非传统的监督微调,这表明它正在转向更高效的通信训练范式。与监督学习相比,基于奖励的强化学习可以比需要跨所有节点紧密同步标记训练数据的监督学习更自然地分布。但更深层次的教训并非关于具体的技术,而是关于如何将AI工作负载与分布式系统协同设计,而不是强迫AI工作负载适应现有的分布式计算模式。这代表着我们需要从根本上对分布式系统设计思维方式进行转变。


重新思考分布式人工智能系统:三个核心原则

如果从头开始为AI工作负载设计分布式计算,会是什么样子?总的来说可以归纳为以下三个原则:

1. 异步优先设计:传统参数服务器假设同步更新以保持一致性,这一原则借鉴自数据库系统,在数据库系统中,正确性至关重要。但AI训练本身对某些不一致性具有鲁棒性;即使梯度过时,模型也能收敛。采用有限异步可以显著降低通信开销,同时保持训练效率。这不仅仅关乎最终一致性,而是设计能够容忍并从受控不一致性中受益的系统。

2. 分层通信模式:AI 原生的分布式系统应该利用 Transformer 架构中自然的层级结构,而非扁平的all-to-all通信。层内注意力模式与跨层依赖关系不同,这为多层通信优化提供了机会。我们需要能够理解这些计算依赖关系并相应地优化通信的分布式系统。

3. 自适应资源分配:与资源需求可预测的传统工作负载不同,AI 训练表现出阶段依赖性行为。早期训练侧重于学习基本模式,对通信精度的要求低于后期的微调阶段。分布式系统应该在整个训练过程中调整其通信策略和资源分配,而不是将其视为静态工作负载。


基础设施投资悖论

业界目前应对 AI 扩展挑战的措施,例如 Stargate 宣布的 5000 亿美元基础设施投资,基本上都遵循着“大同小异”的策略:更大的 GPU 集群、更快的互连速度、更高的内存带宽。虽然有必要,但这种策略治标不治本,就像在高速公路上增加车道,却不解决交通信号灯的配时问题。

如果目前的趋势持续下去,AI训练可能会在几十年内消耗掉全球相当一部分电力。但能源消耗不仅仅取决于操作次数,它很大程度上受到数据移动的影响。在对节能分布式系统的研究过程中可以观察到,数据移动通常比计算本身消耗的能量高出几个数量级。更好的分布式计算架构可以最大限度地减少不必要的通信,从而实现大量的能源节约,使AI的发展更具可持续性。


跨层优化:尚未开发的前沿

最有前景的方法涉及跨层优化,而传统系统在维护抽象边界时会避免使用这种优化。例如,现代 GPU 支持混合精度计算,但分布式系统很少能够智能地利用这一能力。梯度更新可能不需要与前向传播相同的精度,这意味着精度感知通信协议有机会将带宽需求降低 50% 或更多。

同样,从谷歌的TPU到新兴的神经形态芯片,AI专用硬件的兴起也带来了新的分布式计算挑战。这些架构通常具有不统一的内存层次结构和专用互连,无法清晰地映射到传统的分布式计算抽象上。我们需要新的分布式系统设计,能够利用这些硬件特定的优化,同时保持可移植性。

31a4497c-6dd7-11f0-9080-92fbcf53809c.png

从传统的基于网格的分布式计算架构(左)到AI原生的流畅互连系统设计(右)的演变。可视化显示几何节点从僵化的层级模式演变为针对AI工作负载通信模式优化的自适应、密集连接的类神经架构。


展望:后 GPU 时代

或许最重要的是,我们目前以 GPU 为中心的 AI 基础设施观念可能只是暂时的。随着我们越来越接近摩尔定律和登纳德缩放定律的极限,未来很可能属于专用的异构计算架构。量子-经典混合系统、神经形态处理器光学计算平台将需要全新的分布式计算范式。

在这个过渡中成功的组织将不是那些拥有最多GPU的组织,而是那些最理解如何为AI工作负载编排复杂的、异构的分布式系统的组织。DeepSeek的效率突破只是一个开始,它表明,架构创新并非仅仅是原始计算能力,仍然是AI进步的关键。

随着AI行业日趋成熟,超越了当前“投入更多计算”的阶段,分布式系统的基本原则——一致性、可用性、分区容错性和效率,将决定哪些方法能够持续发展。未来的道路需要我们摒弃对传统分布式计算模式的执着,拥抱专为 AI 工作负载优化的设计。这不仅仅是一个优化问题,更是对如何为 AI 优先的世界构建分布式系统的根本性反思。

*本文转自SDNLAB,编译自 CACM Blog,作者:Akshay Mittal。

原文链接:https://cacm.acm.org/blogcacm/rethinking-distributed-computing-for-the-ai-era/


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38085

    浏览量

    296335
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2799
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    剖析AI分布式KVM系统的革新意义

    AI技术的深度融合,不仅解决了传统系统在复杂场景下的效率瓶颈,更通过数据驱动、场景感知与自主决策能力,重构了人机协作的底层逻辑。本文将从技术演进、行业痛点、应用价值三个维度,剖析AI分布式KVM系统的革新意义。
    的头像 发表于 11-11 11:28 618次阅读

    【节能学院】Acrel-1000DP分布式光伏监控系统在奉贤平高食品 4.4MW 分布式光伏中应用

    摘要:在“双碳”和新型电力系统建设背景下,分布式光伏接入比例不断提高,对配电网电压、调度运行及调峰等环节造成强烈冲击。本文设计包含平台层、设备层二层架构体系的分布式光伏管控平台,以及小容量工商业
    的头像 发表于 08-23 08:04 3300次阅读
    【节能学院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏监控系统在奉贤平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中应用

    分布式光伏发电监测系统技术方案

    分布式光伏发电监测系统技术方案 柏峰【BF-GFQX】一、系统目标 :分布式光伏发电监测系统旨在通过智能化的监测手段,实现对分布式光伏电站的全方位、高精度、实时化管理。该系统能
    的头像 发表于 08-22 10:51 2878次阅读
    <b class='flag-5'>分布式</b>光伏发电监测系统技术方案

    一键部署无损网络:EasyRoCE助力分布式存储效能革命

    分布式存储的性能瓶颈往往在于网络。如何构建一个高带宽、超低时延、零丢包的无损网络,是释放分布式存储全部潜力、赋能企业关键业务(如实时数据库、AI训练、高性能计算)的关键挑战。
    的头像 发表于 08-04 11:34 1334次阅读
    一键部署无损网络:EasyRoCE助力<b class='flag-5'>分布式</b>存储效能革命

    Ceph分布式存储系统解析

    在当今数据爆炸的时代,企业对存储系统的需求日益增长,传统的集中式存储已经无法满足大规模数据处理的要求。分布式存储系统应运而生,而Ceph作为开源分布式存储系统的佼佼者,以其高可用性、高扩展性和统一存储架构赢得了众多企业的青睐。
    的头像 发表于 07-14 11:15 709次阅读

    讯维AI分布式控制系统的核心优势和应用场景

    在数字化转型的浪潮中,音视频技术正从传统的信号传输工具进化为智能交互的核心载体。讯维AI分布式可视化控制系统通过深度融合AI技术与分布式架构,构建了"去中心化节点+
    的头像 发表于 05-26 15:12 896次阅读

    曙光存储领跑中国分布式存储市场

    近日,赛迪顾问发布《中国分布式存储市场研究报告(2025)》,指出2024 年中国分布式存储市场首次超过集中式存储,规模达 198.2 亿元,增速 43.7%。
    的头像 发表于 05-19 16:50 1006次阅读

    讯维AI分布式系统的十大优势

    在数字化转型浪潮中,音视频技术正从传统的信号传输工具演变为智能交互的核心载体。讯维AI分布式系统通过与AI技术的深度融合,构建了"去中心化架构+AI智能引擎"的创新体系,实现了音视频信
    的头像 发表于 04-15 14:53 1034次阅读

    使用VirtualLab Fusion中分布式计算的AR波导测试图像模拟

    计算时间超过31小时。通过使用一个由8个多核PC组成的网络,提供35个客户端分布式计算,将模拟时间减少到1小时5分钟。基本模拟任务基本任务集合:FOV使用分布式
    发表于 04-10 08:48

    适用于数据中心和AI时代的800G网络

    和性能隔离能力,以保障不同用户任务互不干扰。 分布式AI计算与网络架构设计 分布式计算已成为A
    发表于 03-25 17:35

    分布式光伏如何实现防逆流?

    分布式光伏如何实现防逆流
    的头像 发表于 03-24 13:31 589次阅读
    <b class='flag-5'>分布式</b>光伏如何实现防逆流?

    VirtualLab Fusion应用:基于分布式计算的AR光波导中测试图像的仿真

    (10201次模拟):大约43小时。 模拟结果:不同视场角的辐射通量*。 *注: 21个×21个方向的结果存储在参数连续变化的光栅的查找表中。 使用分布式计算 参数运行用于改变当前视场模式的角度,这
    发表于 02-19 08:51

    分布式云化数据库有哪些类型

    分布式云化数据库有哪些类型?分布式云化数据库主要类型包括:关系型分布式数据库、非关系型分布式数据库、新SQL分布式数据库、以列方式存储数据、
    的头像 发表于 01-15 09:43 863次阅读

    基于ptp的分布式系统设计

    在现代分布式系统中,精确的时间同步对于确保数据一致性、系统稳定性和性能至关重要。PTP(Precision Time Protocol)是一种网络协议,用于在分布式系统中实现高精度的时间同步
    的头像 发表于 12-29 10:09 961次阅读

    HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据权限与基础数据

    使用分布式数据对象迁移数据,当需要迁移的数据较大(100KB以上)或需要迁移文件时,可以使用分布式数据对象。原理与接口说明详见分布式数据对象跨设备数据同步。 说明:自API 12起,由于直接使用跨
    发表于 12-24 09:40