0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GTC 2023|Colossal-AI系统的数据并行优化方案

西西 来源:GTC 2023 作者:GTC 2023 2023-03-23 17:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Colossal-AI的改变:

从Colossal-AI的GitHub star数量中看出,这是衡量其开源社区的指标。与其它非常流行的开源系统(如Spark、 MongoDB等)相比,在相同时间内Colossal-AI使用增长速度是最快的。

世界上37个国家的用户正在使用Colossal-AI,还有各种其他人工智能生态系统使用Colsssal-AI。

Colsssal-AI的重要功能——N-Dim并行系统

这可以将你的复杂模型可用硬件上,以便最大化使用并行同时最小化通信

Colsssal-AI提供了完整的并行方法,包括数据并行、张量并行、流水线并行和序列并行,同时还有团队提出的2维、2.5维和3维张量并行以及序列并行。

其中优化了数据并行,可以让你以最小的损失在相当大的规换下训练模型。

大规模优化器如何优化数据并行

与单个GPU训练相比数据并行训练将整个数据集分为几个分区。

每个GPU拥有1个数据集分区,模型在每个GPU上复制,开在其本地数据集分区进行训练,在反向传播期间计算的梯度,被平均并用于更新模型副本,可以确保在不同GPU之间同步模型。

然而,简单的增加批次大小,通常会导致泛化性能下降并降低计算精度。为了解决这些问题,研究出一种新的方法,可扩展的大规模优化器LARS和LAMB,适合大批量设置。

在ViT模型和ImageNet数据集上对可扩展的大规模优化器LARS和LAMB进行理论分析。他们可最大程度使用GPU资源,将ViT-B/32的训练时间从一个GPU的73小时减少到200个GPU的0.68小时,并实现几乎线性增加的加速度,并保证收敛。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5266

    浏览量

    136041
  • 英伟达
    +关注

    关注

    23

    文章

    4113

    浏览量

    99600
  • 深度学习
    +关注

    关注

    73

    文章

    5604

    浏览量

    124610
  • gtc
    gtc
    +关注

    关注

    0

    文章

    75

    浏览量

    4775
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    寻找对RISCV众核并行计算感兴趣的伙伴、朋友

    和旗语等方式。 二、此方案适用于RISCV+AI;低功耗、低延迟、高并发场合;硬件仿真加速芯片方案,可以并行运行verilog的initial/always进程;以及其它
    发表于 03-28 14:41

    寻找对RISCV众核并行计算感兴趣的伙伴

    和旗语等方式。 二、此方案适用于RISCV+AI;低功耗、低延迟、高并发场合;硬件仿真加速芯片方案,可以并行运行verilog的initial/always进程;以及其它
    发表于 03-28 14:37

    达索系统于NVIDIA GTC 2026展示AI驱动的虚拟孪生

    达索系统继日前在面向设计和工程社区的年度盛会3DEXPERIENCE World上宣布与NVIDIA达成长期战略合作后,于3月16日至19日正式亮相在美国加利福尼亚州圣何塞举行的NVIDIA GTC 2026大会,全面展示双方携手打造工业
    的头像 发表于 03-26 12:48 326次阅读

    是德科技推出全新AI推理仿真平台

    NVIDIA GTC大会上展示该解决方案,并演示其在NVIDIA DSX Air AI工厂仿真环境中的运行情况,实现对AI数据中心的基础设施
    的头像 发表于 03-20 17:27 803次阅读
    是德科技推出全新<b class='flag-5'>AI</b>推理仿真平台

    宜鼎亮相英伟达GTC 2026:智能医疗、智能车载两大亮点,展现技术整合与AI落地实力

    全球边缘AI解决方案领先品牌宜鼎国际(Innodisk)今年受邀出席在美国圣何塞(San Jose)举办的英伟达(NVIDIA)GTC 2026大会。
    的头像 发表于 03-19 16:31 245次阅读

    安森美重磅亮相NVIDIA GTC 2026

    )在此次盛会上,展示了智能电源产品组合如何支持 800V 汽车平台和下一代 AI 数据中心架构,以及先进的智能感知方案如何赋能汽车智能驾驶。
    的头像 发表于 03-19 15:16 587次阅读
    安森美重磅亮相NVIDIA <b class='flag-5'>GTC</b> 2026

    研华科技受邀亮相NVIDIA GTC 2026

    研华科技受邀亮相NVIDIA GTC 2026,展示与 NVIDIA 生态系的深度合作成果,通过整合硬件平台、软件框架与产业应用解决方案,加速 Physical AI 在各产业的应用落地。
    的头像 发表于 03-18 15:00 619次阅读

    益登科技携手生态伙伴亮相NVIDIA GTC 2026

    今年,益登科技是第三度参与NVIDIA GTC,这次以“From AI to Action: Physical AI in Motion”为主题,携手生态系伙伴展示AI运算平台、关键元
    的头像 发表于 03-17 17:04 886次阅读
    益登科技携手生态伙伴亮相NVIDIA <b class='flag-5'>GTC</b> 2026

    慧荣科技于Embedded World 2026展示AI优化的启动存储与企业级解决方案

    的启动存储(Boot Storage)解决方案。与会者可前往1号馆385号展位,了解其面向工业、嵌入式、汽车及数据中心应用的启动存储和主控芯片解决方案。 为工业和数据中心平台打造的可靠
    的头像 发表于 03-11 14:09 254次阅读
    慧荣科技于Embedded World 2026展示<b class='flag-5'>AI</b><b class='flag-5'>优化</b>的启动存储与企业级解决<b class='flag-5'>方案</b>

    一文看懂AI大模型的并行训练方式(DP、PP、TP、EP)

    大家都知道,AI计算(尤其是模型训练和推理),主要以并行计算为主。AI计算中涉及到的很多具体算法(例如矩阵相乘、卷积、循环层、梯度运算等),都需要基于成千上万的GPU,以并行任务的方式
    的头像 发表于 11-28 08:33 2057次阅读
    一文看懂<b class='flag-5'>AI</b>大模型的<b class='flag-5'>并行</b>训练方式(DP、PP、TP、EP)

    RK3576驱动高端显控系统升级:多屏拼控与AI视觉融合解决方案

    在数字化工业与城市管理领域,高端显控系统是连接设备、数据与决策的关键核心。智慧工厂中控大厅、交通调度指挥中心、能源与安防监控平台等场景,均需同时处理多路高清视频、AI 识别结果及远程交互指令。传统
    发表于 11-21 17:51

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    灵感的过程中发挥关键作用。五、用AI实现诺贝尔奖级别的科学发现 这想法这能够大胆的。 1、AI科学家的构建 全自主科学实验室需要哪些部分: ①自动实验设备 ②流程管理系统数据处理和
    发表于 09-17 11:45

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    任务。这套系统为艺术市场、教育行业和内容平台提供了一种实用的工具,有效应对AI生成内容带来的挑战。虽然有些识别会出错,但是还是值得继续优化以及探讨方案的可行性。
    发表于 08-21 13:59

    AI 芯片浪潮下,职场晋升新契机?

    、新架构不断涌现。能够在工作中提出创新性的解决方案,推动 AI 芯片性能、功耗、成本等关键指标的优化,将极大提升在职称评审中的竞争力。例如,在芯片设计中引入新的计算范式,如存算一体技术,有效解决传统冯・诺
    发表于 08-19 08:58

    边缘AI广泛应用推动并行计算崛起及创新GPU渗透率快速提升

    是时候重新教育整个生态了。边缘AI的未来不属于那些高度优化但功能狭窄的芯片,而是属于可编程的、可适配的并行计算平台,它们能与智能软件共同成长并扩展。
    的头像 发表于 06-11 14:57 748次阅读