0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

蚂蚁集团AI研发部门开源AI Infra技术,助力大模型训练效率提升

CHANBAEK 来源:网络整理 2024-02-04 10:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

蚂蚁集团AI创新研发部门NextEvo近日宣布,他们将全面开源AI Infra技术,以推动AI研发效率的提升。该技术框架名为DLRover,目标在于实现大规模分布式训练的智能化。

DLRover技术能够帮助大模型千卡训练实现高效运行,有效时间占比超过95%。这意味着在训练过程中,大部分时间都能够得到充分利用,而不是浪费在无谓的操作上。通过实现训练时的“自动驾驶”,该技术能够显著提高AI研发的效率。

为了进一步提高大模型训练的效率和稳定性,NextEvo团队还对DLRover进行了持续的优化和完善。最新集成进DLRover的是Flash Checkpoint(FCP)方案。在模型训练过程中,通常需要打Checkpoint以便在中断时能够恢复到最近的状态。然而,常规的Checkpoint做法存在一些缺点,如耗时长、高频打点易降低训练可用时间、低频打点恢复时丢失过多等。

针对这些问题,FCP方案进行了优化。通过应用FCP方案,在千卡千亿参数模型训练中,Checkpoint导致的训练浪费时间降低了约5倍。此外,持久化时间降低了约70倍,有效训练时间从90%提升至95%。这一改进显著提高了模型训练的效率和稳定性,进一步推动了AI技术的发展。

蚂蚁集团开源DLRover技术的举措将为AI研发领域带来积极的影响。通过分享和交流,这一技术有望成为推动AI领域发展的重要力量。我们期待看到更多基于DLRover技术的创新应用和突破性成果,为人工智能的发展做出更大的贡献。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40926

    浏览量

    302511
  • 开源
    +关注

    关注

    3

    文章

    4324

    浏览量

    46427
  • 蚂蚁集团
    +关注

    关注

    0

    文章

    108

    浏览量

    4701
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型微调企业项目实战课

    API,无异于将企业命脉交由他人掌控。一旦面临网络封锁、服务停机或协议条款变更,企业的智能化进程将瞬间瘫痪。因此,将开源基础大模型“请回自家机房”,通过微调技术注入企业独有的“灵魂”,打造一个懂行
    发表于 04-16 18:48

    使用NORDIC AI的好处

    提升能效,适合音频、图像和高采样率传感器等更重的 AI 负载。[Axon NPU 技术页] 模型更小、更快、更省电 Neuton 模型
    发表于 01-31 23:16

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI芯片的实现 1、
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    持续发展体现在: 1、收益递减 大模型的基础的需要极大的算力,这首先源于昂贵的高性能AI芯片,然后是宝贵的电力、水等与环境相关的资源。 收益递减体现在: ①模型大小 ②训练数据量 ③
    发表于 09-14 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    ,显著提高Transformer 模型训练速度。 为了优化计算和存储效率,Transformer 引擎使用张量统计得出的扩展因子,动态的将张量数据扩展到可表示的范围内。这种方法确保了在保持必要精度
    发表于 09-12 17:30

    AI 芯片浪潮下,职场晋升新契机?

    依曼架构下数据搬运瓶颈问题,降低功耗,提升运算效率,这种创新性成果在职称评审中会备受青睐。 用项目经验为职称申报添彩 实际项目经验是职称评审中最有力的证明材料。在参与 AI 芯片研发
    发表于 08-19 08:58

    睿海光电800G光模块助力全球AI基建升级

    18%。 智算中心建设:与国内AI独角兽合作,提供支持液冷散热的800G模块集群,助力其大模型训练效率
    发表于 08-13 19:05

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    ,推理任务响应延迟降低30%,多租户带宽隔离效率提升25%。 亚洲头部智算中心:采用睿海定制化液冷光模块,GPU集群训练效率提升18%,
    发表于 08-13 19:01

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    摩尔线程“AI工厂”:五大核心技术支撑,打造大模型训练超级工厂

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI
    的头像 发表于 07-28 11:28 4824次阅读
    摩尔线程“<b class='flag-5'>AI</b>工厂”:五大核心<b class='flag-5'>技术</b>支撑,打造大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>超级工厂

    声智科技与蚂蚁集团共探声学AI前沿技术

    当声学AI遇上金融科技,会碰撞出怎样的火花?当声学AI模型赋能AI硬件产品,又将如何重塑人机交互的边界?近日,声智科技受邀参加蚂蚁
    的头像 发表于 07-24 10:18 1163次阅读

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    实践。 为开源项目贡献代码或者文档。比如,帮助完善一个机器学习数据集的加载模块的代码,或者撰写某个AI算法的使用说明文档。这不仅可以提升自己的技术能力,还能在
    发表于 07-08 17:44

    全球各大品牌利用NVIDIA AI技术提升运营效率

    欧莱雅、LVMH 集团和雀巢利用 NVIDIA 加速的智能体 AI 和物理 AI,大幅提升产品设计、营销及物流等方面的运营效率
    的头像 发表于 06-19 14:36 1338次阅读

    海思SD3403边缘计算AI数据训练概述

    模型,将模型转化为嵌入式AI模型模型升级AI摄像机,进行
    发表于 04-28 11:11