0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚

天数智芯 来源:未知 2023-11-30 13:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1129日,北京智源人工智能研究院副院长兼总工程师林咏华在2023人工智能计算大会上宣布,正式开源700亿参数大模型Aquila2-70B-Expr(异构先驱版),这是首个基于英伟达混合资源及天数智芯混合资源完成训练的大模型,也是智源研究院与天数智芯合作取得的最新成果,再次证明了天数智芯通用GPU产品支持大模型训练的能力,以及与主流产品的兼容能力。wKgaomVoGlaAU6VuAADdsa8E_Yk828.jpg据林咏华副院长介绍,为了解决异构算力混合训练难题,智源研究院开发了高效并行训练框架FlagScale,支持异构算力混合训练,并在10月开源了FlagScale v0.1版本。此次基于FlagScale v0.2分别在英伟达混合资源(A100集群+A800集群)、天数智芯混合资源(BI-V100集群+BI-V150集群)完成了Aquila2-70B-Expr大模型训练工作。

wKgaomVoGlaAM9NnAAGPG4g0hWQ725.jpg天数智芯在今年上半年搭建了天垓100BI-V100)算力集群支持智源研究院开展70亿参数大模型训练。在此基础上,双方进一步深化合作。天数智芯首先搭建了128节点的BI-V100集群环境,支持智源研究院开展Aquila2-70B-Expr完整训练。训练到20万步,导出模型并完成总计11项性能指标的评估,涉及常识推断、多任务语言理解、真实性回答等场景,将基线实验和对比实验送到真实数据集上进行评测,计算差异在0.28%在精度上与国际主流集群训练的权重文件水平相当。同时,天数智芯基于新一代产品天垓150BI-V150)搭建了16节点集群环境,用于智源研究院混合并行训练研究。智源研究院利用120节点BI-V100集群加上8节点BI-V150集群进行Aquila2-70B-Expr大模型混合训练,混合集群性能达到上界(理想合池理论峰值)的85.3%测试结果显示,在天数智芯产品上异构训练,对模型性能影响甚微。

这一成果极具商业价值和应用前景,有助于解决智算中心换代升级、增容后新旧计算卡并用难题,为智算中心高效运行提供了新方案。 wKgaomVoGlaAJ-_XAAAlV2YGdhE627.gifEND


原文标题:天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚

文章出处:【微信公众号:天数智芯】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 天数智芯
    +关注

    关注

    0

    文章

    100

    浏览量

    6501

原文标题:天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚

文章出处:【微信号:IluvatarCoreX,微信公众号:天数智芯】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    科技:AI突破,新型堆叠EDA工具持续进化

    无法满足AI芯片对于异构集成的需求。日前,珠海硅科技有限公司创始人兼首席科学家赵毅博士在2025湾展上接受媒体采访,分享了AI
    的头像 发表于 10-31 09:16 1.2w次阅读
    硅<b class='flag-5'>芯</b>科技:AI<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>突破</b>,新型堆叠EDA工具持续进化

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时扛住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。 但疑惑也有:这种
    发表于 10-27 13:12

    与电力的终极博弈,填上了AIDC的“电力黑洞”

    ),专注于提供人工智能训练与推理所需的服务、数据服务和算法服务。AIDC采用异构计算架构,结合GPU、FPGA、ASIC等多种AI加速芯片,形成高并发分布式系统,以满足大
    的头像 发表于 09-22 02:43 7375次阅读

    华为联合中国移动研究院发布“路由AI推理及视联网应用样板”

    2025年8月20日;在第九届未来网络发展大会期间,华为联合中国移动研究院发布“路由AI推理及视联网应用样板”,标志着网络在商用探索
    的头像 发表于 08-25 19:23 1017次阅读

    商汤大装置发布基于DeepLink的异构混合调度方案

    调度复杂、跨域训练稳定性不足等行业挑战,全面提升异构集群的协同效率与运行可靠性,加速国产AI从“可用”迈向“好用”,为大模型
    的头像 发表于 08-05 10:01 884次阅读

    壁仞科技担任智集群异构混训工作组组长

    参与了本次交流,分享智集群异构混训的关键技术进展、成功落地案例,为突破模型异构
    的头像 发表于 05-27 16:55 923次阅读

    AI原生架构升级:RAKsmart服务器在超大规模模型训练中的突破

    近年来,随着千亿级参数模型的崛起,AI训练的需求呈现指数级增长。传统服务器架构在应对分布式训练、高并发计算和显存优化等场景时逐渐显露瓶
    的头像 发表于 04-24 09:27 613次阅读

    RAKsmart智能架构:异构计算+低时延网络驱动企业AI训练范式升级

    在AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临效率与成本的双重挑战。RAKsmart推出的智能
    的头像 发表于 04-17 09:29 597次阅读

    弘信电子旗下燧弘华创与联想发布多元异构调度平台

    近日,燧弘华创庆阳绿色智中心迎来里程碑时刻——由燧弘华创与联想合作共建的多元异构调度平台正式发布。
    的头像 发表于 03-31 11:41 872次阅读

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?
    的头像 发表于 01-16 10:24 796次阅读

    浪潮信息与智研究院携手共建大模型多元生态

    近日,浪潮信息与北京智人工智能研究院正式签署战略合作协议,双方将紧密合作,共同构建大模型多元开源创新生态。 此次合作旨在提升大
    的头像 发表于 12-31 11:49 874次阅读

    浪潮信息与智研究院达成战略合作协议

    近日,浪潮信息与智研究院达成战略合作协议,双方将紧密协作共建大模型多元开源创新生态,提升大模型
    的头像 发表于 12-26 10:25 898次阅读

    合”异构混合并行训练系统1.0发布

    近日,中国移动研究院副院长段晓东携手天数、壁仞科技、中兴、海光、瀚博等一众产业合作伙伴,共同推出了“合”异构
    的头像 发表于 12-13 15:46 926次阅读