11月29日,北京智源人工智能研究院副院长兼总工程师林咏华在2023人工智能计算大会上宣布,正式开源700亿参数大模型Aquila2-70B-Expr(异构先驱版),这是首个基于英伟达混合资源及天数智芯混合资源完成训练的大模型,也是智源研究院与天数智芯合作取得的最新成果,再次证明了天数智芯通用GPU产品支持大模型训练的能力,以及与主流产品的兼容能力。
据林咏华副院长介绍,为了解决异构算力混合训练难题,智源研究院开发了高效并行训练框架FlagScale,支持异构算力混合训练,并在10月开源了FlagScale v0.1版本。此次基于FlagScale v0.2分别在英伟达混合资源(A100集群+A800集群)、天数智芯混合资源(BI-V100集群+BI-V150集群)完成了Aquila2-70B-Expr大模型训练工作。
天数智芯在今年上半年搭建了天垓100(BI-V100)算力集群支持智源研究院开展70亿参数大模型训练。在此基础上,双方进一步深化合作。天数智芯首先搭建了128节点的BI-V100集群环境,支持智源研究院开展Aquila2-70B-Expr完整训练。训练到20万步,导出模型并完成总计11项性能指标的评估,涉及常识推断、多任务语言理解、真实性回答等场景,将基线实验和对比实验送到真实数据集上进行评测,计算差异在0.28%,在精度上与国际主流集群训练的权重文件水平相当。同时,天数智芯基于新一代产品天垓150(BI-V150)搭建了16节点集群环境,用于智源研究院混合并行训练研究。智源研究院利用120节点BI-V100集群加上8节点BI-V150集群进行Aquila2-70B-Expr大模型混合训练,混合集群性能达到上界(理想合池理论峰值)的85.3%。测试结果显示,在天数智芯产品上异构训练,对模型性能影响甚微。
END
据林咏华副院长介绍,为了解决异构算力混合训练难题,智源研究院开发了高效并行训练框架FlagScale,支持异构算力混合训练,并在10月开源了FlagScale v0.1版本。此次基于FlagScale v0.2分别在英伟达混合资源(A100集群+A800集群)、天数智芯混合资源(BI-V100集群+BI-V150集群)完成了Aquila2-70B-Expr大模型训练工作。
天数智芯在今年上半年搭建了天垓100(BI-V100)算力集群支持智源研究院开展70亿参数大模型训练。在此基础上,双方进一步深化合作。天数智芯首先搭建了128节点的BI-V100集群环境,支持智源研究院开展Aquila2-70B-Expr完整训练。训练到20万步,导出模型并完成总计11项性能指标的评估,涉及常识推断、多任务语言理解、真实性回答等场景,将基线实验和对比实验送到真实数据集上进行评测,计算差异在0.28%,在精度上与国际主流集群训练的权重文件水平相当。同时,天数智芯基于新一代产品天垓150(BI-V150)搭建了16节点集群环境,用于智源研究院混合并行训练研究。智源研究院利用120节点BI-V100集群加上8节点BI-V150集群进行Aquila2-70B-Expr大模型混合训练,混合集群性能达到上界(理想合池理论峰值)的85.3%。测试结果显示,在天数智芯产品上异构训练,对模型性能影响甚微。
这一成果极具商业价值和应用前景,有助于解决智算中心换代升级、增容后新旧计算卡并用难题,为智算中心高效运行提供了新方案。
END
原文标题:天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚
文章出处:【微信公众号:天数智芯】欢迎添加关注!文章转载请注明出处。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
天数智芯
+关注
关注
0文章
100浏览量
6501
原文标题:天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚
文章出处:【微信号:IluvatarCoreX,微信公众号:天数智芯】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
热点推荐
国产AI芯片真能扛住“算力内卷”?海思昇腾的这波操作藏了多少细节?
反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时扛住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。
但疑惑也有:这种算
发表于 10-27 13:12
算力与电力的终极博弈,填上了AIDC的“电力黑洞”
),专注于提供人工智能训练与推理所需的算力服务、数据服务和算法服务。AIDC采用异构计算架构,结合GPU、FPGA、ASIC等多种AI加速芯片,形成高并发分布式系统,以满足大
华为联合中国移动研究院发布“算力路由AI推理及视联网应用样板”
2025年8月20日;在第九届未来网络发展大会期间,华为联合中国移动研究院发布“算力路由AI推理及视联网应用样板”,标志着算力网络在商用探索
商汤大装置发布基于DeepLink的异构混合调度方案
调度复杂、跨域训练稳定性不足等行业挑战,全面提升异构集群的协同效率与运行可靠性,加速国产AI算力从“可用”迈向“好用”,为大模型
AI原生架构升级:RAKsmart服务器在超大规模模型训练中的算力突破
近年来,随着千亿级参数模型的崛起,AI训练对算力的需求呈现指数级增长。传统服务器架构在应对分布式训练、高并发计算和显存优化等场景时逐渐显露瓶
RAKsmart智能算力架构:异构计算+低时延网络驱动企业AI训练范式升级
在AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临算力效率与成本的双重挑战。RAKsmart推出的智能
弘信电子旗下燧弘华创与联想发布多元异构算力调度平台
近日,燧弘华创庆阳绿色智算中心迎来里程碑时刻——由燧弘华创与联想合作共建的多元异构算力调度平台正式发布。
浪潮信息与智源研究院携手共建大模型多元算力生态
近日,浪潮信息与北京智源人工智能研究院正式签署战略合作协议,双方将紧密合作,共同构建大模型多元算力开源创新生态。 此次合作旨在提升大
“芯合”异构混合并行训练系统1.0发布
近日,中国移动研究院副院长段晓东携手天数智芯、壁仞科技、中兴、海光、瀚博等一众产业合作伙伴,共同推出了“芯合”异构

天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚
评论