11月29日,北京智源人工智能研究院副院长兼总工程师林咏华在2023人工智能计算大会上宣布,正式开源700亿参数大模型Aquila2-70B-Expr(异构先驱版),这是首个基于英伟达混合资源及天数智芯混合资源完成训练的大模型,也是智源研究院与天数智芯合作取得的最新成果,再次证明了天数智芯通用GPU产品支持大模型训练的能力,以及与主流产品的兼容能力。据林咏华副院长介绍,为了解决异构算力混合训练难题,智源研究院开发了高效并行训练框架FlagScale,支持异构算力混合训练,并在10月开源了FlagScale v0.1版本。此次基于FlagScale v0.2分别在英伟达混合资源(A100集群+A800集群)、天数智芯混合资源(BI-V100集群+BI-V150集群)完成了Aquila2-70B-Expr大模型训练工作。
天数智芯在今年上半年搭建了天垓100(BI-V100)算力集群支持智源研究院开展70亿参数大模型训练。在此基础上,双方进一步深化合作。天数智芯首先搭建了128节点的BI-V100集群环境,支持智源研究院开展Aquila2-70B-Expr完整训练。训练到20万步,导出模型并完成总计11项性能指标的评估,涉及常识推断、多任务语言理解、真实性回答等场景,将基线实验和对比实验送到真实数据集上进行评测,计算差异在0.28%,在精度上与国际主流集群训练的权重文件水平相当。同时,天数智芯基于新一代产品天垓150(BI-V150)搭建了16节点集群环境,用于智源研究院混合并行训练研究。智源研究院利用120节点BI-V100集群加上8节点BI-V150集群进行Aquila2-70B-Expr大模型混合训练,混合集群性能达到上界(理想合池理论峰值)的85.3%。测试结果显示,在天数智芯产品上异构训练,对模型性能影响甚微。
这一成果极具商业价值和应用前景,有助于解决智算中心换代升级、增容后新旧计算卡并用难题,为智算中心高效运行提供了新方案。 END
原文标题:天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚
文章出处:【微信公众号:天数智芯】欢迎添加关注!文章转载请注明出处。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
天数智芯
+关注
关注
0文章
91浏览量
5337
原文标题:天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚
文章出处:【微信号:IluvatarCoreX,微信公众号:天数智芯】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
【算能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格
通过网络可以了解到,算能RADXA微服务器的具体规格:
处理器:BM1684X
算力:高达32Tops INT8峰值算力
内存:16GB L
发表于 02-28 11:21
iBeLink KS MAX 10.5T大算力领跑KAS新领域
—KHeavyHash。在市场上,有一款挖掘机可以满足这个要求,那就是iBeLink ks max 10.5T。
iBeLink ks max 10.5T是一款专为Kaspa挖掘而设计的挖掘机,它的算力
发表于 02-20 16:11
请问用算力强大的SOC来控制汽车是不是能够大幅减少MCU的使用数量?
来自一位用户的咨询,麻烦帮忙解答,越详细越好,有图有真相,可以适当提供一些英飞凌解决方案和产品推荐。
用算力强大的SOC来控制汽车是不是能够大幅减少MCU的使用数量?
未来电动汽车会使用SOC来代替大量MCU?
发表于 02-02 07:16
【爱芯派 Pro 开发板试用体验】篇一:开箱篇
爱芯派 Pro (AXera-Pi Pro)M4N Dock 是一款集成了高算力、高能效 AI SOC 的开发板。它采用了爱芯 AX650N 作为主控芯片。AX650N 集成了 8 核
发表于 11-15 11:32
专用R5F+双核A53,异构多核AM64x让工控“更实时”
的Cortex-R5F作为实时处理核心,主频高达800MHz,单/双/四核ARM Cortex-R5F,算力高达6400DMIPS,包括可扩展浮点运算单元(FPU)。
每个Cortex-R5F内核32KB ICache
发表于 08-23 15:34
异构计算场景下构建可信执行环境
令集、不同功能的算力单元,组合起来形成一个混合的计算系统,使其具有更强大、更高效的功能。如何在异构计算场景下构建可信执行环境呢?华为可信计算首席科学家、IEEE硬件安全与可信专委会联席
发表于 08-15 17:35
天垓100率先完成百亿级参数大模型训练,天数智芯迎来新的里程碑
的Aquila语言基础模型,使用代码数据进行继续训练,稳定运行19天,模型收敛效果符合预期,证明天数智芯有支持百亿级参数大
发表于 06-12 15:46
•98次阅读
RISC-V入云!赛昉科技联合中国电信完成首个RISC-V云原生轻量级虚拟机验证
近日, 中国电信研究院成功研发业界首个支持RISC-V的云原生轻量级虚拟机TeleVM,并联合赛昉科技在高性能RISC-V CPU IP——昉·天枢上完成了软硬件协同测试验证。 测试结果显示,相对于
发表于 05-11 14:08
评论