0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚

天数智芯 来源:未知 2023-11-30 13:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1129日,北京智源人工智能研究院副院长兼总工程师林咏华在2023人工智能计算大会上宣布,正式开源700亿参数大模型Aquila2-70B-Expr(异构先驱版),这是首个基于英伟达混合资源及天数智芯混合资源完成训练的大模型,也是智源研究院与天数智芯合作取得的最新成果,再次证明了天数智芯通用GPU产品支持大模型训练的能力,以及与主流产品的兼容能力。wKgaomVoGlaAU6VuAADdsa8E_Yk828.jpg据林咏华副院长介绍,为了解决异构算力混合训练难题,智源研究院开发了高效并行训练框架FlagScale,支持异构算力混合训练,并在10月开源了FlagScale v0.1版本。此次基于FlagScale v0.2分别在英伟达混合资源(A100集群+A800集群)、天数智芯混合资源(BI-V100集群+BI-V150集群)完成了Aquila2-70B-Expr大模型训练工作。

wKgaomVoGlaAM9NnAAGPG4g0hWQ725.jpg天数智芯在今年上半年搭建了天垓100BI-V100)算力集群支持智源研究院开展70亿参数大模型训练。在此基础上,双方进一步深化合作。天数智芯首先搭建了128节点的BI-V100集群环境,支持智源研究院开展Aquila2-70B-Expr完整训练。训练到20万步,导出模型并完成总计11项性能指标的评估,涉及常识推断、多任务语言理解、真实性回答等场景,将基线实验和对比实验送到真实数据集上进行评测,计算差异在0.28%在精度上与国际主流集群训练的权重文件水平相当。同时,天数智芯基于新一代产品天垓150BI-V150)搭建了16节点集群环境,用于智源研究院混合并行训练研究。智源研究院利用120节点BI-V100集群加上8节点BI-V150集群进行Aquila2-70B-Expr大模型混合训练,混合集群性能达到上界(理想合池理论峰值)的85.3%测试结果显示,在天数智芯产品上异构训练,对模型性能影响甚微。

这一成果极具商业价值和应用前景,有助于解决智算中心换代升级、增容后新旧计算卡并用难题,为智算中心高效运行提供了新方案。 wKgaomVoGlaAJ-_XAAAlV2YGdhE627.gifEND


原文标题:天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚

文章出处:【微信公众号:天数智芯】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 天数智芯
    +关注

    关注

    0

    文章

    113

    浏览量

    6687

原文标题:天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚

文章出处:【微信号:IluvatarCoreX,微信公众号:天数智芯】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    企业如何突破AI困局?2026 年异构管理平台推荐

    随着 AI 大模型爆发式增长,异构管理已成为企业 AI 基础设施建设的核心挑战。本文从行业现状出发,分析异构
    的头像 发表于 05-20 12:53 67次阅读

    科技云报到:信通《智能服务研究报告(2026年)》深度解析 产业迎来关键破局点

    科技云报到原创。 2026年,生成式AI与大模型的规模化落地,把智能力推到了数字经济的C位。从千亿参数模型的跨域训练、亿级用户的高并发推理,到影视特效渲染、工业视觉质检,
    的头像 发表于 05-12 09:42 522次阅读
    科技云报到:信通<b class='flag-5'>院</b>《智能<b class='flag-5'>算</b><b class='flag-5'>力</b>服务<b class='flag-5'>研究</b>报告(2026年)》深度解析 <b class='flag-5'>算</b><b class='flag-5'>力</b>产业迎来关键破局点

    天数助力DeepLink异构训推一体化升级

    当前,通用人工智能发展驶入快车道,大模型的需求呈现爆发式增长,异构的高效协同成为释放
    的头像 发表于 03-26 09:30 485次阅读
    <b class='flag-5'>天数</b>智<b class='flag-5'>芯</b>助力DeepLink<b class='flag-5'>异构</b><b class='flag-5'>算</b><b class='flag-5'>力</b>训推一体化升级

    训练到推理:大模型需求的新拐点已至

    在大模型产业发展的早期阶段,行业焦点主要集中在大模型训练所需的投入。一个万亿参数大模型
    的头像 发表于 02-05 16:07 1112次阅读
    从<b class='flag-5'>训练</b>到推理:大<b class='flag-5'>模型</b><b class='flag-5'>算</b><b class='flag-5'>力</b>需求的新拐点已至

    工信部力推:国产训练芯片与异构引领AI新征程

    部将以落实《实施意见》为抓手,推动人工智能产业高质量发展,技术创新是重点,突破训练芯片、异构等关键技术是关键。  
    的头像 发表于 01-21 14:11 1.1w次阅读

    国产首证具身大脑模型训练实力:摩尔线程联合智研究院完成RoboBrain 2.5全流程训练

    随着具身智能成为人工智能的下一个战略高地,底层底座的自主可控显得尤为关键。近日,摩尔线程联合北京智人工智能研究院(以下简称:智)基于
    的头像 发表于 01-14 09:05 835次阅读
    国产<b class='flag-5'>算</b><b class='flag-5'>力</b>首证具身大脑<b class='flag-5'>模型</b><b class='flag-5'>训练</b>实力:摩尔线程联合智<b class='flag-5'>源</b><b class='flag-5'>研究院</b><b class='flag-5'>完成</b>RoboBrain 2.5全流程<b class='flag-5'>训练</b>

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    科技:AI突破,新型堆叠EDA工具持续进化

    无法满足AI芯片对于异构集成的需求。日前,珠海硅科技有限公司创始人兼首席科学家赵毅博士在2025湾展上接受媒体采访,分享了AI
    的头像 发表于 10-31 09:16 1.3w次阅读
    硅<b class='flag-5'>芯</b>科技:AI<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>突破</b>,新型堆叠EDA工具持续进化

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时扛住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。 但疑惑也有:这种
    发表于 10-27 13:12

    与电力的终极博弈,填上了AIDC的“电力黑洞”

    ),专注于提供人工智能训练与推理所需的服务、数据服务和算法服务。AIDC采用异构计算架构,结合GPU、FPGA、ASIC等多种AI加速芯片,形成高并发分布式系统,以满足大
    的头像 发表于 09-22 02:43 9233次阅读

    中国智能规模增长将超40%

    表示预计在2025年,中国智能规模增长将超过40%。 据中国信息通信研究院副院长 魏亮表示:目前,中国平台实现了100多个
    的头像 发表于 08-25 19:28 1095次阅读

    华为联合中国移动研究院发布“路由AI推理及视联网应用样板”

    2025年8月20日;在第九届未来网络发展大会期间,华为联合中国移动研究院发布“路由AI推理及视联网应用样板”,标志着网络在商用探索
    的头像 发表于 08-25 19:23 1337次阅读

    商汤大装置发布基于DeepLink的异构混合调度方案

    调度复杂、跨域训练稳定性不足等行业挑战,全面提升异构集群的协同效率与运行可靠性,加速国产AI从“可用”迈向“好用”,为大模型
    的头像 发表于 08-05 10:01 1303次阅读

    润和软件发布StackRUNS异构分布式推理框架

    当下,AI模型规模持续膨胀、多模态应用场景日益复杂,企业正面临异构资源碎片化带来的严峻挑战。为应对行业痛点,江苏润和软件股份有限公司(以下简称“润和软件”)正式发布自主研发的Sta
    的头像 发表于 06-13 09:10 1688次阅读
    润和软件发布StackRUNS<b class='flag-5'>异构</b>分布式推理框架

    壁仞科技担任智集群异构混训工作组组长

    参与了本次交流,分享智集群异构混训的关键技术进展、成功落地案例,为突破模型异构
    的头像 发表于 05-27 16:55 1355次阅读