0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮信息发布源2.0-M32开源大模型,模算效率大幅提升

浪潮AIHPC 来源:浪潮AIHPC 2024-05-29 09:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

5月28日,浪潮信息发布“源2.0-M32”开源大模型。“源2.0-M32”在基于”源2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。

算法层面源2.0-M32提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。源2.0-M32采用源2.0-2B为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。

9ad71f44-1cea-11ef-b74b-92fbcf53809c.png

Figure1基于注意力机制的门控网络(Attention Router)

■ 数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。结合高效的数据清洗流程,满足大模型训练“丰富性、全面性、高质量”的数据集需求。基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。

■ 算力层面,源2.0-M32采用了非均匀流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MoE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。

基于在算法、数据和算力方面全面创新,源2.0-M32的性能得以大幅提升,在多个业界主流的评测任务中,展示出了较为先进的能力表现,在MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有700亿参数的LLaMA3大模型

9b0363c4-1cea-11ef-b74b-92fbcf53809c.jpg

Figure2 源2.0-M32业界主流评测任务表现

源2.0-M32大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。在模型推理运行阶段,M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19,从而实现了更高的模算效率。

浪潮信息人工智能首席科学家吴韶华表示:当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。源2.0-M32是浪潮信息在大模型领域持续耕耘的最新探索成果,通过在算法、数据、算力等方面的全面创新,M32不仅可以提供与业界领先开源大模型相当的性能,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。


审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49746

    浏览量

    261605
  • 大模型
    +关注

    关注

    2

    文章

    3446

    浏览量

    4972
  • 生成式AI
    +关注

    关注

    0

    文章

    537

    浏览量

    1021

原文标题:浪潮信息发布源2.0-M32开源大模型,模算效率大幅提升,37亿激活参数性能对标LLaMA3-700亿

文章出处:【微信号:浪潮AIHPC,微信公众号:浪潮AIHPC】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    浪潮信息发布"元脑SD200"超节点,面向万亿参数大模型创新设计

    北京2025年8月8日 /美通社/ -- 8月7日,浪潮信息发布面向万亿参数大模型的超节点AI服务器"元脑SD200"。该产品基于浪潮信息创新研发的多主机低延迟内存语义通信架构,以开放
    的头像 发表于 08-08 22:17 532次阅读
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>发布</b>&quot;元脑SD200&quot;超节点,面向万亿参数大<b class='flag-5'>模型</b>创新设计

    飞利信与浪潮信息达成战略合作

    近日,2025年浪潮信息北京ISP战略伙伴签约授牌仪式成功举办。浪潮信息与北京飞利信电子技术有限公司等22家战略合作伙伴达成签约,其中将面向北京人工智能应用大市场,在产品技术共创、行业场景深化及区域
    的头像 发表于 06-24 17:37 908次阅读

    天瞳威视与浪潮信息达成战略合作,推进高阶智驾车载计算系统创新

    北京2025年3月22日 /美通社/ -- 近日,苏州天瞳威视电子科技有限公司与浪潮信息旗下苏州元脑智能科技有限公司达成战略合作协议。此次合作依托浪潮信息提供的车载力平台硬件系统、底层软件环境
    的头像 发表于 03-27 16:55 549次阅读
    天瞳威视与<b class='flag-5'>浪潮信息</b>达成战略合作,推进高阶智驾车载计算系统创新

    AI 力报告来了!2025中国AI力市场将达 259 亿美元

    报告来源:IDC、浪潮信息2月13日,国际数据公司(IDC)携手浪潮信息,重磅发布《2025年中国人工智能计算力发展评估报告》。当下,大模型与生成式人工智能热度飙升,
    的头像 发表于 03-07 13:27 1738次阅读
    AI <b class='flag-5'>算</b>力报告来了!2025中国AI<b class='flag-5'>算</b>力市场将达 259 亿美元

    浪潮信息:元脑EPAI已接入DeepSeek,大幅提升DeepSeek企业应用准确率

    北京2025年2月21日 /美通社/ -- 浪潮信息宣布元脑企智EPAI企业大模型开发平台已全面接入支持DeepSeek大模型。通过元脑企智EPAI,企业用户能够将业务数据与DeepSeek大
    的头像 发表于 02-23 07:32 886次阅读
    <b class='flag-5'>浪潮信息</b>:元脑EPAI已接入DeepSeek,<b class='flag-5'>大幅</b><b class='flag-5'>提升</b>DeepSeek企业应用准确率

    浪潮信息发布元脑R1推理服务器

    近日,浪潮信息正式推出了其创新的元脑R1推理服务器。这款服务器通过系统的创新与软硬件的协同优化,实现了对DeepSeek R1 671B模型的单机部署与运行,为客户在智能应用部署方面带来了显著的突破
    的头像 发表于 02-17 10:32 1041次阅读

    浪潮信息存储SATA SSD:技术创新引领数据存储新时代

    在智慧时代,数据存储需求日益增长,对存储产品的性能和稳定性提出了更高要求。浪潮信息存储,作为行业内的佼佼者,积极响应市场需求,通过自主研发,不断积累技术优势,致力于为用户提供高性能、高稳定性的存储
    的头像 发表于 02-07 13:41 1015次阅读

    浪潮信息与实验室合作部署42kW风冷力仓

    近日,浪潮信息与某知名实验室携手签署了合作协议,共同推进AI for Science领域的科研创新。根据协议内容,双方将采用先进的42kW智风冷力仓,致力于打造一个效能效双
    的头像 发表于 01-09 14:18 728次阅读

    博研智通携手浪潮信息打造香港智慧交通

    近日,为了将有限的物理空间发挥到极致,香港率先在多个繁华地段的十字路口升级为智慧路口。通过浪潮信息助力博研智通打造的「云边协同的全息智慧路口整体解决方案」,实现了灯随车变、灯候人行的智能化管理,大大提升
    的头像 发表于 01-03 11:40 889次阅读

    浪潮信息与智研究院携手共建大模型多元力生态

    近日,浪潮信息与北京智人工智能研究院正式签署战略合作协议,双方将紧密合作,共同构建大模型多元开源创新生态。 此次合作旨在
    的头像 发表于 12-31 11:49 876次阅读

    浪潮信息与智研究院达成战略合作协议

    近日,浪潮信息与智研究院达成战略合作协议,双方将紧密协作共建大模型多元开源创新生态,提升
    的头像 发表于 12-26 10:25 900次阅读

    浪潮信息发布&quot;&quot;Yuan-EB,刷新RAG检索最高成绩

    近日,浪潮信息在AI领域取得了重大突破,成功发布了其嵌入模型""Yuan-EB(Yuan-embedding-1.0)。在备受瞩目的C-MTEB榜单中,"
    的头像 发表于 12-25 15:54 813次阅读

    浪潮信息与17家元脑伙伴共签亿级分销协议

    近日,一场意义非凡的签约仪式——2025年浪潮信息亿级分销伙伴签约大会圆满落幕。在这场盛会中,浪潮信息与来自全国12个省区的17家元脑生态伙伴共同签署了亿级分销合作协议,携手开启合作共赢的新篇章
    的头像 发表于 12-25 15:46 1195次阅读

    捷通达携手浪潮信息,ERP系统性能大幅提升

    的共同努力,捷通达成功将原有的SAP HANA系统升级为浪潮信息新一代SAP HANA数据库一体机解决方案。这一升级不仅大幅提升了系统的运行效率,更使得ERP系统的数据查询时间
    的头像 发表于 12-24 14:36 904次阅读

    借助浪潮信息元脑企智EPAI高效创建大模型RAG

    生成能力,提高生成质量和可靠性。但企业构建知识检索系统并非易事,通常面临开发门槛高、生成内容差等难题。而借助浪潮信息元脑企智EPAI企业大模型开发平台,企业仅需三步即可高效创建大模型RAG,让企业内部积累的大量数据得到有效利用,
    的头像 发表于 12-19 14:32 1047次阅读
    借助<b class='flag-5'>浪潮信息</b>元脑企智EPAI高效创建大<b class='flag-5'>模型</b>RAG