0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮信息Owen ZHU:大模型百花齐放,算力效率决定速度

全球TMT 来源:全球TMT 作者:全球TMT 2023-09-01 06:42 次阅读

北京2023年8月31日/美通社/ -- 与狭义的人工智能相比,通用人工智能通过跨领域、跨学科、跨任务和跨模态的大模型,能够满足更广泛的场景需求、实现更高程度的逻辑理解能力与使用工具能力。2023年,随着 LLM 大规模语言模型技术的不断突破,大模型为探索更高阶的通用人工智能带来了新的曙光。通用人工智能进入了快速发展期,在中国,大模型已经呈现出百花齐放的态势,各种大模型层出不穷。

要想在"百模争秀"的时代占得先机,AI开发团队需要着力化解算力、算法、数据层面的巨大挑战,而开发效率和训练速度是保障大模型市场竞争力的核心关键因素,也是未来的核心发力点。近日,浪潮信息人工智能与高性能应用软件部 AI 架构师Owen ZHU参与首届由CSDN、《新程序员》联合主办的NPCon大会,发表重要技术演讲,分享面向新一轮AIGC产业革命,AI大模型的算力系统解决之道,并强调算力、算法、数据和系统架构等多个方面的综合优化对大模型训练到了至关重要的作用。

以下为Owen ZHU在NPCon大会的演讲实录整理:

"百模争秀"时代的算力瓶颈

大模型研发的核心技术是由预训练与Alignment组成的,第一部分就是预训练,需要用大量的数据使模型收敛速度更快、性能更好。第二部分则是Alignment,Alignment不完全等于强化学习,其通过使用多种方式/策略优化模型输出,让AI在和人的交流反馈中学会如何沟通表达,这两部分是提升大模型质量的核心要素。

目前来看,模型基础能力取决于数据、模型参数量和算力。模型参数量越大、投入的训练数据越大,模型泛化能力越强。由于资源限制,在两者不可兼得的时候,应该如何进行取舍呢?OpenAI的研究结论认为,与增加数据量相比,先增大模型参数量受益则会更好,用一千亿的模型训练两千亿的Token和两千亿模型训练一千亿的Token,后者的模型性能会更高。

由此可见,参数量是衡量模型能力的一个重要指标,当模型参数量增长超过一定阈值时,模型能力表现出跃迁式的提升,表现出来语言理解能力、生成能力、逻辑推理能力等能力的显著提升,这也就是我们所说的模型的涌现能力。

模型规模多大能产生涌现能力呢?现在来看,百亿参数是模型具备涌现能力的门槛,千亿参数的模型具备较好的涌现能力。但这并不意味着模型规模就要上升到万亿规模级别的竞争,因为现有大模型并没有得到充分训练,如GPT-3的每个参数基本上只训练了1-2个Token,DeepMind的研究表明,如果把一个大模型训练充分,需要把每个参数量训练20个Token。所以,当前的很多千亿规模的大模型还需要用多10倍的数据进行训练,模型性能才能达到比较好的水平。

无论是提高模型参数量还是提升数据规模,算力依旧是大模型能力提升的核心驱动力:需要用"足够大"的算力,去支撑起"足够精准"模型泛化能力。当前大模型训练的算力当量还在进一步增大,从GPT-3到GPT-4算力当量增长了68倍。算力当量越大,交叉熵越小,模型能力越强。随着训练的token数、模型参数、计算量的增加,语言模型的loss在平滑下降,这就意味着大语言模型的精度可以随着计算量、参数规模、token数扩展进一步提升。

wKgaomTxFz2AJ6zhAAC74zxmQzk557.jpg


欲炼大模型,先利其器

大模型能力来源于大量工程实践经验,预训练的工程挑战巨大,这表现在如下几个方面:首先,AI大模型的演化对于集群的并行运算效率、片上存储、带宽、低延时的访存等也都提出了较高的需求,万卡AI平台的规划建设、性能调优、算力调度都是很难解决的难题;其次,大规模训练普遍存在硬件故障、梯度爆炸等小规模训练不会遇到的问题;再次,工程实践方面的缺乏导致企业难以在模型质量上实现快速提升。

作为最早布局大模型的企业之一,浪潮信息在业界率先推出了中文AI巨量模型"源1.0",参数规模高达2457亿。千亿参数规模的大模型创新实践,使得浪潮信息在大模型领域积累了实战技术经验并拥有专业的研发团队,为业界提供AI算力系统参考设计。在算力效率层面,针对大模型训练中存在计算模式复杂,算力集群性能较低的情况,源1.0在大规模分布式训练中采用了张量并行、流水线并行和数据并行的三维并行策略,训练耗时约15天,共计训练了180 billion token,并将模型最后的loss值收敛至1.73,显著低于GPT-3等业界其他语言模型。首次提出面向效率和精度优化的大模型结构协同设计方法,围绕深度学习框架、训练集群IO、通信开展了深入优化,在仅采用2x200G互联的情况下,源1.0的算力效率达到45%,算力效率世界领先。在集群高速互联层面,基于原生RDMA实现整个集群的全线速组网,并对网络拓扑进行优化,可以有效消除混合计算的计算瓶颈,确保集群在大模型训练时始终处于最佳状态。

为大模型良好生态发展寻找最优解

当前,中国和业界先进水平大模型的算力差距依然较大,从算力当量来看,GPT-4的算力当量已经达到了248,842PD,而国内大多数主流的大模型算力大量仅为数千PD,差距高达近百倍。

同时,中国和业界先进水平大模型在算法、数据方面也存在巨大差距。在算法方面,虽然开源为国内大模型发展带来了弯道超车的良机,但LLaMA等开源大模型相比GPT4等顶级水平自研模型的性能,开源模型的能力存在"天花板"。

在数据方面,中文数据集和英文数据集相比较,在规模、质量上均存在显著差距,相较于动辄数千亿单词量级的英文数据,中文大模型的数据量级仅为百亿左右,而且开源程度较低,封闭程度较高。

开发大模型、发展通用人工智能是一项非常复杂的系统工程,我们亟需从系统层面为未来大模型的良好生态发展寻找最优解。从实战中走来,通过构建高效稳定的智算系统,加速模型开发效率提升。

日前,浪潮信息大模型智算软件栈OGAI(Open GenAI Infra)——"元脑生智"已正式发布。浪潮信息正通过"工具化、系统化、全链条"的全栈赋能能力,让炼大模型省时、省力,让大模型更快、更稳、更智能,助力百模真正实现"竞速AIGC"。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264052
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230605
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1104
收藏 人收藏

    评论

    相关推荐

    浪潮信息发布企业大模型开发平台"元脑企智"EPAI,加速AI创新落地

    北京2024年4月18日 /美通社/ -- 4月17日,在2024浪潮信息生态伙伴大会(IPF2024)上,浪潮信息发布企业大模型开发平台"元脑企智"EPAI(Enterprise Platform
    的头像 发表于 04-18 21:21 147次阅读
    <b class='flag-5'>浪潮信息</b>发布企业大<b class='flag-5'>模型</b>开发平台&quot;元脑企智&quot;EPAI,加速AI创新落地

    浪潮信息发布企业大模型开发平台“元脑企智”EPAI

    4月17日,在2024浪潮信息生态伙伴大会(IPF2024)上,浪潮信息重磅发布企业大模型开发平台“元脑企智”EPAI(Enterprise Platform of AI),为企业AI大模型
    的头像 发表于 04-18 10:12 109次阅读
    <b class='flag-5'>浪潮信息</b>发布企业大<b class='flag-5'>模型</b>开发平台“元脑企智”EPAI

    宁畅发布“全局智”,大模型百花齐放时代,为AI计算开启新篇

    AI行业芯事
    脑极体
    发布于 :2024年04月02日 21:22:36

    浪潮信息与英特尔合作推出一种大模型效率工具“YuanChat”

    3月26日,浪潮信息与英特尔正式宣布,浪潮信息“源2.0系列基础大模型”已和最新的英特尔® 酷睿™ Ultra处理器平台完成适配,本地推理速度提升100%。
    的头像 发表于 03-27 13:50 204次阅读
    <b class='flag-5'>浪潮信息</b>与英特尔合作推出一种大<b class='flag-5'>模型</b><b class='flag-5'>效率</b>工具“YuanChat”

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型开发效率提升10倍

    北京2024年2月29日 /美通社/ -- 近日,潞晨科技Colossal-AI大模型开发工具与浪潮信息AIStation智能业务创新生产平台完成兼容性互认证。基于AIStation平台部署与调度
    的头像 发表于 03-01 09:43 239次阅读
    潞晨科技Colossal-AI + <b class='flag-5'>浪潮信息</b>AIStation,大<b class='flag-5'>模型</b>开发<b class='flag-5'>效率</b>提升10倍

    XEDP与KeyarchOS完成浪潮信息澎湃技术认证

    北京2024年2月27日 /美通社/ -- 近日,北京星辰天合科技股份有限公司(简称"XSKY星辰天合")企业级分布式统一数据平台XEDP与浪潮信息云峦操作系统KeyarchOS V5完成浪潮信息
    的头像 发表于 02-27 17:56 262次阅读
    XEDP与KeyarchOS完成<b class='flag-5'>浪潮信息</b>澎湃技术认证

    浪潮信息澎湃认证:浪潮信息集中式存储携手仪电云i-stack云操作系统软件完成兼容性认证

    近日, 仪电云i-stack云操作系统软件与浪潮信息集中式存储AS/HF系列产品完成并通过浪潮信息澎湃技术相互兼容性测试认证, 测试结果显示,仪电云i-stack云操作系统软件与浪潮信息集中式存储
    的头像 发表于 12-08 16:40 333次阅读
    <b class='flag-5'>浪潮信息</b>澎湃认证:<b class='flag-5'>浪潮信息</b>集中式存储携手仪电云i-stack云操作系统软件完成兼容性认证

    浪潮信息发布源2.0基础大模型,千亿参数全面开源

    11月27日,浪潮信息发布"源2.0"基础大模型,并宣布全面开源。源2.0基础大模型包括1026亿、518亿、21亿等三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力。
    的头像 发表于 11-28 09:10 463次阅读
    <b class='flag-5'>浪潮信息</b>发布源2.0基础大<b class='flag-5'>模型</b>,千亿参数全面开源

    大普微与keyarchOS完成浪潮信息澎湃技术认证

    北京2023年10月10日 /美通社/ -- 日前,大普微与keyarchOS完成浪潮信息澎湃技术认证,测试结果表明,大普旗下DapuStor蛟容5、嵘神5系列企业级NVMe SSD与浪潮信息
    的头像 发表于 10-11 01:47 304次阅读
    大普微与keyarchOS完成<b class='flag-5'>浪潮信息</b>澎湃技术认证

    浪潮信息澎湃认证:浪潮信息集中式存储携手达梦数据库管理系统V8完成兼容性认证

    近日, 达梦数据库管理系统V8与浪潮信息集中式存储AS/HF系列产品完成并通过浪潮信息澎湃技术相互兼容性测试认证 ,测试结果显示,达梦数据库管理系统V8与浪潮信息集中式存储AS/HF系列产品完全兼容
    的头像 发表于 09-27 17:10 375次阅读
    <b class='flag-5'>浪潮信息</b>澎湃认证:<b class='flag-5'>浪潮信息</b>集中式存储携手达梦数据库管理系统V8完成兼容性认证

    东芝 MG10系列企业级SATA HDD获得浪潮信息澎湃技术兼容性认证

      点击蓝字 关注我们 近日,TOSHIBA(东芝) MG10系列企业级SATA HDD (MG10ACA) 完成与浪潮信息NF5280M6服务器平台的兼容性适配认证,获得浪潮信息澎湃技术认证授权证
    的头像 发表于 09-22 19:35 452次阅读
    东芝 MG10系列企业级SATA HDD获得<b class='flag-5'>浪潮信息</b>澎湃技术兼容性认证

    浪潮信息积极构建面向生成式AI的绿色开放加速智算平台

    当前,“百模大战”带来了算力需求的爆发,AI芯片产业也迎来巨大机遇,“创新架构+开源生态”正在激发多元AI算力产品百花齐放。面对新的产业机会,AI算力产业链亟需通过上下游协作共同把握机遇。 日前
    的头像 发表于 09-20 10:33 701次阅读
    <b class='flag-5'>浪潮信息</b>积极构建面向生成式AI的绿色开放加速智算平台

    浪潮信息发布大模型智算软件栈OGAI,为大模型创新打造高效生产力

    浪潮信息正式发布大模型智算软件栈 OGAI。OGAI (Open GenAI Infra)"元脑生智",是为大模型业务提供AI算力系统环境部署、算力调度保障及模型开发管理能力
    的头像 发表于 08-28 08:08 377次阅读

    浪潮信息智能业务生产创新平台提升大模型算力平台使用效率

    日前,2023全球人工智能产品应用博览会在苏州开幕。浪潮信息智能业务生产创新平台AIStation凭借领先的资源调度与平台管理能力,有效提升大模型算力平台使用效率,荣获智博会核心奖项“产品金奖
    的头像 发表于 07-03 11:15 646次阅读

    网迅科技与浪潮信息KOS完成兼容性认证

    北京2023年6月6日 /美通社/ -- 日前,北京网迅科技有限公司多款产品与浪潮信息KOS完成并通过了澎湃技术认证,此次测试的产品包括网迅科技WX1860系列千兆网络控制器、SP1000A
    的头像 发表于 06-07 07:16 282次阅读
    网迅科技与<b class='flag-5'>浪潮信息</b>KOS完成兼容性认证