0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮信息积极构建面向生成式AI的绿色开放加速智算平台

浪潮AIHPC 来源:浪潮AIHPC 2023-09-20 10:33 次阅读

当前,“百模大战”带来了算力需求的爆发,AI芯片产业也迎来巨大机遇,“创新架构+开源生态”正在激发多元AI算力产品百花齐放。面对新的产业机会,AI算力产业链亟需通过上下游协作共同把握机遇。

日前,在开放计算中国峰会OCP China Day 2023上,浪潮信息AI&HPC产品线高级产品经理Stephen Zhang就《开放加速规范AI服务器设计指南》进行了专题报告演讲,分享了AIGC时代的算力需求趋势与开放加速计算发展之道。他指出,从系统层面进行产业链协同创新成为后摩尔定律时代破解AIGC算力挑战的必经之路。当前,开放加速计算生态已经在此方面取得了丰富有益的成果,多元的AI算力产品正在加速落地,促进AI算力产业蓬勃发展。

大模型时代的算力需求及趋势

自ChatGPT发布以来,大家可以明显地感受到全社会对于生成式人工智能技术的广泛关注,ChatGPT出圈之后带来了更多参与者,模型的数量和模型参数量不断激增。据不完全统计,我们国家的大模型数量已经超过110个,这就带来了对于AI算力需求的剧增。

7a5c51c6-5756-11ee-939d-92fbcf53809c.png针对大模型发展带来的严峻算力挑战,我们进行了大量的需求分析和趋势判断。从AI服务器算力及功耗随时间变化的趋势来看,要解决大模型的算力短缺问题,最直接的方式是提高单机的算力。从2016年到现在,AI服务器单机算力增长近100倍,功耗从4千瓦增长到12千瓦,下一代AI服务器的功耗继续增长到18千瓦乃至20千瓦以上。AI服务器的系统架构供电、散热方式,以及数据中心基础设施建设模式,将难以满足未来高功耗AI服务器的部署需求。

其次,大模型参数量增长对GPU数量的需求也随之增加,需要更大的显存容量承载。2021年,一个千亿规模的大模型需要3,000 GB显存容量空间承载,换算过来需要将近40张80G的GPU才能放得下这个模型,包括权重参数、梯度数据、优化值数据和激活值数据。今天,很多大模型的参数量已经超过了万亿规模,显存容量将会达到30,000GB,需要将近400块80G显存的GPU才能承载,这意味着需要更大规模的算力平台才能进行如此规模大模型的训练。

更大规模的平台会带来另外一个问题,即卡与卡之间、不同的节点之间的更多通信,大模型的训练需要融合多种并行策略,对卡间P2P互联带宽以及跨节点互联带宽提出了更高的要求。

以2457亿参数的“源1.0”大模型训练的工程实践为例,“源1.0”训练共有1800亿Token,显存容量需求7.4TB,训练过程中融合了张量并行、流水线并行、数据并行三种策略。单节点张量并行通信频次达到每秒82.4次,节点内通信带宽最低需求达到194GB/s。计算节点内会开展流水线并行,跨节点通信带宽达到26.8GB/s,至少需要300Gbps通信带宽才能满足流水线并行训练的带宽需求。在训练“源1.0”过程中,实际用到两张200Gbps网卡进行跨节点通信,数据并行通信频次低但数据量大,带宽需求至少要达到8.8GB/s,单机400Gbps的带宽可以满足。

随着模型参数量进一步增加以及GPU算力的成倍增加,未来需要更高的互联带宽才能满足更大规模模型的训练需求。

开放加速计算 为超大规模深度神经网络而生

面向AIGC大模型训练的计算系统需要具备三个主要特征,一是大算力,二是高互联,三是强扩展,传统的PCIe CEM形态的加速卡很难满足三个特征需求,因此越来越多的芯片厂商都开发了非PCIe形态的加速卡。

开放计算组织OCP在2019年发布了专门面向大模型训练的加速计算系统架构,核心是UBB和OAM标准,特点是大算力。Mezz扣卡形态的加速器具备更高的散热和互联能力,可以承载具有更高算力的芯片。同时,它有非常强的跨节点扩展能力,可以很轻易地扩展到千卡、万卡级的平台,支撑大模型的训练。这个架构是天然适用于超大规模深度神经网络训练的计算架构。

7a5c51c6-5756-11ee-939d-92fbcf53809c.png但是,在OAM产业落地过程中,很多厂商所开发的加速卡依然存在硬件接口不统一、互联协议不统一,同时软件生态互不兼容,带来了新型AI加速卡系统适配周期长、定制投入成本高的落地难题,导致算力供给和算力需求之间的剪刀差不断加大,行业亟需更加开放的算力平台,以及更加多元的算力支撑大模型的训练。

对此,浪潮信息开展了大量工作,包括技术上的预研和对产业生态的贡献。2019年开始,浪潮信息牵头主导了OAM标准的制定,发布了首款开放加速基板UBB,同时开发了全球首款开放加速参考系统MX1,并协同业界领先的芯片厂商一起完成了OAM形态加速卡的适配,证明了这条技术路线的可行性。为了推动符合OAM开放加速规范的系统产业化落地,浪潮信息开发了第一款“ALL IN ONE” OAM服务器产品,把CPU和OAM加速卡集成到一台19英寸机箱中,实现数据中心级的快速部署,并在众多客户的智算中心落地应用。

此后,OAM 芯片的算力和功耗在不断提升,同时数据中心对于绿色节能的要求也越来越高。对此,我们开发了第一款液冷OAM服务器,可以实现8颗OAM加速器和两颗高功耗的CPU的液冷散热,整个液冷散热覆盖率超过90%,基于这款产品构建的液冷OAM智算中心解决方案,千卡平台稳定运行状态下PUE值小于1.1。而浪潮信息刚刚发布的新一代的OAM服务器NF5698G7,基于全PCIe Gen5链路,H2D互联能力提升4倍,为新一代OAM研发提供了更加先进的部署平台。

通过平台架构设计和算力算法协同设计解决能耗问题

仅仅提供算力平台是不够的,目前数据中心面临着巨大的能耗挑战,尤其是面向大模型训练的AI服务器,单机功耗轻易超过6-7千瓦。

7a5c51c6-5756-11ee-939d-92fbcf53809c.png一个公式可以快速计算训练一个大模型所需要的整体耗电量(E):分子用6倍模型参数量和训练过程中所用到的Token数量表征大模型训练所需要的算力当量,分母用加速卡的数量还有单张加速卡的算力性能表征智算基础设施所能够提供的整体算力性能,二者相除的结果代表的是训练大模型所需要的时间,乘以Ecluster指标(大模型训练平台每日耗电量)即可得到整体耗电量。那么,在选定模型并且有确定卡数和规模的情况下,只有通过优化单卡算力值,或者降低单个平台的耗电量,才能优化大模型训练所需的整体耗电量。

针对这两个参数的优化,我们对不同大模型训练平台网络架构设计下,平台功耗和相应的大模型训练整体功耗进行了对比研究。以单机2张网卡(NIC)组网方案和单机8张网卡(NIC)组网方案为例,虽然不同网卡数量带来的单机功耗影响并不显著,然而放到整个计算平台层面,网卡数量增加导致交换机数量增加,总功耗会有显著差异,8网卡方案总功耗可达2000多千瓦,2网卡方案只有1600多千瓦,2张网卡方案可以节省功耗18%。

因此,面向实际应用需求,通过精细化地计算大模型训练所需要的网络带宽,可以在不影响性能的前提下,显著地优化总功耗。“源”大模型训练过程当中,仅仅使用了两张200G的IB卡就完成2457亿参数模型的训练,这是我们发现的第一个优化训练平台总功耗的技术路径。

第二,提高单卡算力利用率以实现提效节能,也是非常重要的一个命题。经我们测试,采用算法和算力架构协同设计的方法,基于算力基础设施的技术特点,深度优化模型的参数结构和训练策略,可以用更短的时间完成同等规模模型的训练。以GPT-3模型的训练为例,模型训练时间可以从15天优化为12天,总耗电量节省达到33%。

以上两点可以说明,应用导向的架构设计,以及算力和算法的协同设计,能够实现更高效的大模型训练,最终加速节能降碳目标的实现。

绿色开放加速平台,赋力大模型高效释放算力

基于上述在开放计算、高效计算的技术、产品和方法的创新和研究,浪潮信息正在积极构建面向生成式AI的绿色开放加速智算平台。

去年协同合作伙伴发布的液冷开放加速智算中心解决方案,首先具有非常高的算力性能;其次,可以实现千芯级大规模扩展,支撑超千亿规模模型训练;同时,先进液冷技术使整个平台的PUE大幅优化。

同时,浪潮信息也在积极构建全栈开放加速智算能力,除了提供底层的AI计算平台,上层有AI资源平台,能够在资源管理层通过统一接口实现对于30余种多元算力芯片的统一的调度和管理。再往上是AI算法平台,提供开源的深度学习算法框架、大模型以及开放的数据集。在此之上是算力服务,包括算力、模型数据、交付、运维等多种服务模式。最上层是拥有4000多家合作伙伴的元脑生态,浪潮信息和生态合作伙伴共同开展开放加速计算方案的设计,并成功地推向产业落地。

基于开放加速规范的AI计算平台目前已经适配20多种业界主流的大模型,包括大家非常熟悉的GPT系列、LLaMA、Chat GLM、“源”,同时还支持多类扩散模型适配。

“助百芯,智千模” 加速多元算力落地

在AIGC技术和产业快速发展过程中,虽然业界已经制定了开放加速计算相关规范,但产业落地还存在一些问题。比如,开放计算系统定制化程度高,规范覆盖的领域不足,包括多元算力芯片的系统适配、管理和调度,以及深度学习环境的部署等等。

在OAM规范基础上,日前《开放加速规范AI服务器设计指南》发布,基于当前AIGC产业背景下客户的痛点,定义了开放加速服务器设计的原则,包括应用导向、多元开放、绿色高效、统筹设计。同时对服务器设计方法进行深化和细化,包括从节点层到平台层的多维协同设计方案。方案充分考量适配和研发过程中遇到的问题,进一步细化了节点到平台的设计参数,最终目的是提高多元算力芯片的开发和适配、部署效率。

由于面向AIGC训练的服务器具有非常多的高功耗芯片以及高互联带宽设计,稳定性问题严峻,需要更加全面的测试保证系统稳定性,减少断点的发生和对大模型训练效率的影响。因此,《指南》提供了从结构、散热、压力、稳定性、软件兼容性等全面系统的测试指导。

最后,多元算力要推向产业应用,最关键的是性能,包括芯片性能、互联性能、模型性能以及虚拟化性能。《指南》基于前期积累的Benchmark调优经验,提出了性能测评和调优标准及方法,帮助合作伙伴更快、更好地将他们最新的芯片产品推向应用落地,提高算力的可用性。最终目标是推动整个AI算力产业的创新和发展,协同产业链上下游合作伙伴推动整个开放加速生态,共同应对AIGC时代的算力挑战。

审核编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    447

    文章

    47788

    浏览量

    409143
  • 服务器
    +关注

    关注

    12

    文章

    8116

    浏览量

    82518
  • 浪潮
    +关注

    关注

    1

    文章

    404

    浏览量

    23574
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264061
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1115

原文标题:开放加速规范AI服务器 解决大模型时代的多元AI算力挑战

文章出处:【微信号:浪潮AIHPC,微信公众号:浪潮AIHPC】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    浪潮信息发布企业大模型开发平台"元脑企智"EPAI,加速AI创新落地

    北京2024年4月18日 /美通社/ -- 4月17日,在2024浪潮信息生态伙伴大会(IPF2024)上,浪潮信息发布企业大模型开发平台"元脑企智"EPAI(Enterprise Platform
    的头像 发表于 04-18 21:21 147次阅读
    <b class='flag-5'>浪潮信息</b>发布企业大模型开发<b class='flag-5'>平台</b>&quot;元脑企智&quot;EPAI,<b class='flag-5'>加速</b><b class='flag-5'>AI</b>创新落地

    浪潮信息发布企业大模型开发平台“元脑企智”EPAI

    4月17日,在2024浪潮信息生态伙伴大会(IPF2024)上,浪潮信息重磅发布企业大模型开发平台“元脑企智”EPAI(Enterprise Platform of AI),为企业
    的头像 发表于 04-18 10:12 109次阅读
    <b class='flag-5'>浪潮信息</b>发布企业大模型开发<b class='flag-5'>平台</b>“元脑企智”EPAI

    浪潮信息澎湃认证:浪潮信息集中式存储携手仪电云i-stack云操作系统软件完成兼容性认证

    AS/HF系列产品完全兼容,满足功能需求,系统运行可靠稳定,性能表现优异。 浪潮信息澎湃技术认证 是浪潮信息基于自身多元、创新的通用计算平台,与供应链及软件服务等生态合作伙伴共同构建
    的头像 发表于 12-08 16:40 334次阅读
    <b class='flag-5'>浪潮信息</b>澎湃认证:<b class='flag-5'>浪潮信息</b>集中式存储携手仪电云i-stack云操作系统软件完成兼容性认证

    浪潮信息刘军:智算力系统创新 加速生成AI产业发展

    北京2023年12月6日 /美通社/ -- 11月29日,在北京举行的2023人工智能计算大会(AICC)上,浪潮信息高级副总裁刘军在主题演讲《智算力系统创新 加速生成AI产业发展》
    的头像 发表于 12-06 14:08 538次阅读
    <b class='flag-5'>浪潮信息</b>刘军:智算力系统创新 <b class='flag-5'>加速</b><b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>产业发展

    浪潮信息长期赋能MAXIEYE实现云数据中心部署

    ,将共同面向自动驾驶产业下一幕不断升级的AI训练和数据处理需求,打造高效、规模化、平台化的AI智算中心,构建数据驱动、
    的头像 发表于 10-19 16:34 581次阅读

    浪潮信息澎湃认证:浪潮信息集中式存储携手达梦数据库管理系统V8完成兼容性认证

    ,满足功能需求,系统运行可靠稳定,性能表现优异。 浪潮信息澎湃技术认证 是浪潮信息基于自身多元、创新的通用计算平台,与供应链及软件服务等生态合作伙伴共同构建的产品兼容性认证体系,包含“
    的头像 发表于 09-27 17:10 375次阅读
    <b class='flag-5'>浪潮信息</b>澎湃认证:<b class='flag-5'>浪潮信息</b>集中式存储携手达梦数据库管理系统V8完成兼容性认证

    东芝 MG10系列企业级SATA HDD获得浪潮信息澎湃技术兼容性认证

    书。 关于浪潮信息澎湃技术认证 浪潮信息澎湃技术认证是浪潮信息基于自身多元、创新的通用计算平台,与供应链及软件服务等生态合作伙伴共同构建的产
    的头像 发表于 09-22 19:35 452次阅读
    东芝 MG10系列企业级SATA HDD获得<b class='flag-5'>浪潮信息</b>澎湃技术兼容性认证

    浪潮信息发布大模型智算软件栈OGAI,为大模型创新打造高效生产力

    的全栈全流程的智算软件栈。OGAI由浪潮信息基于大模型自身实践与服务客户的专业经验而开发,旨在为大模型研发与应用创新全力打造高效生产力,加速生成AI产业创新步伐。
    的头像 发表于 08-28 08:08 378次阅读

    开放协作铸就浪潮信息集中式全闪存储平台

    最大的开放计算社区 OCP 主办、浪潮信息承办,以“Open Momentum: 智能化、可拓展、可持续”为主题。作为数据基础设施领域的领导者,浪潮信息存储在大会上分享数据存储如何通过开放
    的头像 发表于 08-21 10:10 282次阅读

    浪潮信息联合英特尔发布新一代AI服务器NF5698G7

    浪潮信息联合英特尔发布面向生成AI领域创新开发的新一代AI服务器NF5698G7。该AI服务器
    的头像 发表于 07-13 09:43 421次阅读

    浪潮信息澎湃认证:浪潮分布式存储携手博雅云OneSRM SMP存储管理平台完成兼容性认证

    融合存储AS13000系列产品完全兼容,满足功能需求,系统运行可靠稳定,性能表现优异。 浪潮信息澎湃技术认证 是浪潮信息基于自身多元、创新的通用计算平台,与供应链及软件服务等生态合作伙伴共同
    的头像 发表于 07-12 09:15 375次阅读
    <b class='flag-5'>浪潮信息</b>澎湃认证:<b class='flag-5'>浪潮</b>分布式存储携手博雅云OneSRM SMP存储管理<b class='flag-5'>平台</b>完成兼容性认证

    智慧有数 浪潮信息发布生成AI存储解决方案

    与管理瓶颈,浪潮信息在"数智未来"AIGC数据应用创新论坛上,正式发布面向生成AI的存储解决方案,该方案以极致融合、极致性能、极致节能,和热温冷冰四级数据全生命周期管理,助力开启
    的头像 发表于 07-11 09:46 259次阅读

    智慧有数,浪潮信息发布生成AI存储解决方案

    与管理瓶颈,7月6日,浪潮信息在“数智未来”AIGC数据应用创新论坛上,正式发布面向生成AI的存储解决方案,该方案以极致融合、极致性能、极致节能,和热温冷冰四级数据全生命周期管理,助
    的头像 发表于 07-07 20:45 268次阅读

    浪潮信息智能业务生产创新平台提升大模型算力平台使用效率

    日前,2023全球人工智能产品应用博览会在苏州开幕。浪潮信息智能业务生产创新平台AIStation凭借领先的资源调度与平台管理能力,有效提升大模型算力平台使用效率,荣获智博会核心奖项“
    的头像 发表于 07-03 11:15 647次阅读

    浪潮信息:2023年华南区金融行业客户交流会举办,共话金融数智转型

    代表进行了精彩分享与互动交流,共同探讨如何拥抱AI大模型、隐私计算、大数据、信息安全等新兴热点技术,加速金融业数智升级,构建面向未来智慧金融时代的核心竞争力。 2023年华南区金融行业
    的头像 发表于 06-13 18:15 449次阅读
    <b class='flag-5'>浪潮信息</b>:2023年华南区金融行业客户交流会举办,共话金融数智转型