0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AIStaiton,有效提升大模型算力平台效率

浪潮AIHPC 来源:浪潮AIHP 2023-06-30 15:06 次阅读

日前,2023全球人工智能产品应用博览会在苏州开幕。浪潮信息智能业务生产创新平台AIStation凭借领先的资源调度与平台管理能力,有效提升大模型算力平台使用效率,荣获智博会核心奖项“产品金奖”。此次获奖,不仅体现了AIStation在大模型算力与业务支撑方面的领先性,也体现了产业对大模型算力平台效率的高度关注。

当前,以大模型为代表的生成式AI技术正在加速发展并革新各行业智能转型路径。生成式AI创新需要基于海量数据集,在拥有成百上千加速卡的AI服务器集群上对千亿级参数的AI大模型进行分布式训练。如何发挥大模型算力平台效能、抑制性能损耗,以高效完成AI大模型的训练部署,已成为AIGC时代的新挑战。

作为专为人工智能开发和部署提供全流程支持的端到端平台,AIStation能够以强大的资源调度和管理能力助力客户加速AI大模型开发与部署,通过对计算资源、数据资源、深度学习软件栈资源进行统一管理,有效提升大模型AI算力集群的使用效率。

一站式管理、毫秒级调度,集群利用率达70%

大模型训练需要构建包含计算、网络、存储、框架等在内的系统性分布式训练环境,传统的分散化管理不仅门槛高、效率低,且缺少针对性优化的整体调度系统,导致大模型计算平台的整体协同性较差,训练算力效率低。

针对分布式训练计算规模大、系统性强的特点,AIStation实现了异构算力集群的统一池化管理,通过自研分布式任务自适应系统将训练底层的计算、存储、网络环境自动化配置,并提供自定义修改基本超参数功能。通过多种资源高效管理和调度策略,AIStation能实现万卡集群的毫秒级调度,提升整体资源利用率到70%以上。

同时,AIStation集成主流的大模型训练框架,依托容器化技术,能够将运行环境、框架适配过程标准化、模块化,支持秒级构建运行环境,保障AI开发和AI业务的高效运行。

瓶颈优化、稳健容错,全流程加速大模型训练

针对大规模分布式训练过程中遇到的算力网络搭建、数据加速、网络通信优化等瓶颈,AIStation通过镜像分发加速、数据缓存加速、网络拓扑调度、资源动态弹性伸缩等特性,在提高计算资源利用率的同时加速整个训练过程。其中,AIStation通过数据缓存机制可让模型训练效率获得200%-300%的提升,并能够根据节点的数据缓存情况自动调度训练任务,避免训练数据重复下载,节省数据加载时间,与自研调度系统配合后,分布式训练线性加速比能够高达0.9,有效抑制多节点协同的性能损耗。

健壮性与稳定性是目前高效完成大模型训练的强要求。对此,AIStation通过提供全生命周期管理、故障容错、集群监控运维等一体化能力,能够实现训练异常和故障的全面检测和自动处理,有效缩短断点续训时间,降低复杂度,以持续稳定的训练降低大模型训练成本和周期。

高效调用,释放大模型应用价值

针对大模型训练完成后的应用部署,AIStation实现训练和推理的全打通,加快模型应用落地。针对大模型实际应用中的调用突发性,AIStation可根据推理服务资源需求的变化及时调整资源配给,根据实时业务的请求量实现秒级服务扩缩容,可支持百万级高并发的大模型AI推理服务场景,服务响应平均延迟低于1ms,突发的访问高峰的响应效率提升50%。

目前,AIStation已经在2457亿参数的“源”大模型训练实践中得到有效验证,支撑 “源”大模型的训练算力效率达44.8%,高于GPT-3的21.3%。同时,某大型商业银行基于AIStation打造的并行运算集群,凭借领先的大规模分布式训练支撑能力,荣获2022IDC“未来数字基础架构领军者”奖项。未来, AIStation平台将持续为各行业的大模型开发与部署提供高效的算力平台管理能力,加速AIGC技术迭代革新。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43871

    浏览量

    230620
  • 算力
    +关注

    关注

    1

    文章

    659

    浏览量

    14359
  • 大模型
    +关注

    关注

    2

    文章

    1532

    浏览量

    1117

原文标题:【开放试用】AIStaiton,有效提升大模型算力平台效率

文章出处:【微信号:浪潮AIHPC,微信公众号:浪潮AIHPC】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    李彦宏:开源模型将逐渐滞后,文心大模型提升训练与推理效率

    李彦宏解释道,百度自研的基础模型——文心 4.0,能够根据需求塑造出适应各类场景的微型版模型,并支持精细调整以及后预训练。相较于直接使用开源模型,这种经过降维处理的模型在同等尺寸下表现
    的头像 发表于 04-16 14:37 107次阅读

    昇腾支持下,北京的大模型企业都在做些什么?

    行业芯事模型
    脑极体
    发布于 :2024年03月07日 18:11:28

    EMC测试整改:提升产品合规性和市场竞争?|深圳比创达电子

    EMC测试整改:提升产品合规性和市场竞争?|深圳比创达电子在当前的产品研发和制造领域,电磁兼容(EMC)测试是确保产品符合法规要求并能够在各种电磁环境下正常工作的重要环节。然而,很多企业在进行
    发表于 03-07 09:50

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型开发效率提升10倍

    的潞晨科技Colossal-AI系统,用户可实现在本地算力平台一键训练、微调、推理、部署大模型,将大模型开发效率提升10倍以上,并将算力
    的头像 发表于 03-01 09:43 239次阅读
    潞晨科技Colossal-AI + 浪潮信息AIStation,大<b class='flag-5'>模型</b>开发<b class='flag-5'>效率</b><b class='flag-5'>提升</b>10倍

    能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

    通过网络可以了解到,能RADXA微服务器的具体规格: 处理器:BM1684X :高达32Tops INT8峰值 内存:16GB L
    发表于 02-28 11:21

    iBeLink KS MAX 10.5T大领跑KAS新领域

    挖掘机,它可以为用户提供超高的,低廉的功耗,以及舒适的使用体验。如果您想要加入Kaspa的挖掘行列,或者想要提升您的挖掘效率和收获,那么iBeLink ks max 10.5T是您
    发表于 02-20 16:11

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    安科瑞企业微电网能效管理平台提升能源效率的新利器

    企业微电网能效管理平台作为提升企业能源效率的新利器,已在众多行业中得到了广泛应用和验证。该平台通过实时监控、数据分析等技术手段,帮助企业全面了解能源设备的运行状态和能耗情况,优化能源利
    的头像 发表于 11-13 17:40 237次阅读
    安科瑞企业微电网能效管理<b class='flag-5'>平台</b>:<b class='flag-5'>提升</b>能源<b class='flag-5'>效率</b>的新利器

    当大模型被塞进PC:如何提升算力利用效率

    第三,我们看到生成式 AI 目前主要应用于人机对话,但我们更看好它在各种行业中,尤其是垂直行业中的应用潜力。例如,目前人们正在探讨用于医疗领域的大型模型,专为银行系统设计的大型模型,甚至为金融等垂直行业开发的模型。因此,我们对它
    的头像 发表于 11-10 16:45 420次阅读

    PODsys:大模型AI算力平台部署的开源“神器”

    的大模型研发工具和框架。在算力平台的部署过程中,大模型研发机构常常需要面对一系列的问题:大模型算力平台是什么样的?如何快速构建大
    的头像 发表于 11-08 09:17 462次阅读
    PODsys:大<b class='flag-5'>模型</b>AI算力<b class='flag-5'>平台</b>部署的开源“神器”

    中国计算机大会现场王海峰揭秘文心大模型4.0

    王海峰表示,基于更强平台、更优数据、更好算法,我们训练出规模更大、效果更好的文心大模型4.0。通过飞桨与文心的协同优化,模型周均训练有效率超过98%,训练算法
    的头像 发表于 10-29 11:35 518次阅读

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    平台通过软硬件深度协同,较经典方案提升超 8 成性能,支持运行 170 余个主流 AI 模型,推动 RISC-V 进入高性能 AI 应用时代。 平头哥表示,他们通过更新自研一站式 AI 部署套件
    发表于 08-26 14:14

    TASMO——自动生成模型测试用例,提升测试效率#TPT #simulink

    模型
    北汇信息POLELINK
    发布于 :2023年07月10日 18:25:12

    浪潮信息智能业务生产创新平台提升模型算力平台使用效率

    日前,2023全球人工智能产品应用博览会在苏州开幕。浪潮信息智能业务生产创新平台AIStation凭借领先的资源调度与平台管理能力,有效提升模型
    的头像 发表于 07-03 11:15 647次阅读

    瑞芯微RK3568开发板安防后端方案赋能NVR/XVR全面硬件升级

    ,同时采用22nm先进工艺,确保低功耗高性能。“安防智能化应用的三大关键基础要素是、算法及数据。随着人工智能在行业的广泛落地,智能安防对于的要求不断
    发表于 05-06 10:52