0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AIStaiton,有效提升大模型算力平台效率

浪潮AIHPC 来源:浪潮AIHP 2023-06-30 15:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

日前,2023全球人工智能产品应用博览会在苏州开幕。浪潮信息智能业务生产创新平台AIStation凭借领先的资源调度与平台管理能力,有效提升大模型算力平台使用效率,荣获智博会核心奖项“产品金奖”。此次获奖,不仅体现了AIStation在大模型算力与业务支撑方面的领先性,也体现了产业对大模型算力平台效率的高度关注。

当前,以大模型为代表的生成式AI技术正在加速发展并革新各行业智能转型路径。生成式AI创新需要基于海量数据集,在拥有成百上千加速卡的AI服务器集群上对千亿级参数的AI大模型进行分布式训练。如何发挥大模型算力平台效能、抑制性能损耗,以高效完成AI大模型的训练部署,已成为AIGC时代的新挑战。

作为专为人工智能开发和部署提供全流程支持的端到端平台,AIStation能够以强大的资源调度和管理能力助力客户加速AI大模型开发与部署,通过对计算资源、数据资源、深度学习软件栈资源进行统一管理,有效提升大模型AI算力集群的使用效率。

一站式管理、毫秒级调度,集群利用率达70%

大模型训练需要构建包含计算、网络、存储、框架等在内的系统性分布式训练环境,传统的分散化管理不仅门槛高、效率低,且缺少针对性优化的整体调度系统,导致大模型计算平台的整体协同性较差,训练算力效率低。

针对分布式训练计算规模大、系统性强的特点,AIStation实现了异构算力集群的统一池化管理,通过自研分布式任务自适应系统将训练底层的计算、存储、网络环境自动化配置,并提供自定义修改基本超参数功能。通过多种资源高效管理和调度策略,AIStation能实现万卡集群的毫秒级调度,提升整体资源利用率到70%以上。

同时,AIStation集成主流的大模型训练框架,依托容器化技术,能够将运行环境、框架适配过程标准化、模块化,支持秒级构建运行环境,保障AI开发和AI业务的高效运行。

瓶颈优化、稳健容错,全流程加速大模型训练

针对大规模分布式训练过程中遇到的算力网络搭建、数据加速、网络通信优化等瓶颈,AIStation通过镜像分发加速、数据缓存加速、网络拓扑调度、资源动态弹性伸缩等特性,在提高计算资源利用率的同时加速整个训练过程。其中,AIStation通过数据缓存机制可让模型训练效率获得200%-300%的提升,并能够根据节点的数据缓存情况自动调度训练任务,避免训练数据重复下载,节省数据加载时间,与自研调度系统配合后,分布式训练线性加速比能够高达0.9,有效抑制多节点协同的性能损耗。

健壮性与稳定性是目前高效完成大模型训练的强要求。对此,AIStation通过提供全生命周期管理、故障容错、集群监控运维等一体化能力,能够实现训练异常和故障的全面检测和自动处理,有效缩短断点续训时间,降低复杂度,以持续稳定的训练降低大模型训练成本和周期。

高效调用,释放大模型应用价值

针对大模型训练完成后的应用部署,AIStation实现训练和推理的全打通,加快模型应用落地。针对大模型实际应用中的调用突发性,AIStation可根据推理服务资源需求的变化及时调整资源配给,根据实时业务的请求量实现秒级服务扩缩容,可支持百万级高并发的大模型AI推理服务场景,服务响应平均延迟低于1ms,突发的访问高峰的响应效率提升50%。

目前,AIStation已经在2457亿参数的“源”大模型训练实践中得到有效验证,支撑 “源”大模型的训练算力效率达44.8%,高于GPT-3的21.3%。同时,某大型商业银行基于AIStation打造的并行运算集群,凭借领先的大规模分布式训练支撑能力,荣获2022IDC“未来数字基础架构领军者”奖项。未来, AIStation平台将持续为各行业的大模型开发与部署提供高效的算力平台管理能力,加速AIGC技术迭代革新。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50325

    浏览量

    266967
  • 算力
    +关注

    关注

    2

    文章

    1674

    浏览量

    16833
  • 大模型
    +关注

    关注

    2

    文章

    3771

    浏览量

    5273

原文标题:【开放试用】AIStaiton,有效提升大模型算力平台效率

文章出处:【微信号:浪潮AIHPC,微信公众号:浪潮AIHPC】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    边缘AI临界点:深度解析176TOPS香橙派AI Station的产业价值

    、内存革命:48GB/96GB LPDDR4X 背后的带宽博弈 很多开发者容易陷入唯论的误区,但在实际部署大模型时,内存容量和带宽往往是真正的性能瓶颈。OrangePi AI Station提供了
    发表于 03-10 14:19

    GPU 利用率<30%?这款开源智平台不浪费 1%

    作为 AI 开发者,你是否早已受够这些困境:花数百万采购的 GPU 集群,利用率常年低于 30%,闲置如同烧钱;跨 CPU/GPU/NPU 异构资源调度难如登天,模型训练卡在资源分配环节;部署
    的头像 发表于 01-26 14:20 282次阅读

    华为荣获服务商互联能力成熟度模型参编证书

    在2025互联网大会期间,互联网服务论坛在成都成功举办。论坛现场举行了《服务商互联能
    的头像 发表于 12-31 11:50 809次阅读

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    MWC Doha 2025|美格智能全新发布60 Tops AI、支持Linux系统的SNM982高AI模组

    QCS8550平台提升25%以上,在模组性能与开放性方面同步提升,现已进入全面量产阶段。全面提升:60Tops
    的头像 发表于 11-25 16:34 2447次阅读
    MWC Doha 2025|美格智能全新发布60 Tops AI<b class='flag-5'>算</b><b class='flag-5'>力</b>、支持Linux系统的SNM982高<b class='flag-5'>算</b><b class='flag-5'>力</b>AI模组

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“是AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下直接拉到256 TFLOPS,比上一代
    发表于 10-27 13:12

    IP广域网助力互联网建设进入快车道

    人工智能大模型等应用爆发式发展带动了智能需求激增,全国各地纷纷建设大量智中心。在迎来新机遇的同时,力行业也面临数据安全、提高企业用
    的头像 发表于 09-25 10:40 871次阅读

    与电力的终极博弈,填上了AIDC的“电力黑洞”

    ),专注于提供人工智能训练与推理所需的服务、数据服务和算法服务。AIDC采用异构计算架构,结合GPU、FPGA、ASIC等多种AI加速芯片,形成高并发分布式系统,以满足大模型训练和推理的极高
    的头像 发表于 09-22 02:43 9016次阅读

    中国智能规模增长将超40%

    表示预计在2025年,中国智能规模增长将超过40%。 据中国信息通信研究院副院长 魏亮表示:目前,中国平台实现了100多个
    的头像 发表于 08-25 19:28 1060次阅读

    科技上线赤兔推理引擎服务,创新解锁FP8大模型

    模型轻量化部署方案。用户通过远程平台预置的模型镜像与AI工具,仅需50%的GPU
    的头像 发表于 07-30 21:44 1046次阅读

    揭秘瑞芯微协处理器,RK3576/RK3588强大搭档

    瑞芯微协处理器-Gongga1(简称“贡嘎”),是瑞芯微针对旗舰芯片平台RK3576/RK3588等SoC平台配套的
    的头像 发表于 07-17 10:00 1555次阅读
    揭秘瑞芯微<b class='flag-5'>算</b><b class='flag-5'>力</b>协处理器,RK3576/RK3588强大<b class='flag-5'>算</b><b class='flag-5'>力</b>搭档

    性能飞跃 慧视8核+32T平台让目标检测帧率提升20倍

    RK3588平台6.0TOPS的在检测识别领域已经能满足绝大多数场景的要求,但在少数应用场景中,需要更高,以实现更快、更稳定、更精准
    的头像 发表于 06-10 17:55 1662次阅读
    性能飞跃 慧视8核+32T<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>平台</b>让目标检测帧率<b class='flag-5'>提升</b>20倍

    摩尔线程与AI平台AutoDL达成深度合作

    近日,摩尔线程与国内领先的AI平台AutoDL宣布达成深度合作,双方联合推出面向个人开发者的“摩尔线程专区”,首次将国产GPU开放至
    的头像 发表于 05-23 16:10 2076次阅读

    软通智中标韶关公共服务平台项目

    日前,软通动力旗下软通智中标《韶关公共服务平台(一体化
    的头像 发表于 05-22 16:19 1169次阅读

    梯度科技助力客户破解调度难题

    在数字经济与人工智能深度融合的新阶段,已成为支撑人工智能发展的核心生产。梯度科技基于云原生技术架构研发的调度
    的头像 发表于 04-27 16:32 1508次阅读