0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮信息智能业务生产创新平台提升大模型算力平台使用效率

浪潮AIHPC 来源:浪潮AIHPC 2023-07-03 11:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

日前,2023全球人工智能产品应用博览会在苏州开幕。浪潮信息智能业务生产创新平台AIStation凭借领先的资源调度与平台管理能力,有效提升大模型算力平台使用效率,荣获智博会核心奖项“产品金奖”。此次获奖,不仅体现了AIStation在大模型算力与业务支撑方面的领先性,也体现了产业对大模型算力平台效率的高度关注。

提升大模型算力平台使用效率

当前,以大模型为代表的生成式AI技术正在加速发展并革新各行业智能转型路径。生成式AI创新需要基于海量数据集,在拥有成百上千加速卡的AI服务器集群上对千亿级参数的AI大模型进行分布式训练。如何发挥大模型算力平台效能、抑制性能损耗,以高效完成AI大模型的训练部署,已成为AIGC时代的新挑战。

作为专为人工智能开发和部署提供全流程支持的端到端平台,AIStation能够以强大的资源调度和管理能力助力客户加速AI大模型开发与部署,通过对计算资源、数据资源、深度学习软件栈资源进行统一管理,有效提升大模型AI算力集群的使用效率。

一站式管理、毫秒级调度,集群利用率达70%

大模型训练需要构建包含计算、网络、存储、框架等在内的系统性分布式训练环境,传统的分散化管理不仅门槛高、效率低,且缺少针对性优化的整体调度系统,导致大模型计算平台的整体协同性较差,训练算力效率低。

针对分布式训练计算规模大、系统性强的特点,AIStation实现了异构算力集群的统一池化管理,通过自研分布式任务自适应系统将训练底层的计算、存储、网络环境自动化配置,并提供自定义修改基本超参数功能。通过多种资源高效管理和调度策略,AIStation能实现万卡集群的毫秒级调度,提升整体资源利用率到70%以上。

同时,AIStation集成主流的大模型训练框架,依托容器化技术,能够将运行环境、框架适配过程标准化、模块化,支持秒级构建运行环境,保障AI开发和AI业务的高效运行。

瓶颈优化、稳健容错,全流程加速大模型训练

针对大规模分布式训练过程中遇到的算力网络搭建、数据加速、网络通信优化等瓶颈,AIStation通过镜像分发加速、数据缓存加速、网络拓扑调度、资源动态弹性伸缩等特性,在提高计算资源利用率的同时加速整个训练过程。其中,AIStation通过数据缓存机制可让模型训练效率获得200%-300%的提升,并能够根据节点的数据缓存情况自动调度训练任务,避免训练数据重复下载,节省数据加载时间,与自研调度系统配合后,分布式训练线性加速比能够高达0.9,有效抑制多节点协同的性能损耗。

健壮性与稳定性是目前高效完成大模型训练的强要求。对此,AIStation通过提供全生命周期管理、故障容错、集群监控运维等一体化能力,能够实现训练异常和故障的全面检测和自动处理,有效缩短断点续训时间,降低复杂度,以持续稳定的训练降低大模型训练成本和周期。

高效调用,释放大模型应用价值

针对大模型训练完成后的应用部署,AIStation实现训练和推理的全打通,加快模型应用落地。针对大模型实际应用中的调用突发性,AIStation可根据推理服务资源需求的变化及时调整资源配给,根据实时业务的请求量实现秒级服务扩缩容,可支持百万级高并发的大模型AI推理服务场景,服务响应平均延迟低于1ms,突发的访问高峰的响应效率提升50%。

目前,AIStation已经在2457亿参数的“源”大模型训练实践中得到有效验证,支撑 “源”大模型的训练算力效率达44.8%,高于GPT-3的21.3%。同时,某大型商业银行基于AIStation打造的并行运算集群,凭借领先的大规模分布式训练支撑能力,荣获2022IDC“未来数字基础架构领军者”奖项。未来, AIStation平台将持续为各行业的大模型开发与部署提供高效的算力平台管理能力,加速AIGC技术迭代革新。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 浪潮
    +关注

    关注

    1

    文章

    490

    浏览量

    25487
  • 模型
    +关注

    关注

    1

    文章

    3818

    浏览量

    52269
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261

原文标题:【开放试用】AIStation,有效提升大模型算力平台使用效率

文章出处:【微信号:浪潮AIHPC,微信公众号:浪潮AIHPC】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    快,稳,智——集特智能GM9-5602:定义下一代工业智能标准

    当数据成为新时代的石油,便是开采它的钻机。在数字化转型的浪潮中,企业需要的不仅是一块主板,更是一个能够承载创新、加速突破的智能
    的头像 发表于 02-25 16:57 1352次阅读
    快,稳,智——集特<b class='flag-5'>智能</b>GM9-5602:定义下一代工业<b class='flag-5'>智能</b><b class='flag-5'>算</b><b class='flag-5'>力</b>标准

    小艺开放平台平台功能

    三种开发模式支撑智能体灵活构建 LLM模式 LLM 模式是一种基于大模型智能体编排方式。开发者按需选择大模型,根据业务逻辑编写提示词,以L
    发表于 01-30 15:24

    芯科科技与涂鸦智能携手推出免编码AIoT智能照明创新开发平台

    新平台可加速 智能照明 创新进程及 人工智能物联网 ( AIoT ) 生态系统**构建 对于许多消费者而言,智能照明帮助他们首次亲身体验到了
    的头像 发表于 01-27 12:07 529次阅读
    芯科科技与涂鸦<b class='flag-5'>智能</b>携手推出免编码AIoT<b class='flag-5'>智能</b>照明<b class='flag-5'>创新</b>开发<b class='flag-5'>平台</b>

    芯科科技助力涂鸦智能推出免编码AIoT平台

    新平台可加速智能照明创新进程及人工智能物联网(AIoT)生态系统构建
    的头像 发表于 01-21 11:28 325次阅读

    湘军,让变成生产力

    脑极体
    发布于 :2025年11月25日 22:56:58

    旺电子荣获台积公司2025年度开放创新平台合作伙伴奖

    旺电子今年再度荣获台积公司开放创新平台(OIP)年度合作伙伴奖,这也是旺连续第16年获得此一殊荣。该奖肯定了旺电子在嵌入式内存硅智财的持续创新
    的头像 发表于 10-31 10:28 619次阅读

    新思科技斩获2025年台积公司开放创新平台年度合作伙伴大奖

    新思科技作为重要的合作伙伴,再次获台积公司认可。在2025年台积公司开放创新平台(Open Innovation Platform,简称OIP)生态系统论坛上,我们荣膺六项年度合作伙伴大奖。这些奖项
    的头像 发表于 10-24 16:31 1394次阅读

    中国智能规模增长将超40%

    表示预计在2025年,中国智能规模增长将超过40%。 据中国信息通信研究院副院长 魏亮表示:目前,中国
    的头像 发表于 08-25 19:28 1060次阅读

    浪潮信息发布&quot;元脑SD200&quot;超节点,面向万亿参数大模型创新设计

    北京2025年8月8日 /美通社/ -- 8月7日,浪潮信息发布面向万亿参数大模型的超节点AI服务器"元脑SD200"。该产品基于浪潮信息创新研发的多主机低延迟内存语义通信架构,以开放
    的头像 发表于 08-08 22:17 782次阅读
    <b class='flag-5'>浪潮信息</b>发布&quot;元脑SD200&quot;超节点,面向万亿参数大<b class='flag-5'>模型</b><b class='flag-5'>创新</b>设计

    科技上线赤兔推理引擎服务,创新解锁FP8大模型

    模型轻量化部署方案。用户通过远程平台预置的模型镜像与AI工具,仅需50%的GPU
    的头像 发表于 07-30 21:44 1046次阅读

    飞利信与浪潮信息达成战略合作

    近日,2025年浪潮信息北京ISP战略伙伴签约授牌仪式成功举办。浪潮信息与北京飞利信电子技术有限公司等22家战略合作伙伴达成签约,其中将面向北京人工智能应用大市场,在产品技术共创、行业场景深化及区域
    的头像 发表于 06-24 17:37 1242次阅读

    中科曙光助力中国农大生物高性能平台落地

    近日,中国农业大学国家生物育种产教融合创新平台高性能计算机系统,经过验收投入使用。该系统由中科曙光依托“超智融合”技术方案建设,集生物信息分析、大数据分析、AI数据挖掘、育种模型训练等能力,为生物育种等科研项目等提供
    的头像 发表于 06-07 09:20 1153次阅读

    明晚开播 | 数据智能系列讲座第6期:大模型革命背后的架构创新

    鹭岛论坛数据智能系列讲座第6期「大模型革命背后的架构创新」/RVEI并行计算工作组(SIG-PP)技术沙龙/明晚(21日)8点精彩开播期
    的头像 发表于 05-20 08:04 577次阅读
    明晚开播 | 数据<b class='flag-5'>智能</b>系列讲座第6期:大<b class='flag-5'>模型</b>革命背后的<b class='flag-5'>算</b><b class='flag-5'>力</b>架构<b class='flag-5'>创新</b>

    基于魔方的智能文档信息提取方案

    的进步,使得自动化和智能化的文档信息提取成为现实。本方案结合了Intel OpenVINO平台的性能优化优势与百度飞桨(PaddlePaddle)提供的PP-OCRv4模型,旨在开发一
    的头像 发表于 05-15 10:37 730次阅读
    基于<b class='flag-5'>算</b><b class='flag-5'>力</b>魔方的<b class='flag-5'>智能</b>文档<b class='flag-5'>信息</b>提取方案

    梯度科技助力客户破解调度难题

    在数字经济与人工智能深度融合的新阶段,已成为支撑人工智能发展的核心生产力。梯度科技基于云原生技术架构研发的
    的头像 发表于 04-27 16:32 1508次阅读