0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮AIStation助力企业AI计算资源使用大幅提升

汽车玩家 来源:中国IDC圈 作者:中国IDC圈 2020-03-20 16:48 次阅读

对于AI企业来说,GPU等计算资源昂贵,如何提高资源利用率,保护计算力投资?如何解决资源抢占,保证资源使用公平合理?如何减少等待时间,提高模型训练效率……这些问题都关系着研发创新的进度。且看浪潮AIStation人工智能开发平台用三招“组合拳”打破计算力壁垒,加速企业AI开发进程。

某企业AI开发面临的问题

某企业有四台8卡GPU服务器供50位开发人员使用,典型的人多资源少。具体来说,有以下几大问题:

人均不足一张GPU卡,GPU使用需要相互协调,开发效率低;

每十多人为一个小组共用一个GPU节点,可能使有的小组资源空闲而有的小组却无资源可用,造成资源孤岛;

缺乏优先机制,重要任务无法得到及时提交;

在白天GPU卡几乎全部用于开发环境创建,开发人员只能在晚上提交训练任务,模型训练数量非常有限。

AIStation三招解决企业算力问题

AIStation是面向AI企业开发场景的人工智能资源平台,可通过资源配额、GPU共享、排队托管三招“组合拳”,智能化分配GPU计算资源,提高资源利用率,帮助用户提高开发效率。

首先,AIStation收拢分散的计算资源,提供集群式的池化管理,并设置资源配额策略,实现多用户公平均衡使用资源。

AIStation将开发用户划分为5个用户组,每个用户组10人,并根据业务需求设置每组和每个用户的使用配额,如可设置每组使用6张GPU卡、40个CPU核。并对每个用户的开发环境使用时长、同时提交任务数量进行限制。

其次,AIStation通过GPU共享策略,可以让多人共用一张GPU卡且互不影响。

AIStation统一管理4台GPU节点,将其中2个节点的16张GPU卡设置为开发资源组,用于开发环境创建,剩下16张GPU卡为训练资源组,用于模型训练。通过共享策略,AIStation可将开发资源组的每张GPU卡切分为8份,每份使用4G显存。这样原来的16张GPU卡相当于变为了128张卡。并且通过设置CPU超线程策略扩展CPU核数,满足50个用户同时创建开发环境的需求。用户也可以根据自己的模型设置batchsize和显存使用的大小。

GPU共享模式

最后,AIStation通过任务排队托管、定义任务优先级,充分利用空闲时间训练任务,并且可根据优先级调度任务排队运行。

用户可同时提交多个训练任务,资源不足时排队等待,一个任务训练结束后自动释放资源给排队等待的任务,从而可以充分利用夜间、周末训练任务,延长GPU的使用时间。同时用户可设置优先级,让重要任务优先训练。

开发用户任务托管

AIStation取得显著效果

GPU使用时间加大近1倍。原来单个GPU节点分配给一个用户小组使用,每卡每天的平均使用时间仅为14.4小时。AIStation通过GPU共享、任务托管,解决资源孤岛,将每卡每天的平均使用时间提升到22.8小时。

一天周期内集群GPU使用情况

GPU利用率提升50%。原来用户在开发阶段独占一张GPU,GPU利用率仅为10%,训练阶段可达90%,每天每卡的平均利用率为30%。使用AIStation后,开发阶段8人共用一张GPU卡,GPU利用率可上升为80%,训练阶段为90%,每天每卡的利用率可达到80%。

GPU使用情况对比

每周训练任务的数量增大一倍多。假设提交一个ImageNet数据集和一个ResNet50模型,使用1张Tesla V100 GPU卡训练任务,每个任务的训练时间大概为12小时。

原来因为人均不够一张卡,白天GPU卡用于创建开发环境,晚上才能训练任务,那么一个工作日可以完成的任务数最多为32个,即一周可以完成160个任务。

而AIStation支持任务排队,可以最大限度的使用GPU资源。一周可以完成368个任务数,效率提升2.3倍。假设开发团队单个项目平均需要训练的任务数为50,那么每个月的项目完成数从3个提升到7个。

可以看出,浪潮AIStation通过对计算资源的高效管理、调度,在GPU使用时间、利用率和训练任务数量上,相比原方案均实现了大幅提升,最大化地优化了资源使用。

浪潮AIStation人工智能资源平台面向AI企业开发场景,致力于帮助企业构建一体化的AI开发平台,为AI开发工程师提供高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI开发业务整合,助力AI企业提高开发效率和产品上市速度,增强企业竞争力。

除了高效的资源管理,AIStation在开发环境创建、数据管理、开发流程管理等方面也表现出色。在后续文章中,我们将结合实际应用场景为大家详细介绍,敬请关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4415

    浏览量

    126642
  • 浪潮
    +关注

    关注

    1

    文章

    404

    浏览量

    23573
  • AI
    AI
    +关注

    关注

    87

    文章

    26422

    浏览量

    264024
收藏 人收藏

    评论

    相关推荐

    浪潮信息发布企业大模型开发平台"元脑企智"EPAI,加速AI创新落地

    北京2024年4月18日 /美通社/ -- 4月17日,在2024浪潮信息生态伙伴大会(IPF2024)上,浪潮信息发布企业大模型开发平台"元脑企智"EPAI(Enterprise Platform
    的头像 发表于 04-18 21:21 134次阅读
    <b class='flag-5'>浪潮</b>信息发布<b class='flag-5'>企业</b>大模型开发平台&quot;元脑企智&quot;EPAI,加速<b class='flag-5'>AI</b>创新落地

    浪潮信息发布企业大模型开发平台“元脑企智”EPAI

    4月17日,在2024浪潮信息生态伙伴大会(IPF2024)上,浪潮信息重磅发布企业大模型开发平台“元脑企智”EPAI(Enterprise Platform of AI),为
    的头像 发表于 04-18 10:12 102次阅读
    <b class='flag-5'>浪潮</b>信息发布<b class='flag-5'>企业</b>大模型开发平台“元脑企智”EPAI

    潞晨科技Colossal-AI浪潮信息AIStation完成兼容性互认证

    近日,潞晨科技的Colossal-AI大模型开发工具和浪潮信息的AIStation智能业务创新生产平台成功完成了兼容性互认证。这一合作意味着用户可以在AIStation平台上便捷地部署
    的头像 发表于 03-06 10:18 260次阅读

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型开发效率提升10倍

    北京2024年2月29日 /美通社/ -- 近日,潞晨科技Colossal-AI大模型开发工具与浪潮信息AIStation智能业务创新生产平台完成兼容性互认证。基于AIStation
    的头像 发表于 03-01 09:43 235次阅读
    潞晨科技Colossal-<b class='flag-5'>AI</b> + <b class='flag-5'>浪潮</b>信息<b class='flag-5'>AIStation</b>,大模型开发效率<b class='flag-5'>提升</b>10倍

    边缘计算盒子护航企业安全生产,边缘设备提高安全生产监管效率

    助力企业安全生产,实现本地设备智能管理与降本增效“两手抓”,不少智慧工地、煤矿安全、危化品管理等安全生产场景下开始着重部署智能边缘分析设备——远景达AI边缘计算盒子,其不仅涵盖智能化
    的头像 发表于 01-04 15:42 146次阅读
    边缘<b class='flag-5'>计算</b>盒子护航<b class='flag-5'>企业</b>安全生产,边缘设备提高安全生产监管效率

    亚马逊云科技生成式AI最新案例分析,助力企业业务创新迭代

    的案例。 开启生成式AI的探索之旅 生成式AI热门方案 AI设计解决方案:Canva可画企业服务提供一站式设计解决方案;帮助团队快速、轻松地输出符合品牌的视觉内容,
    的头像 发表于 10-24 17:06 336次阅读
    亚马逊云科技生成式<b class='flag-5'>AI</b>最新案例分析,<b class='flag-5'>助力</b><b class='flag-5'>企业</b>业务创新迭代

    AI智能呼叫中心

    对这些数据的深入分析,呼叫中心可以有效改进服务质量、优化流程并提升业绩,此外,AI智能呼叫中心还可以基于数据分析的结果,进行智能预测并制定更加科学的策略,为企业的未来决策提供有力支持。四、节约成本传统
    发表于 09-20 17:53

    NVIDIA AI Enterprise 4.0 推出,助力企业构建生产就绪的生成式 AI 为业务赋能

    时。NVIDIA 正在将专业知识投入到解决方案的开发过程中,助力企业实现这样的飞跃。 推出 NVIDIA AI Enterprise 4.0 最新版  NVIDIA AI Enterp
    的头像 发表于 09-19 20:20 388次阅读
    NVIDIA <b class='flag-5'>AI</b> Enterprise 4.0 推出,<b class='flag-5'>助力</b><b class='flag-5'>企业</b>构建生产就绪的生成式 <b class='flag-5'>AI</b> 为业务赋能

    墨芯支持Byte MLPerf助力AI应用

    在大模型趋势下,墨芯通过领先的稀疏计算优势,助力企业加速AI应用,商业化进程接连取得重要突破。
    的头像 发表于 09-07 11:37 664次阅读
    墨芯支持Byte MLPerf<b class='flag-5'>助力</b><b class='flag-5'>AI</b>应用

    软通AI端云一体化产品,精彩亮相华为云828 B2B企业

    “ 成就好生意,成为好企业”   第二届828 B2B企业节火热启动,提升数据价值、创造无限可能,软通动力联合华为云推出AI端云一体化产品,助力
    的头像 发表于 09-05 21:10 271次阅读
    软通<b class='flag-5'>AI</b>端云一体化产品,精彩亮相华为云828 B2B<b class='flag-5'>企业</b>节

    OrionX AI芯片计算资源池化技术

    AI 应用与物理 GPU 服务器分离部署,允许通过高性能网络远程调用 GPU资源。这样可以实现 AI 应用与物理 GPU 资源剥离,AI
    的头像 发表于 07-10 14:48 2187次阅读
    OrionX <b class='flag-5'>AI</b>芯片<b class='flag-5'>计算</b><b class='flag-5'>资源</b>池化技术

    浪潮信息智能业务生产创新平台提升大模型算力平台使用效率

    日前,2023全球人工智能产品应用博览会在苏州开幕。浪潮信息智能业务生产创新平台AIStation凭借领先的资源调度与平台管理能力,有效提升大模型算力平台使用效率,荣获智博会核心奖项“
    的头像 发表于 07-03 11:15 643次阅读

    AIStaiton,有效提升大模型算力平台效率

    作为专为人工智能开发和部署提供全流程支持的端到端平台,AIStation能够以强大的资源调度和管理能力助力客户加速AI大模型开发与部署,通过对计算
    的头像 发表于 06-30 15:06 360次阅读

    半导体企业如何决胜2023秋招?

    助力各位真正提升招聘效率! 本次大同学吧联合 上海思将企业管理咨询有限公司 (半导体HR公会) 上海肯耐珂萨人力资源科技股份有限公司 为大家带来 《2023集成电路行业秋招战略布局
    发表于 06-01 14:52

    AI助力初创企业:运用机器学习解决问题

    助力初创企业解决这些难题及其他问题。在这类初创企业当中,AI不是产品的一部分,它的实施最终是为了帮助初创企业解决业务问题、改进流程和
    的头像 发表于 05-16 10:46 453次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>助力</b>初创<b class='flag-5'>企业</b>:运用机器学习解决问题