0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮AIStation助力企业AI计算资源使用大幅提升

汽车玩家 来源:中国IDC圈 作者:中国IDC圈 2020-03-20 16:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对于AI企业来说,GPU等计算资源昂贵,如何提高资源利用率,保护计算力投资?如何解决资源抢占,保证资源使用公平合理?如何减少等待时间,提高模型训练效率……这些问题都关系着研发创新的进度。且看浪潮AIStation人工智能开发平台用三招“组合拳”打破计算力壁垒,加速企业AI开发进程。

某企业AI开发面临的问题

某企业有四台8卡GPU服务器供50位开发人员使用,典型的人多资源少。具体来说,有以下几大问题:

人均不足一张GPU卡,GPU使用需要相互协调,开发效率低;

每十多人为一个小组共用一个GPU节点,可能使有的小组资源空闲而有的小组却无资源可用,造成资源孤岛;

缺乏优先机制,重要任务无法得到及时提交;

在白天GPU卡几乎全部用于开发环境创建,开发人员只能在晚上提交训练任务,模型训练数量非常有限。

AIStation三招解决企业算力问题

AIStation是面向AI企业开发场景的人工智能资源平台,可通过资源配额、GPU共享、排队托管三招“组合拳”,智能化分配GPU计算资源,提高资源利用率,帮助用户提高开发效率。

首先,AIStation收拢分散的计算资源,提供集群式的池化管理,并设置资源配额策略,实现多用户公平均衡使用资源。

AIStation将开发用户划分为5个用户组,每个用户组10人,并根据业务需求设置每组和每个用户的使用配额,如可设置每组使用6张GPU卡、40个CPU核。并对每个用户的开发环境使用时长、同时提交任务数量进行限制。

其次,AIStation通过GPU共享策略,可以让多人共用一张GPU卡且互不影响。

AIStation统一管理4台GPU节点,将其中2个节点的16张GPU卡设置为开发资源组,用于开发环境创建,剩下16张GPU卡为训练资源组,用于模型训练。通过共享策略,AIStation可将开发资源组的每张GPU卡切分为8份,每份使用4G显存。这样原来的16张GPU卡相当于变为了128张卡。并且通过设置CPU超线程策略扩展CPU核数,满足50个用户同时创建开发环境的需求。用户也可以根据自己的模型设置batchsize和显存使用的大小。

GPU共享模式

最后,AIStation通过任务排队托管、定义任务优先级,充分利用空闲时间训练任务,并且可根据优先级调度任务排队运行。

用户可同时提交多个训练任务,资源不足时排队等待,一个任务训练结束后自动释放资源给排队等待的任务,从而可以充分利用夜间、周末训练任务,延长GPU的使用时间。同时用户可设置优先级,让重要任务优先训练。

开发用户任务托管

AIStation取得显著效果

GPU使用时间加大近1倍。原来单个GPU节点分配给一个用户小组使用,每卡每天的平均使用时间仅为14.4小时。AIStation通过GPU共享、任务托管,解决资源孤岛,将每卡每天的平均使用时间提升到22.8小时。

一天周期内集群GPU使用情况

GPU利用率提升50%。原来用户在开发阶段独占一张GPU,GPU利用率仅为10%,训练阶段可达90%,每天每卡的平均利用率为30%。使用AIStation后,开发阶段8人共用一张GPU卡,GPU利用率可上升为80%,训练阶段为90%,每天每卡的利用率可达到80%。

GPU使用情况对比

每周训练任务的数量增大一倍多。假设提交一个ImageNet数据集和一个ResNet50模型,使用1张Tesla V100 GPU卡训练任务,每个任务的训练时间大概为12小时。

原来因为人均不够一张卡,白天GPU卡用于创建开发环境,晚上才能训练任务,那么一个工作日可以完成的任务数最多为32个,即一周可以完成160个任务。

而AIStation支持任务排队,可以最大限度的使用GPU资源。一周可以完成368个任务数,效率提升2.3倍。假设开发团队单个项目平均需要训练的任务数为50,那么每个月的项目完成数从3个提升到7个。

可以看出,浪潮AIStation通过对计算资源的高效管理、调度,在GPU使用时间、利用率和训练任务数量上,相比原方案均实现了大幅提升,最大化地优化了资源使用。

浪潮AIStation人工智能资源平台面向AI企业开发场景,致力于帮助企业构建一体化的AI开发平台,为AI开发工程师提供高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI开发业务整合,助力AI企业提高开发效率和产品上市速度,增强企业竞争力。

除了高效的资源管理,AIStation在开发环境创建、数据管理、开发流程管理等方面也表现出色。在后续文章中,我们将结合实际应用场景为大家详细介绍,敬请关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134459
  • 浪潮
    +关注

    关注

    1

    文章

    476

    浏览量

    25305
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296598
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    是展望未来的AGI芯片,并探讨相关的发展和伦理话题。 各章的目录名称如下: 第1章 大模型浪潮下,AI芯片的需求与挑战免费 第2章 实现深度学习AI芯片的创新方法与架构 第3章 AI
    发表于 09-05 15:10

    AI 芯片浪潮下,职场晋升新契机?

    、新架构不断涌现。能够在工作中提出创新性的解决方案,推动 AI 芯片性能、功耗、成本等关键指标的优化,将极大提升在职称评审中的竞争力。例如,在芯片设计中引入新的计算范式,如存算一体技术,有效解决传统冯・诺
    发表于 08-19 08:58

    睿海光电800G光模块助力全球AI基建升级

    18%。 智算中心建设:与国内AI独角兽合作,提供支持液冷散热的800G模块集群,助力其大模型训练效率提升30%。 边缘计算网络:在北美某5G运营商边缘节点中,基于DML方案的SR8模
    发表于 08-13 19:05

    RAKsmart服务器如何助力企业破解AI转型的难题

    当今,企业AI转型已成为提升竞争力的核心战略。然而,算力不足、成本失控、部署复杂等问题却成为横亘在转型路上的“三座大山”。面对这一挑战,RAKsmart服务器凭借其技术创新与全球化资源
    的头像 发表于 05-27 10:00 329次阅读

    提升AI训练性能:GPU资源优化的12个实战技巧

    在人工智能与机器学习技术迅速发展的背景下,GPU计算资源的高效利用已成为关键技术指标。优化的GPU资源分配不仅能显著提升模型训练速度,还能实现计算
    的头像 发表于 05-06 11:17 1178次阅读
    <b class='flag-5'>提升</b><b class='flag-5'>AI</b>训练性能:GPU<b class='flag-5'>资源</b>优化的12个实战技巧

    DevEco Studio AI辅助开发工具两大升级功能 鸿蒙应用开发效率再提升

    随着搭载HarmonyOS 5的Pura X发布,鸿蒙生态进入快车道,各应用正在加速适配开发,越来越多开发者加入到鸿蒙应用开发浪潮中。为提升鸿蒙应用开发效率,华为前不久上线了首款开发
    发表于 04-18 14:43

    RAKsmart智能算力架构:异构计算+低时延网络驱动企业AI训练范式升级

    AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临算力效率与成本的双重挑战。RAKsmart推出的智能算力架构,以异构计算资源
    的头像 发表于 04-17 09:29 597次阅读

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    RZ/V2N——近期在嵌入式世界2025上新发布,为 AI 计算、嵌入式系统及工自动化提供强大支持。这款全新的计算平台旨在满足开发者和企业用户对高性能、低功耗和灵活扩展的需求。 [](
    发表于 03-19 17:54

    浪潮信息:元脑EPAI已接入DeepSeek,大幅提升DeepSeek企业应用准确率

    北京2025年2月21日 /美通社/ -- 浪潮信息宣布元脑企智EPAI企业大模型开发平台已全面接入支持DeepSeek大模型。通过元脑企智EPAI,企业用户能够将业务数据与DeepSeek大模型
    的头像 发表于 02-23 07:32 885次阅读
    <b class='flag-5'>浪潮</b>信息:元脑EPAI已接入DeepSeek,<b class='flag-5'>大幅</b><b class='flag-5'>提升</b>DeepSeek<b class='flag-5'>企业</b>应用准确率

    AI技术如何助力企业数据资产管理

    企业如何将海量信息转化为战略资本?AI技术持续突破又会给数据资产化带来什么助力?以下是DeepSeek整理的答案,供大家参考。
    的头像 发表于 02-15 14:03 1303次阅读

    AI赋能边缘网关:开启智能时代的新蓝海

    在数字化转型的浪潮中,AI与边缘计算的结合正掀起一场深刻的产业变革。边缘网关作为连接物理世界与数字世界的桥梁,在AI技术的加持下,正从简单的数据采集传输节点,进化为具备智能决策能力的边
    发表于 02-15 11:41

    Gupshup加速企业AI应用进程

    推出其AI代理库(AI Agent Library),这是一套由15个预构建和可定制的AI代理组成的开创性套件,具备深厚的行业专业知识,可帮助企业大幅加速上市时间。 该代理库能够让
    的头像 发表于 02-14 16:04 545次阅读

    英国政府计划大幅提升AI算力

    近日,英国首相斯塔默宣布了一项雄心勃勃的计划,承诺到2030年,英国政府将采购多达10万块图形处理器(GPU),以大幅提升英国的AI算力水平。 据悉,这一举措旨在将英国主权AI算力增加
    的头像 发表于 01-14 14:18 691次阅读

    AI云端计算资源的多维度优势

    AI云端计算资源,作为AI技术与云计算深度融合的产物,在成本效益、性能优化、数据安全、灵活扩展以及创新加速等多个维度都具有显著优势。下面,
    的头像 发表于 01-07 11:11 839次阅读

    捷通达携手浪潮信息,ERP系统性能大幅提升

    的共同努力,捷通达成功将原有的SAP HANA系统升级为浪潮信息新一代SAP HANA数据库一体机解决方案。这一升级不仅大幅提升了系统的运行效率,更使得ERP系统的数据查询时间大幅缩短
    的头像 发表于 12-24 14:36 898次阅读