0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PODsys:大模型AI算力平台部署的开源“神器”

全球TMT 来源:全球TMT 作者:全球TMT 2023-11-08 09:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大模型是通用人工智能的底座,但大模型训练对算力平台的依赖非常大。大模型算力平台是指支撑大模型训练和推理部署的算力基础设施,包括业界最新的加速卡、高速互联网络、高性能分布式存储系统、液冷系统和高效易用的大模型研发工具和框架。在算力平台的部署过程中,大模型研发机构常常需要面对一系列的问题:大模型算力平台是什么样的?如何快速构建大模型算力平台?如何确保算力平台稳定可靠?如何提升部署效率?如何提升算力平台的性能……这些问题能否顺利解决,直接关系到大模型研发和应用落地的速度。

为了帮助用户加速大模型的技术创新与应用落地,浪潮信息发布了大模型智算软件栈OGAI(Open GenAI Infra)。OGAI由5层架构组成,从L0到L4分别对应于基础设施层的智算中心OS产品、系统环境层的PODsys产品、调度平台层的AIStation产品、模型工具层的YLink产品和多模纳管层的MModel产品。其中L1层PODsys是一个为客户提供智算集群系统环境部署方案的开源项目,具备基础设施环境安装、环境部署、用户管理、系统监控和资源调度等能力。用户只需执行两条简单的命令,即可完成大模型算力平台的部署,将大模型算力平台部署效率提升11倍,帮助用户顺利迈出大模型研发的第一步。(下载地址:https://podsys.ai/)

大模型算力平台部署难题亟待求解

大模型参数量和训练数据复杂性快速增加,对AI算力平台的建设提出了新的要求,即需要从数据中心规模化算力部署的角度,统筹考虑大模型分布式训练对计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡的可扩展集群系统,以满足AI大模型的训练需求。

强大的大模型算力平台不仅需要高性能的CPUGPU、存储、网络等硬件设备,还需要考虑不同硬件和软件之间的兼容性和版本选择,确保驱动和工具的适配性和稳定性。当算力平台的规模从十几台服务器扩展到几百台,平台部署难度会呈指数级上升。

首先,算力平台部署需要的相关驱动程序、软件包往往高达数十个,正确安装、部署并优化这些驱动程序与软件,需要专业的运维工程师和大量调试时间,严重影响部署效率。其次,为了确保算力平台的高性能和稳定运行,需要验证不同硬件环境下的软件适配,优化BIOS操作系统、底层驱动、文件系统和网络等多项指标,找到最优的选择,这一工作同样费时费力。此外,算力平台的资源状态处于时刻的变动中,如果不进行合理的资源调度与管理,很容易影响平台的资源利用率。

PODsys让大模型算力平台部署"易如反掌"

PODsys专注于大模型算力平台部署场景,提供包括基础设施环境安装、环境部署、用户管理、系统监控和资源调度在内的完整工具链,旨在打造一个开源、高效、兼容、易用的智算集群系统方案。

PODsys整合了大模型算力平台部署所需的数十个驱动、软件等安装包以及对应的依赖和兼容关系,并提供了一系列的简化部署的脚本工具。使用这些工具只需要简单2个步骤,PODsys即可帮助用户快速部署大模型算力平台。

wKgaomVKKheAHNq5AACoXn52A_A649.jpg


步骤1:使用docker run命令快速启动PODsys系统。

PODsys系统集成了大模型算力平台部署所需的操作系统、GPU驱动、网卡驱动、通信加速库等数十个驱动程序、软件和安装包,并提供了一系列脚本工具来简化部署,让用户可以快速安装、配置和更新集群环境。PODsys大量选用了业界广泛使用的主流开源系统、工具、框架和软件,来保障整个部署方案的开放性、兼容性和稳定性。

步骤2:使用install_client命令快速部署大模型算力平台的并行软件环境。

PODsys将单机部署方式改成集群部署方式,可将部署效率提升11倍以上。在管理节点运行一句简单的命令(install_client.sh),即可完成大模型算力平台的环境配置,集成了高速文件系统接口、自动化运维工具、NVDIA CUDA编程框架、NCCL高性能通信库,支持NGC加速平台等功能。并能实现多用户、多租户管理集群。

PODsys提供了全面的系统监控和管理,帮助用户实时监控集群的状态和性能指标。通过可视化的界面,用户可以查看集群资源的使用情况、作业的执行情况和性能瓶颈,从而及时调整集群配置和优化作业性能,来保证算力平台的高性能和稳定运行。

此外,PODsys具备高效的资源调度和作业管理功能,可以根据用户的需求自动调度和管理作业,确保集群的资源利用率和作业的执行效率。

伴随着大模型的快速应用,算力平台的鲁棒性、易用性、部署效率成为用户关注的首要问题。针对商业用户,PODsys还提供专业的算力平台性能调优服务。

总之,PODsys提供了一套完整的工具链,将大模型平台部署变得像系统安装一样简单,让用户省时、省力地部署大模型算力平台,助力大模型创新走好第一步。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 半导体
    +关注

    关注

    339

    文章

    31248

    浏览量

    266607
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5272

    浏览量

    136073
  • AI算力
    +关注

    关注

    1

    文章

    171

    浏览量

    10033
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    想用RK3588在边缘端跑大模型?你的还差多少?

    在边缘计算与嵌入式AI应用飞速发展的今天,瑞芯微RK3588平台凭借其强大的多媒体处理能力和6TOPS的NPU,已成为高端AIoT项目的首选之一。然而,面对日益复杂的大
    的头像 发表于 04-10 17:31 2546次阅读
    想用RK3588在边缘端跑大<b class='flag-5'>模型</b>?你的<b class='flag-5'>算</b><b class='flag-5'>力</b>还差多少?

    5W功耗实现25TOPS,LM2-100-V0模组破解AI安防核心难题

    在智慧安防边缘AI应用快速部署需求的背景下,设备制造商常面临终端设备不足、功耗超标、体积受限、部署太慢等困境。
    的头像 发表于 04-03 11:34 408次阅读
    5W功耗实现25TOPS<b class='flag-5'>算</b><b class='flag-5'>力</b>,LM2-100-V0<b class='flag-5'>算</b><b class='flag-5'>力</b>模组破解<b class='flag-5'>AI</b>安防核心难题

    技嘉与趋境科技联合部署AMaaS平台 推动本地大模型应用加速落地

    在生成式AI加速走向实际应用的当下,大模型部署正从“可体验”迈向“可落地、可管理、可应用”。作为技嘉面向本地AI场景打造的重要产品,AI T
    的头像 发表于 03-12 15:11 201次阅读
    技嘉与趋境科技联合<b class='flag-5'>部署</b>AMaaS<b class='flag-5'>平台</b> 推动本地大<b class='flag-5'>模型</b>应用加速落地

    边缘AI临界点:深度解析176TOPS香橙派AI Station的产业价值

    、内存革命:48GB/96GB LPDDR4X 背后的带宽博弈 很多开发者容易陷入唯论的误区,但在实际部署模型时,内存容量和带宽往往是真正的性能瓶颈。OrangePi
    发表于 03-10 14:19

    GPU 利用率<30%?这款开源平台不浪费 1%

    作为 AI 开发者,你是否早已受够这些困境:花数百万采购的 GPU 集群,利用率常年低于 30%,闲置如同烧钱;跨 CPU/GPU/NPU 异构资源调度难如登天,模型训练卡在资源分
    的头像 发表于 01-26 14:20 286次阅读

    从零开始安装并配置开源AI编程神器OpenCode

    对于个人开发者而言,选择 OpenCode + 国产开源编程模型 的组合,本质上是用 开源工具 + 国产高性价比模型 复刻了甚至超越了硅谷顶尖付费产品的
    的头像 发表于 01-22 21:22 1935次阅读
    从零开始安装并配置<b class='flag-5'>开源</b><b class='flag-5'>AI</b>编程<b class='flag-5'>神器</b>OpenCode

    AI送上太空,是终极方案还是疯狂幻想?评论区说出你的阵营!

    AI
    江苏易安联
    发布于 :2026年01月06日 09:43:34

    华为发布AI容器技术Flex:ai平均利用率提升30%

    决方案。   当前,AI产业正处于高速发展的黄金时期,海量需求如潮水般涌来。然而,资源利用率偏低的问题却成为了产业发展的关键桎梏。具
    的头像 发表于 11-26 08:31 7791次阅读

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下
    发表于 10-27 13:12

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断演进和物联网应用的持续拓展,腾视科技的
    的头像 发表于 09-19 15:25 1037次阅读
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组?

    科技上线赤兔推理引擎服务,创新解锁FP8大模型

    模型轻量化部署方案。用户通过远程平台预置的模型镜像与A
    的头像 发表于 07-30 21:44 1059次阅读

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    1、ollama平台搭建 ollama可以快速地部署开源模型,网址为https://ollama.com, 试用该平台,可以在多
    发表于 07-19 15:45

    企业部署AI模型怎么做

    当下,AI模型已成为驱动决策自动化、服务智能化与产品创新的核心引擎。然而,企业面对动辄数百亿参数的大模型部署时,常陷入
    的头像 发表于 06-04 09:26 1026次阅读

    摩尔线程与AI平台AutoDL达成深度合作

    近日,摩尔线程与国内领先的AI平台AutoDL宣布达成深度合作,双方联合推出面向个人开发者的“摩尔线程专区”,首次将国产GPU
    的头像 发表于 05-23 16:10 2080次阅读