0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

润和软件发布StackRUNS异构分布式推理框架

润和软件 来源:润和软件 2025-06-13 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当下,AI模型规模持续膨胀、多模态应用场景日益复杂,企业正面临异构算力资源碎片化带来的严峻挑战。为应对行业痛点,江苏润和软件股份有限公司(以下简称“润和软件”)正式发布自主研发的StackRUNS异构分布式推理框架,高效融合异构算力,精细化配置算力资源,释放算力效能。

润和软件发布StackRUNS异构分布式推理框架

StackRUNS是基于“异构算力建模+动态调度优化+统一通信接口+模型分层加载”核心技术打造的轻量级分布式推理框架,可实现多类型AI设备的资源整合与大模型的协同高效推理,广泛适用于对推理能力有高要求但资源异构、预算受限的实际应用场景,如多节点异构硬件的老旧部署环境、突发性大模型任务需求、高校或科研机构低成本模型实验场景。目前,StackRUNS已在教育、安防、能源等行业落地,通过智能调度算力、分钟级快速部署、分布式协同等能力,加快大模型落地进程。

功能架构

5cf32eba-45df-11f0-b715-92fbcf53809c.png

StackRUNS功能架构图

1. 框架适配层:统一接入主流推理框架

通过统一的框架适配能力,StackRUNS可有效屏蔽上层差异,提升系统的灵活性与兼容性,支持主流框架与模型组件的即插即用,大幅缩短模型部署与迁移周期。

支持PyTorch、TensorFlow、MindSpore等主流AI框架;

无缝集成llama.cpp、vLLM等主流推理引擎;

插件化架构,支持多模型统一推理入口,便于快速上层接入与复用。

2.调度层:智能调度与自动并行优化

通过异构设备资源的智能感知与动态调度,StackRUNS可最大化利用系统整体算力,并通过推理场景的深度优化,显著提升大模型多设备协同推理的效率与可控性。

异构资源感知与建模,实现不同设备算力精准识别;

自动并行策略生成与模型切分,支持切片并行、专家路由等;

涵盖精度控制与任务生命周期管理,保障精度性能双优;

通信图优化与算子融合,提升跨设备数据流通效率。

3. 通信适配层:统一通信接口与性能反馈机制

StackRUNS具备统一通信能力适配的异构平台,可有效消除设备间通信瓶颈,为分布式推理提供高效、稳定的通信支撑,提升跨设备协同性能。

提供统一通信算子接口,适配 HCCL、NCCL、RCCL等多种通信协议;

支持通信运行时、拓扑管理与性能建模,为调度策略提供反馈依据;

深度学习框架通信插件化集成,增强生态兼容性。

4. 硬件支持层:兼容多种AI算力平台

StackRUNS全面兼容主流AI硬件平台,涵盖Ascend、NVIDIA、AMDARMIntel、Mac等,实现算力资源的灵活组合与无缝协同,推动AI应用从“专用单机”迈向“异构集群”,释放硬件潜能。

核心技术

5d09125c-45df-11f0-b715-92fbcf53809c.png

StackRUNS架构图

1. 异构算力识别与建模

通过自动识别和建模不同类型的计算资源,StackRUNS建立了统一的资源抽象层,确保在异构环境下的资源统一管理和高效利用。

资源抽象与建模:对各类计算设备的性能、内存、带宽等关键参数进行建模,形成统一的资源描述;

动态资源感知:实时监控资源的使用情况,支持动态调整和优化。

2. 调度层

调度层根据任务需求和资源状况,可根据计算任务智能分配算力资源,实现资源的高效利用和任务执行效率。

任务划分与分配:将大模型分解为多个子任务,合理分配到不同的计算节点;

负载均衡:根据资源使用情况,动态调整任务分配,避免资源瓶颈;

容错与恢复:在节点故障时,能够快速重新调度任务,确保系统稳定性。

3. 通信适配层

通信适配层提供统一的通信接口,支持多种通信协议,实现高效的数据传输,确保在分布式环境下的统一、可靠通信。

协议适配:支持如NCCL、HCCL、RCCL等多种通信协议,确保在不同硬件平台上的兼容性;

通信优化:通过通信图优化、算子融合等技术,减少通信开销,提高数据传输效率。

4. 大模型分层加载通讯

针对超大规模模型,StackRUNS采用分层加载和通信策略,优化模型的加载和推理过程,保持模型性能的同时,显著降低通信成本,提升整体推理效率。

分层加载:通过结构感知的模型切分,需考虑各层之间的依赖关系和数据传输量;

通信与计算重叠执行:采用流水线并行策略,在模型推理过程中,采用异步通信策略,提高并行度和效率;

通信内容优化:采用混合精度传输策略,在不影响模精度的前提下,减少通信数据量是降低通信成本的直接方式;

拓扑感知的通信策略:根据硬件拓扑结构,优化通信路径和方式,提升通信效率。

核心优势

1. 异构兼容与灵活部署:适用于多种硬件架构,结合底层统一通信适配器,可在混合平台中实现透明部署与调用;

2. 轻量级推理服务端:将推理能力解耦为服务端组件,便于调度层动态调配计算任务,按需分发至合适节点运行,实现推理资源的弹性扩展与动态负载均衡;

3. 通信优化与统一适配:通过“统一通信算子接口”与“深度学习框架插件”,支持异构资源统一调度、模型分布式执行与通信图优化;

4. 分布式与边云协同支持:结合通信适配层实现跨节点协同推理,亦支持边缘侧模型分片部署,打造边云协同的智能推理能力;

5. 混合精度与策略支持:结合调度层的混合精度策略支持,充分利用不同设备的计算与内存资源,在资源受限环境下依然保障推理效率与响应速度。

适用场景

1. 多节点异构硬件的老旧部署环境:支持不同类型设备按性能分配模型层或批次任务,实现“以最小代价释放最大算力”;

2. 临时性、突发性大模型任务需求:临时调用空闲设备组成协同集群,按需启用、任务后回收,资源零浪费;

3. 多精度模型混合部署场景:在内存、算力受限环境下使用INT4、INT8等低精度模型提升吞吐与响应;

4. 边缘设备能力有限边云协同:模型分层部署、分片推理、流水线式协同处理,保障复杂分析任务顺利完成;

5. 资源弹性调度与负载均衡场景:多节点集群中按需调度模型推理任务,提升整体资源利用率;

6. 高校、科研机构低成本模型实验场景:利用分布式异构环境拼接起完整的推理通路,推动教学与研究实际落地。

用户价值

1. 智能调度算力,整体成本最高可降低60%成本

通过智能调度异构资源,打破设备之间的“算力孤岛”,实现资源池化管理;

无需新增昂贵硬件投入,充分利用现有 GPU、NPU、CPU 组合,即可完成大模型部署;

原有设备基础上部署大模型后,设备成本可节省约60%。

2. 分钟级快速部署,推理任务响应能力提升超5倍

弹性部署机制支持模型“即需即调、即跑即收”,无需长时间准备资源环境;

针对高峰期或突发任务,可在5分钟内完成大模型分布式加载与推理启动;

部署周期相比传统方案缩短70%+,显著提升AI应用上线效率。

3.跨设备协同,让原本“跑不动”的大模型轻松可落地

支持在多设备之间按层或专家模块切分模型,实现“拼接式协同计算”;

即使单设备显存不足,亦可通过分布式推理完整运行数百亿/千亿参数模型;

32B多模态模型部署在两台低配设备上推理延迟可控制在1s以内。

4.不中断原有业务,系统兼容性与可控性双优

推理任务调度与原有业务计算负载物理隔离,不影响日常业务稳定运行,推理任务可灵活穿插执行;

支持Linux、Windows、MacOS等多操作系统与NVIDIA、Ascend、AMD等主流硬件平台。

5.边云协同优化推理链路,体验更优、响应更快

推理过程中自动判断本地与远程计算资源的最优分配路径,降低核心推理延迟;

智能事件响应任务整体时延下降30%-50%,有效提升边缘智能体验。

6.促进AI普惠,加速智能化落地

高校与科研机构可在现有设备上部署百亿级模型,用于课程教学与实验研究;

中小企业可按业务需求灵活部署模型任务,降低模型接入门槛;

在未采购新设备条件下,超大模型教学实训场景部署成功率超95%。

江苏润和软件股份有限公司(简称“润和软件”)成立于2006年,2012年在深圳证券交易所创业板上市(证券代码:300339),是国家重点规划布局内的大型软件企业。公司总部位于南京,在北京、上海、深圳、香港等22个国内主要城市设有研发中心或分子公司,在日本、美国、新加坡等国设有海外分支机构,全球员工约13000人,拥有全球化的技术整合、客户响应与服务到达能力。

秉承“做民族软件脊梁,担世界进步责任”的使命,润和软件致力成为“中国数智技术与服务创新的引领者”,通过国产化、数字化、智能化创新技术,软硬件一体化解决方案能力及全生命周期软件服务体系,激活行业新动能、发展新质生产力,助力广大客户数字化转型和智能化升级。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41729

    浏览量

    302932
  • 算力
    +关注

    关注

    2

    文章

    1738

    浏览量

    16848
  • 润和软件
    +关注

    关注

    1

    文章

    426

    浏览量

    2313

原文标题:润和软件发布StackRUNS异构分布式推理框架,释放算力效能

文章出处:【微信号:hoperun300339,微信公众号:润和软件】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI Ceph 分布式存储教程资料大模型学习资料2026

    的 S3 兼容接口设计,使得 AI 框架可以无缝对接底层的硬件设施,实现了上层应用与底层存储的解耦。 四、 赋能推理部署:高并发与低延迟的平衡 分布式存储不仅服务于训练,更是大模型推理
    发表于 05-01 17:35

    分布式光伏发电接入配电网技术规定中关于“四可”装置的内容解析

    测、可调、可控)装置的技术要求,将其从行业推荐性能力升级为刚性并网门槛。详细了解光伏四可装置可咨询:1.3.7-5.0.0.4-6.2.0.0。这些规定既搭建了统一的技术框架,又为地方电网差异化落地预留空间,是分布式光伏合规并网、高效消纳的核心遵循。
    的头像 发表于 02-06 16:39 3003次阅读
    <b class='flag-5'>分布式</b>光伏发电接入配电网技术规定中关于“四可”装置的内容解析

    分布式 IO 选型注意事项

    在工业 4.0 浪潮推动下,分布式 IO 作为工业互联的核心底层设备,已成为制造业实现设备互联、数据采集、柔性生产的关键支撑。本文将助力企业避开选型误区,最大化发挥分布式 IO 的应用价值。​ 产品
    的头像 发表于 12-30 14:14 598次阅读
    <b class='flag-5'>分布式</b> IO 选型注意事项

    SC-3568HA:解锁鸿蒙全权限API与分布式能力的工业控制平台

    传统嵌入开发面临硬件碎片化、高权限功能缺失、分布式协同复杂及自动化测试不足等痛点。SC-3568HA开发板基于鸿蒙系统,通过统一内核抽象层和硬件驱动框架解决兼容问题,开放全量系统API支持高权限
    的头像 发表于 12-18 11:27 7702次阅读
    SC-3568HA:解锁鸿蒙全权限API与<b class='flag-5'>分布式</b>能力的工业控制平台

    如何解决分布式光伏计量难题?

    分布式光伏成增长主力 据《2025-2030年中国分布式光伏行业市场前景预测及未来发展趋势研究报告》显示,2024年中国分布式光伏新增装机118.18GW,同比增长23%,占光伏新增装机总量的43
    的头像 发表于 11-07 14:55 474次阅读
    如何解决<b class='flag-5'>分布式</b>光伏计量难题?

    全新分布式智慧投屏终端开启智慧教学新时代!

    全新分布式智慧教室系统的核心设备是分布式智慧投屏终端,集无线投屏、白板书写、多机联动、信息发布于一体,为老师学生分组投屏、互动分享提供多屏协作解决方案。智能书写功能与方案中多屏互动相辅相成,可随时以多视窗方式…
    的头像 发表于 09-19 11:35 1016次阅读
    全新<b class='flag-5'>分布式</b>智慧投屏终端开启智慧教学新时代!

    工业数采网关在分布式设备运维管理中的作用

    支撑。以下从核心功能与运维价值两个维度展开分析: 一、核心功能:打通分布式设备的数据孤岛 多协议兼容与数据统一采集 分布式设备常涉及PLC、传感器、工业机器人等异构设备,采用Modbus、Profinet、OPC UA等不同协议
    的头像 发表于 09-19 10:53 902次阅读
    工业数采网关在<b class='flag-5'>分布式</b>设备运维管理中的作用

    【节能学院】Acrel-1000DP分布式光伏监控系统在奉贤平高食品 4.4MW 分布式光伏中应用

    摘要:在“双碳”和新型电力系统建设背景下,分布式光伏接入比例不断提高,对配电网电压、调度运行及调峰等环节造成强烈冲击。本文设计包含平台层、设备层二层架构体系的分布式光伏管控平台,以及小容量工商业
    的头像 发表于 08-23 08:04 3723次阅读
    【节能学院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏监控系统在奉贤平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中应用

    分布式光伏发电监测系统技术方案

    分布式光伏发电监测系统技术方案 柏峰【BF-GFQX】一、系统目标 :分布式光伏发电监测系统旨在通过智能化的监测手段,实现对分布式光伏电站的全方位、高精度、实时化管理。该系统能
    的头像 发表于 08-22 10:51 3557次阅读
    <b class='flag-5'>分布式</b>光伏发电监测系统技术方案

    对于当下分布式光伏发电市场前景预判

    自从531后,分布式光伏发电项目应该是相对减少了许多,但是依然还是会有,未来趋势是怎么样,是储能+自发自用余电不上网,还是有什么新的政策,欢迎讨论。
    发表于 07-25 08:58

    分布式光伏总出问题?安科瑞分布式光伏监控系统来“救场”

    一、分布式光伏的痛点大揭秘 在 “双碳” 目标的大力推动下,分布式光伏作为绿色能源领域的重要力量,正以前所未有的速度蓬勃发展,越来越多的企业和家庭选择安装分布式光伏系统。然而,随着分布式
    的头像 发表于 07-16 16:50 1000次阅读
    <b class='flag-5'>分布式</b>光伏总出问题?安科瑞<b class='flag-5'>分布式</b>光伏监控系统来“救场”

    双电机分布式驱动汽车高速稳定性机电耦合控制

    摘要:为了利用所设计的双电机防滑差速驱动系统来提高分布式驱动汽车的动力学性能,在前期同轴耦合驱动控制理论研究的基础上,开展该车的高速稳定性机电耦合控制研究。建立并验证包含所设计驱动系统在内的分布式
    发表于 06-18 16:37

    软件StackRUNS异构分布式推理框架的应用案例

    江苏软件股份有限公司(以下简称“软件”)自主研发的StackRUNS异构
    的头像 发表于 06-13 09:11 1485次阅读
    <b class='flag-5'>润</b>和<b class='flag-5'>软件</b><b class='flag-5'>StackRUNS</b><b class='flag-5'>异构</b><b class='flag-5'>分布式</b><b class='flag-5'>推理</b><b class='flag-5'>框架</b>的应用案例

    曙光存储领跑中国分布式存储市场

    近日,赛迪顾问发布《中国分布式存储市场研究报告(2025)》,指出2024 年中国分布式存储市场首次超过集中式存储,规模达 198.2 亿元,增速 43.7%。
    的头像 发表于 05-19 16:50 1517次阅读

    上海电信携手华为打造分布式云边协同训推方案

    Deepseek加速行业推理应用,面向企业算力租用以及推理数据不出园区的用算需求,上海电信基于“智云上海”新型基础架构,部署华为星河路由器打造400GE IP智算城域POD,提供分布式云边协同
    的头像 发表于 05-19 11:20 1096次阅读