0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤科技联合华为昇腾实现超节点适配多项创新

商汤科技SenseTime 来源:商汤科技SenseTime 2025-09-05 15:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,商汤大装置SenseCore与昇腾384超节点率先完成全面适配。

在功能、性能验证上达到预期目标,为加速国产AI算力从“可用”迈向“好用”取得了重点突破,为大模型高效训练与推理提供了坚实支撑。

超节点(SuperPod)是一种通过高速互联技术,将多个GPU/NPU整合为统一计算单元的新型架构,解决AI大模型训练中的算力协同与通信效率问题。

昇腾384超节点(Atlas 900 A3 SuperPoD)是华为推出的业界最大规模超节点方案,凭借创新的“全对等架构”,实现高速互联总线的关键突破——把总线从服务器内部扩展到整机柜、甚至跨机柜,最终将CPU、NPU、DPU、存储和内存等资源全部互联和池化,形成一台“超级计算机”,实现更大的算力密度和互联带宽。

商汤联合华为昇腾,实现超节点适配多项创新

华为昇腾推出的这一全新方案架构,对软件栈的升级和平台调度优化提出了更高要求,让它能“跑得快、跑得稳”。

作为AI云原生平台,商汤大装置SenseCore致力于为用户提供敏捷、灵活、可靠的全栈AI基础设施服务,以极致性价比推动大模型技术的高效落地与规模化应用。

基于商汤大装置SenseCore与昇腾384超节点的特点,双方团队联合攻关,在调度优化、系统稳定性以及故障恢复等方面提出多项行业创新:

调度优化:在调度能力上,除了支持POD内单机和多机调度、跨POD多机调度、亲和性调度等基础能力,SenseCore平台配合模型并行策略实现了逻辑超节点自动划分,使EP/TP等大通信策略可以充分利用灵衢网络,提升模型训练效率。

跨POD训练稳定性:另外SenseCore团队提交了多个MR修复多POD场景下master/work任务rank乱序问题,从根本上解决了跨POD训练任务概率性失败的问题。

多维度故障检测与恢复:在故障检测能力上覆盖了从服务器硬件、高速互联总线、RoCE网络到任务、进程软硬件多维度检测,结合检测能力实现Job/Pod/进程多级恢复机制,全面提升昇腾384超节点在训练场景下的可靠性与容错性。

此次商汤大装置SenseCore与昇腾384超节点的成功适配,让多租户、大规模、弹性AI云服务成为可能。同时,商汤大装置已经完成了某客户的交付,具备了昇腾384超节点从液冷集群到AI平台端到端的交付能力。

未来,双方还将探索更多应用场景,包括大模型推理加速、智能体应用部署、面向垂直行业的大模型训练与推理优化等,进一步加速基于SenseCore的昇腾384超节点在各行各业的应用落地。

商汤科技大装置事业群CTO宣善明表示:“商汤大装置非常重视并深度参与国产化算力生态建设。SenseCore成为首批完成昇腾384超节点适配的AI云平台,不仅得益于SenseCore平台的开放性、完善的功能和丰富的应用实践,更是国产AI基础设施融合发展的重要里程碑。SenseCore通过与昇腾的深度融合,充分释放昇腾算力潜能,为产业界提供更加敏捷、智能、可靠的算力底座,商汤也将在此基础上打造面向各行业的AI解决方案,共同推动千行百业的智能化升级”。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    36319

    浏览量

    263048
  • AI
    AI
    +关注

    关注

    91

    文章

    42209

    浏览量

    303208
  • 商汤
    +关注

    关注

    0

    文章

    102

    浏览量

    4443

原文标题:商汤大装置×华为昇腾384超节点:成功适配

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    最全!一文看懂华为芯片和节点最新演进路线

    ,尤其是对中国人工智能发展而言。此次大会上,徐直军公布了未来三年芯片演进路线(Ascend 950、Ascend 960、Ascend 970将陆续推出)、鲲鹏处理器升级规划,并同时发布了多款
    的头像 发表于 09-20 07:22 1.2w次阅读
    最全!一文看懂<b class='flag-5'>华为</b><b class='flag-5'>昇</b><b class='flag-5'>腾</b>芯片和<b class='flag-5'>超</b><b class='flag-5'>节点</b>最新演进路线

    2026华为鲲鹏腾开发者大会成功举办

    以“心怀挚爱,共绽光芒”为主题的鲲鹏腾开发者大会2026(KADC2026)在北京中关村国际创新中心成功举办。本次大会上,、鲲鹏多项
    的头像 发表于 05-26 11:18 449次阅读

    加码企业龙虾和AI节点华为AI芯片和方案助力国产算力设备落地

    针对三大核心场景,高算力场景、中算力场景和小算力场景,华为推出了AI节点方案、AI一体机方案和边缘设备端方案。
    的头像 发表于 05-11 11:46 1.5w次阅读
    加码企业龙虾和AI<b class='flag-5'>超</b><b class='flag-5'>节点</b>!<b class='flag-5'>华为</b><b class='flag-5'>昇</b><b class='flag-5'>腾</b>AI芯片和方案助力国产算力设备落地

    迅龙软件亮相华为计算部件伙伴大会,蝉联APN两项大奖

    2026年3月27日,华为计算部件伙伴大会在南京圆满落幕。本次大会汇聚了来自教育、医疗、制造、交通、能源等行业的400余位合作伙伴,共同探讨端边AI技术趋势与产业生态新机遇,分享联合创新成果
    的头像 发表于 03-30 19:39 1872次阅读
    迅龙软件亮相<b class='flag-5'>华为</b>计算部件伙伴大会,蝉联<b class='flag-5'>昇</b><b class='flag-5'>腾</b>APN两项大奖

    华为发布全新950PR,Atlas 350单卡算力接近3倍于H20

    910C芯片随Atlas900节点规模部署,系列芯片逐渐走进大众视野。   去年9月华为全联接大会2025上,徐直
    的头像 发表于 03-24 09:08 6545次阅读

    2026华为中国合作伙伴大会人工智能伙伴峰会圆满落幕

    伴基于Atlas 350的整机产品亮相,同时金融、大模型、医疗应用伙伴及客户分享节点、Agent 一体机等核心技术成果。坚持开放创新
    的头像 发表于 03-23 17:03 1896次阅读

    AI+FPGA助力生态新篇章|2025AI技术研讨会·杭州站成功举办

    中国·杭州2025年12月17日“华强筑链·万里”华为&华强半导体2025AI技术研讨会杭州站圆满落幕。本次研讨会由
    的头像 发表于 12-24 08:05 953次阅读
    AI+FPGA助力<b class='flag-5'>昇</b><b class='flag-5'>腾</b>生态新篇章|2025<b class='flag-5'>昇</b><b class='flag-5'>腾</b>AI技术研讨会·杭州站成功举办

    润和软件AIRUNS训推一体化平台与910C芯片深度适配

    近日,在江苏鲲鹏・生态创新中心的全程支持下,江苏润和软件股份有限公司(以下简称“润和软件”)自主研发的AIRUNS训推一体化平台完成与搭载
    的头像 发表于 12-22 14:51 990次阅读
    润和软件AIRUNS训推一体化平台与<b class='flag-5'>昇</b><b class='flag-5'>腾</b>910C芯片深度<b class='flag-5'>适配</b>

    华为发布全球最强算力节点和集群

    华为全联接大会2025(HUAWEI CONNECT 2025)上,华为发布最强算力节点和集群,并表示将发展生态作为公司核心战略,提升到前所未有的战略高度。在计算领域,鲲鹏
    的头像 发表于 10-10 17:29 2566次阅读

    华为与全球开发者共赢生态

    华为全联接大会2025期间,华为计算业务总裁张迪煊发表了“以开发者为中心,加速自主创新,共赢
    的头像 发表于 09-20 15:57 2256次阅读

    软通动力亮相福建计算产业发展大会

    近日,软通动力与华为技术有限公司、同泰怡科技集团、百信信息技术有限公司及福建升腾资讯有限公司联合主办的“万里 开创未来 共筑数智福建——福建
    的头像 发表于 09-04 09:26 1020次阅读

    中软国际出席华为计算产业发展峰会

    的重大开源举措,深入探讨开源开放的生态建设大计,携手加速AI领域的创新与发展浪潮。中软国际执行总裁彭江,中软国际华为技术与解决方案集团副总裁、智算中心总经理李晨光代表公司出席会议。
    的头像 发表于 08-07 18:14 1842次阅读

    重磅!华为384节点真机登场,中兴携厂商首秀GPU节点实力

    作为中国自主的算力核弹,华为384节点真机首次亮相。中兴通讯、上海仪电、曦智科技、壁仞科技联合
    的头像 发表于 07-29 00:45 1.3w次阅读
    重磅!<b class='flag-5'>华为</b><b class='flag-5'>昇</b><b class='flag-5'>腾</b>384<b class='flag-5'>超</b><b class='flag-5'>节点</b>真机登场,中兴携厂商首秀GPU<b class='flag-5'>超</b><b class='flag-5'>节点</b>实力

    华为开发者大会2025(HDC 2025)亮点:华为云发布盘古大模型5.5 宣布新一代AI云服务上线

    HarmonyOS、AI云服务、盘古大模型等最新科技创新成果。 在主题演讲中,华为常务董事、华为云计算CEO张平安宣布基于CloudMa
    的头像 发表于 06-20 20:19 4810次阅读
    <b class='flag-5'>华为</b>开发者大会2025(HDC 2025)亮点:<b class='flag-5'>华为</b>云发布盘古大模型5.5 宣布新一代<b class='flag-5'>昇</b><b class='flag-5'>腾</b>AI云服务上线

    有关 AI 算力,华为刷新行业记录

    节点,有效降低了故障概率。在训练业务方面,实现分钟级 RTO(恢复时间目标);在高频 HBM 场景下,故障恢复时间缩短至 30 秒级,成功将万卡级训练集群可用度提升至 95% 以上。   此外,该文件还涵盖硬件管理、故障感知
    的头像 发表于 06-16 01:08 6660次阅读
    有关 AI 算力,<b class='flag-5'>华为</b><b class='flag-5'>昇</b><b class='flag-5'>腾</b>刷新行业记录