0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为星河AI高算效数据中心网络为安康智算中心注入强劲增长动能

华为数据通信 来源:华为数据通信 2026-04-13 10:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

抢抓“东数西算”战略机遇,陕西安康正以智算基础设施建设为抓手,激活数字经济发展新动能。陕西智算云谷科技有限公司成立于2023年。公司聚焦打造陕西第一、全国领先的人工智能计算中心(安康智算中心),规划建设百亿级智算产业基地,以新型信息基础设施为支撑,全面赋能安康及全省数字经济高质量发展,树立区域人工智能计算集群建设标杆,助力区域产业数字化转型跃升。

安康智算中心作为区域智算产业核心载体,配备超一流硬件设施与高效运维管理体系,为AI大模型训练、优化与场景应用提供强劲算力支撑,让企业、科研机构及个人开发者能够便捷获取高性能计算资源,有效降低AI技术应用门槛,推动人工智能技术从实验室走向产业一线、实现普及落地。据悉,该智算中心占地102.7亩,总投资47亿元,其中一期投资21.97亿元, 2024年建成投用,算力规模将达到1000P,全面建成运营后可提供30000P智能算力,预计实现年营业收入10亿元,带动上下游聚集产业产值100亿元。

针对海量数据处理与复杂模型训练的核心算力需求,安康智算中心持续加速AI创新迭代,聚焦高并发、低延时、高可靠的算力供给,以全栈式智能算力服务为行业创新筑牢算力底座。目前,一期项目算力资源已实现100%高效饱和运行,专供国内AI大模型领域某头部科技企业,构建起“算力-场景-价值”三位一体创新生态,高效支撑其在教育、医疗、文旅、游戏及智能制造等领域的大模型研发与应用落地,显著提升行业智能化水平。

依托一期成功经验,安康智算中心下一步将持续拓展算力应用场景,重点布局智能制造、现代中医大模型等高价值创新领域,为区域产业智能化升级提供稳定可持续的算力支撑。

随着安康智算中心AI集群规模持续扩大、业务类别不断丰富,传统AI集群网络方案逐渐暴露出诸多短板,难以应对日益凸显的系统性挑战和核心诉求,具体体现在三个方面:

流量均衡失效,造成算力投资浪费

在AI大模型训练场景中,业务流量呈现流数少、流量大、模式固定的鲜明特征,传统通算网络中基于Hash的负载均衡机制完全失效,导致部分链路拥堵、部分链路空闲的不均衡现象,网络整体吞吐率通常仅为50%~60%,即便引入LBN/DLB等负载均衡方案,网络吞吐率也难以突破70%。这一问题直接导致客户AI大模型因算力效率不足,训练周期延长10%~20%,大幅拖慢产品上线节奏与市场获客进度,影响产业创新时效。

算力服务化升级,对业务长稳运行提出刚性要求

AI集群网络主要由Spine交换机、Leaf交换机、光模块、光纤(含ODF架)等关键部件构成,其中光模块需大量采购与部署。以安康智算中心某个千卡集群为例,两层组网需部署4千个光模块,光模块与光纤/光缆的可用性直接决定AI集群的整体可用性。按照业界光模块平均年失效率4‰测算,每2~3周就会出现一次AI业务中断,而每次中断都可能引发客户投诉甚至索赔,7×24小时不间断的业务可用性成为智算中心发展的刚性需求。

网络规模扩张,IT运维工作量激增难承载

随着AI集群网络规模的快速扩张,网络运维的工作量与复杂度呈几何级数增长;加之IT运维团队需同时负责网络、计算、存储等多类产品的维护工作,采用传统人工运维模式,仅故障定界就需30分钟至1小时,加上定位定因与处置环节,平均故障处置周期长达2~3小时。对于以算力出租、运营为核心生命线的陕西智算云谷而言,这样的运维效率远远无法满足业务发展需求。

基于前期AI集群网络建设与运维的实践经验,为保障新一期AI集群高效稳定运行,陕西智算云谷对业界多个厂商的数据中心网络解决方案进行深入评估与对比,最终选择华为星河AI高算效数据中心网络解决方案,核心优势体现在高性能、高可靠、智运维三大维度,精准破解安康智算中心发展痛点:

高性能:算力效率提升10%,释放核心算力价值

方案选用华为CloudEngine XH系列智算交换机ROCE组网,搭配华为独家网络级负载均衡NSLB算法,针对AI大模型训练流数少、流量大的场景,实现整网负载均衡,将网络吞吐率从50%提升至95%,直接推动AI训练效率提升10%以上,有效缩短模型训练周期。

高可靠:算力可用率提升10倍,保障业务永续运行

华为是业界唯一具备光模块脏污/松动检测及光模块通道抗损能力的厂商,在AI任务启动前,可提前检测光模块脏污、松动等异常情况,做到防患于未然;在AI任务运行过程中,借助光模块通道抗损能力,即便部分激光器或光纤发生故障,通信链路仍可正常使用,确保AI任务不中断。结合华为严格的品控体系,光模块/光链路失效率降低至约万分之四,相比业界平均水平提升10倍。

智运维:故障运维效率提升90%,降低运维成本

方案通过搭载星翼数字地图的iMaster NCE平台,实现网络与计算的统一可视化、智能化运维,大幅缩短故障定位时间、提升运维效率。该平台通过5大维度65项全量训前自检,确保网络100%健康;依托协同作业平台实现卡间路径路况逐跳可视,可对故障与异常实现秒级感知与快速恢复,将平均故障处置周期从小时级缩短至分钟级,彻底解决传统运维效率低下的痛点,减轻运维团队工作负担。

依托华为星河AI高算效数据中心网络构建的坚实底座,安康智算中心的网络规模与可靠性得到极大提升,智算中心的管理与运维实现全面数字化、自动化、智能化,为智算中心蓬勃发展的业务筑牢基础,也为安康融入“东数西算”布局、打造区域智算标杆提供了有力支撑。

未来,依托智算中心强大的推理与计算能力,安康智算中心将持续构建自适应、高质量的合成数据体系,为大模型研发提供高品质数据集,精准满足大模型与各类下游指令分布对齐的技术要求。同时,项目将带动大量就业岗位落地,推动区域经济结构多元发展,吸引高端人才与创新项目集聚,加快打造区域AI人才高地与创新生态,持续强化区域创新驱动动能。作为人工智能产业发展的关键新型基础设施,安康智算中心将持续发挥核心引领作用,不断提升区域AI研发水平、壮大数字经济规模、支撑智慧城市建设,助力安康与大湾区等区域深化数字经济合作,书写区域数智化转型高质量发展新篇章。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    36163

    浏览量

    262638
  • 网络
    +关注

    关注

    14

    文章

    8326

    浏览量

    95545
  • 数据中心
    +关注

    关注

    18

    文章

    5754

    浏览量

    75195

原文标题:数通金拍档 | 算效为王!华为星河AI高算效数据中心网络为安康智算中心注入强劲增长动能

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为成功牵头立项智网络三大技术项目

    Fabric NG(Next Generation)技术蓝图。多位华为数据中心网络领域技术专家受邀发表主题演讲,AI时代
    的头像 发表于 04-03 14:15 355次阅读

    华为星河AI数据中心网络构筑企业最强力底座

    伙伴使用分享、政企产品路标规划及重点解决方案等议题,共探AI时代服务升级与产业协同新路径。华为数据通信产品线数据中心网络领域副总裁李建高发表
    的头像 发表于 03-24 15:04 353次阅读

    华为携手合作伙伴共谱数据中心网络发展新篇章

    华为中国合作伙伴大会2026期间,以“星河AI Fabric 2.0,力满载,业务永续”为主题的数据中心
    的头像 发表于 03-23 16:32 451次阅读

    华为发布面向AI时代全新升级的星河AI Fabric 2.0解决方案

    建设实践。会上,华为发布面向AI时代全新升级的星河AI Fabric 2.0解决方案,致力于打造力满载、业务永续的
    的头像 发表于 03-05 11:23 575次阅读

    AI时代与绿色数据中心下的UPS电源演进:可用与能如何兼得?

    一台不间断电源设备正静静地运行在数据中心角落,散热风扇发出低沉而稳定的声音。这已不再是一个简单的备用电源,而正成为决定AI力命脉与碳中和目标能否实现的关键节点。走进2026年的现代化数据中心
    的头像 发表于 01-16 11:00 629次阅读
    <b class='flag-5'>AI</b>时代与绿色<b class='flag-5'>数据中心</b>下的UPS电源演进:<b class='flag-5'>高</b>可用与能<b class='flag-5'>效</b>如何兼得?

    华为面向中东中亚发布星河AI Fabric 2.0方案

    GITEX GLOBAL 2025期间,在“智能时代下的新型数据中心”论坛上,面向中东中亚,华为联合伙伴发布星河AI Fabric 2.0方案。本次发布是继2018年发布的
    的头像 发表于 10-17 11:11 1045次阅读

    华为面向欧洲发布星河AI Fabric 2.0方案

    华为数据通信创新峰会2025期间,在“星河AI Fabric 2.0,力满载、业务永续”为主题的论坛上,
    的头像 发表于 10-13 09:43 1072次阅读

    华为发布星河AI Fabric 2.0方案

    与可持续发展进行了深入探讨。会上,华为发布星河AI Fabric 2.0方案,这是继2018年发布AI Fabric后的全方位升级,打造
    的头像 发表于 09-19 18:03 1910次阅读

    华为星河AI数据中心网络亮相ODCC 2025

    以“拥抱AI变革 点燃网引擎”为主题的2025开放数据中心大会(以下简称“ODCC 2025”)在北京国际会议中心召开。在这场汇集了数据中心
    的头像 发表于 09-16 14:54 2769次阅读
    <b class='flag-5'>华为</b><b class='flag-5'>星河</b><b class='flag-5'>AI</b><b class='flag-5'>高</b><b class='flag-5'>算</b><b class='flag-5'>效</b><b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>亮相ODCC 2025

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    合作案例,成为AI数据中心升级的关键推动者。 一、技术实力:AI光模块的研发与量产先锋 睿海光电作为全球AI光模块的领先品牌,专注于
    发表于 08-13 19:01

    华为面向拉美地区发布全新星河AI数据中心网络方案

    华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋
    的头像 发表于 08-11 10:42 2551次阅读

    简单认识安森美AI数据中心电源解决方案

    面对AI力需求爆发式增长数据中心电力系统正面临前所未有的挑战。安森美(onsemi)推出的AI数据中
    的头像 发表于 07-05 13:03 3719次阅读
    简单认识安森美<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>电源解决方案

    华为星河AI数据中心网络方案荣获信通院智网络测评五星认证

    国内首个配套N卡力测评!华为星河AI
    的头像 发表于 06-28 17:50 1919次阅读

    华为面向亚太地区发布全新星河AI数据中心网络方案

    华为数据通信创新峰会2025亚太站期间,以“星河AI数据中心网络,赋
    的头像 发表于 06-11 11:11 1574次阅读

    华为面向中东中亚地区发布全新星河AI数据中心网络

    近日,在华为数据通信创新峰会2025中东中亚站期间,以“星河AI数据中心网络,赋
    的头像 发表于 05-21 15:49 1031次阅读