0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无光不AI:AI算力,向光而逐

脑极体 来源:脑极体 作者:脑极体 2025-08-04 21:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZPGiQu6mAOjKOAAgW_CzSYQc292.jpg

wKgZO2iQu6qAGn6SAAgirZHeT_Q071.jpg

在全球人工智能大会WAIC2025上,AI智算中心超节点无疑是最火爆的话题。各家都在发布自己的超节点方案,其中华为昇腾384超节点作为官方认证镇馆之宝,成为各大媒体、国内外观众的必打卡点之一。

wKgZPGiQu6qAHeuoAAG7iPOtCdo910.jpg

在大模型时代,AI算力必须肩负起大规模并行计算的任务。依托单卡完成的AI计算必须走向集群化计算。产业界正在发生从万卡集群向十万卡集群演进的趋势。而大规模AI集群,必须使用光互联方案。随着AI计算集群规模越来越大,性能越来越高,散热和供电等问题会非常棘手。以光纤完成的光互联可以减少线缆的利用,降低散热、供电等方面的需求。可以说,光互联是大规模AI集群组网的必选方案。

昇腾384超节点就是选择了光互联之路,才能驯服如此庞大的AI巨兽。昇腾384超节点采用了384颗昇腾NPU,用到了总长度达到316公里的3168根光纤,通过6912个星云光模块实现NPU全MESH互联。如此规模的光互联组网中,光链路的端面脏污问题就成为计算系统能够支持长稳训练的最大痛点。

wKgZO2iQu6qAU9vPAABYTXvap9A073.jpg

(数据来源:2025芯光论坛,华为云)

一方面,端面脏污可能带来计算集群的网络闪断频发故障率奇高。根据2023年华为云现网2万+个链路闪断率统计分析,系统初始闪断率达到37.27%,而光链路端面脏污是闪断的主要根因。

端面脏污带来的闪断问题,可能给计算集群带来的损失也非常大。根据科大讯飞万卡集群分析,集群设备空转7天的损失可以达到1548.61万元。

而想要识别光链路的端面脏污,传统方法现网运维存在着工程量和代价巨大的问题。传统检测手段检出率只有48.3%,假如面对超节点超过11万条光链路的工作量,传统运维检测方式根本无法入手。

昇腾384超节点想要实现以系统破单点的算力突围,就必须克服掉光链接的运维与检测难题。为此,超节点配置了6912个星云光模块,实现了以智能运维检测,突破AI算力极限的一次“逆袭”。

wKgZPGiQu6qAdONpAAG6AobLpCk451.jpg

数智化系统的三要素是存、算、网。三者相辅相成,互为犄角。在大规模AI算力的集群式组网中,网络联接能力发挥着关键的作用,甚至可以成为破局的关键。在打造昇腾384超节点的过程中,华为在光通信领域的技术力得到了充分释放,实现了以长板克短板的战略化思维。而具体实现这一目标的技术王牌,就是华为星云光模块。

wKgZO2iQu6uAEXDYAAT4klcr7Qk620.jpg

昇腾384超节点能够达成,依靠的是超大规模的光链路组网。每个昇腾384 Pod配置了6912个星云400G光模块,其中5376个用于scale up,1536个用于scale out网络。

星云400G光模块的作用在于可以有效解决智算中心网络的一系列瓶颈与难题,实现超大规模AI计算集群的系统性突破。

其中,面向端面脏污等问题,星云光模块极具创造性地实现了“星云智检StarSensor”

wKgZPGiQu6uAO5bxAAYX5vAU2_M098.jpg

星云400G光模块具备光口、电口健康度诊断、自动脏污检测等功能。通过增强型光模块级压测,星云光模块可以更容易识别出光链路脏污引起的突发误码,从而有效降低闪断风险。根据相关数据,星云400G光模块的脏污检测算法,可以实现光链路端口检测准确率达到90+%,实现分钟级检测,从而解决现网闪断的难题。

对端面脏污的高精准智能化识别,可以全面提升光链路的运维效率,让超大规模AI算力真正落地,提升系统的可用性,实现了对超大规模AI计算集群的360°无死角防护。

开启星云光模块的星云智检功能后,华为云现网数据表明链路故障报错率降低了13.9倍。

星云光模块的这道“光”,照亮了中国AI算力的前路。它支撑超节点成功构筑了全球规模最大、技术力最为领先的AI计算集群,一举超过了此前备受瞩目的英伟达NVL72。更重要的是,它印证了以系统破单点这条AI算力路径的可行。

wKgZO2iQu6yAdy3lAAHS7DQptWc425.jpg

在作为底座的AI算力层面,发现随着华为昇腾384的出现与成熟,中美在AI算力领域呈现出各有所长,基本持平的发展态势。凭借华为在光通信领域多年的积累,面向智算中心的AI原生光互联解决方案星云光互联成为一张王牌,帮助超节点构筑起面向未来的AI算力底座。

以此为契机,中国的光通信产业正发生着快速的升级与迭代。伴随着光进铜退的大势所趋,光互联成为AI算力发展的关键助力。星云光模块不仅能够帮助昇腾 384超节点驯服AI算力的巨兽,更能够帮助中国智算产业实现整体性的突破与升级。

未来的AI竞赛,将会是结构性、体系化的竞赛。星云光互联这样的技术王牌,将会在可见的未来里发挥出更大的牵引效应,成为智算中心建设与AI计算集群组网过程中的标配。

逐“光”而行,正成为中国AI突破限制的可行之路。

wKgZPGiQu6yAEnGyAAG3osMrCSM422.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38114

    浏览量

    296659
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16566
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为发布AI容器技术Flex:ai平均利用率提升30%

    决方案。   当前,AI产业正处于高速发展的黄金时期,海量需求如潮水般涌来。然而,资源利用率偏低的问题却成为了产业发展的关键桎梏。具
    的头像 发表于 11-26 08:31 7129次阅读

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    MWC Doha 2025|美格智能全新发布60 Tops AI、支持Linux系统的SNM982高AI模组

    11月25日,在MWCDoha展会期间,美格智能全新发布基于高通QCS8650平台研发设计的SNM982高AI模组。搭载Linux5.15系统,AI
    的头像 发表于 11-25 16:34 573次阅读
    MWC Doha 2025|美格智能全新发布60 Tops <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>、支持Linux系统的SNM982高<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>AI</b>模组

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下
    发表于 10-27 13:12

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断演进和物联网应用的持续拓展,腾视科技的
    的头像 发表于 09-19 15:26 1150次阅读
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组?

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断演进和物联网应用的持续拓展,腾视科技的
    的头像 发表于 09-19 15:25 430次阅读
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升还是智力

    持续发展体现在: 1、收益递减 大模型的基础的需要极大的,这首先源于昂贵的高性能AI芯片,然后是宝贵的电力、水等与环境相关的资源。 收益递减体现在: ①模型大小 ②训练数据量 ③训练算法的优化 2
    发表于 09-14 14:04

    2025端侧AI芯片爆发:存一体、非Transformer架构谁主浮沉?边缘计算如何选型?

    各位技术大牛好!最近WAIC 2025上端侧AI芯片密集发布,彻底打破传统困局。各位大佬在实际项目中都是如何选型的呢?
    发表于 07-28 14:40

    一文看懂AI集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI集群。AI
    的头像 发表于 07-23 12:18 974次阅读
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    摩尔线程与AI平台AutoDL达成深度合作

    近日,摩尔线程与国内领先的AI平台AutoDL宣布达成深度合作,双方联合推出面向个人开发者的“摩尔线程专区”,首次将国产GPU开放至
    的头像 发表于 05-23 16:10 1429次阅读

    DeepSeek推动AI需求:800G光模块的关键作用

    随着人工智能技术的飞速发展,AI需求正以前所未有的速度增长。DeepSeek等大模型的训练与推理任务对的需求持续攀升,直接推动了服务
    发表于 03-25 12:00

    接棒,慧荣科技以主控技术突破AI存储极限

    电子发烧友网报道(文/黄山明)在AI的高速增长下,尤其是以DeepSeek为代表的AI大模型推动存储需求激增,增长倒逼存升级。
    的头像 发表于 03-19 01:29 2341次阅读
    存<b class='flag-5'>力</b>接棒<b class='flag-5'>算</b><b class='flag-5'>力</b>,慧荣科技以主控技术突破<b class='flag-5'>AI</b>存储极限

    泰CCL仿真:解锁AI极限,智中心网络性能跃升之道

    引言 随着AI大模型训练和推理需求的爆发式增长,智中心网络的高效性与稳定性成为决定AI产业发展的核心要素。信泰凭借自主研发的 CCL(集合通信库)评估工具 与 DarYu-X系列测
    的头像 发表于 02-24 17:34 985次阅读
    信<b class='flag-5'>而</b>泰CCL仿真:解锁<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>极限,智<b class='flag-5'>算</b>中心网络性能跃升之道

    AI开足马力,吉林万业智能飞驰

    AI,筑成数智吉林的加速引擎
    的头像 发表于 01-02 09:12 3983次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>开足马力,吉林万业智能飞驰

    企业AI租赁模式的好处

    构建和维护一个高效、可扩展的AI基础设施,不仅需要巨额的初期投资,还涉及复杂的运维管理和持续的技术升级。AI
    的头像 发表于 12-24 10:49 1658次阅读