0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

技术干货 | AI浪潮下的光模块可靠性

广电计量 2024-08-13 09:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能AI)技术的快速发展对数据处理和传输提出了前所未有的挑战。在深度学习、自然语言处理和计算机视觉等AI应用中,训练和学习需要巨大的数据量传递和交互。2023年GPT-4模型所需训练的参数量有1.8万亿,要完成这么大的数据量的运算,需要上万个GPU同时工作。如此庞大的数据传输对于传统铜缆而言是个巨大的挑战,因此光模块在数据传输中发挥着非常重要的作用。光模块在AI和数据中心中负责数据的转换,将1bit的电信号转为光信号,把1bit的光信号转为电信号。400G模块,能转换0.4T bit,800G光模块,转换0.8T bit,以GPT-4的训练参数计算,完成一次计算所需要调用的光模块数量就可能多达数万。而随着大模型的不断进化和训练参数的急速增加,对光模块的需求量只多不少。

AI场景对光模块的故障率要求

因为训练数据量大,所以AI场景架构采用GPU运算更合适,这与传统的数据中心的服务器类型有所区别。CPU是串行运算,通常有较少的核心(一般在2到32个核心之间),每个核心都非常强大,适合执行复杂的单线程任务,适用于传统数据中心的串行结构。GPU是并行运算,拥有大量的核心(数百到数千个),每个核心较简单,适合执行大量的并行任务,因此更适用数据量超大的AI场景。传统的数据中心结构,是基于串行方式的,对时延的要求虽然很看重,但不像AI场景中对时延的苛刻要求。并行任务的结果就是成千上万的并行数据要传输,整个数据的完成是以时延最大,最慢的那个bit为准的。其他再快也不行。

光模块的故障率比传统的电学芯片的要高很多很多,光模块选择热插拔,也是因为光学器件的故障率很高,用热插拔方便维修和更换。传统的数据中心,光模块对于故障率的要求比传统通信更宽松,少量的故障并不会影响到整体的运行传输,所以遇到光模块故障后及时更换就可以了。但对于基于AI的这种场景就不适用,大数据量的并行计算,而且不是实时保存的。如果有任何一个数据传错了,那么整体要重来,重新计算一遍。中国移动也曾提到当前人工智能中主流万卡集群的GPU网络每月最大会发生上千次闪断,其中34%是与网络相关。其中每年大概会有60次左右的光模块故障导致的训练中断,而且故障定位也通常会需要数天到数十天之久。所以光模块失效率高会导致大的丢包率和维护成本,从而给设备服务商带来巨大的运营压力。因此在AI场景中对光模块可靠性的要求非常苛刻。

AI大模型中丢包率导致训练所需时间增长

图1 AI大模型中丢包率导致训练所需时间增长

AI场景光模块的可靠性问题

综上所述,对于传统数据中心而言,一般会把可靠性的要求放宽,是因为通常在实际部署中,数据中心的树形网络结构是配置了冗余的,从而这此前提下放宽了对模块故障率的要求。冗余越大,有更多的节点可以实现业务传输,光模块的失效率略大一些是不影响整体通信的。因此传统数据中心的光模块,有很长一段时间,是非气密封装,因为非气密封装,故障率会高一些,但成本也会下降很多。

但AI大模型与传统数据中心不同,AI场景所采用的并行计算,如上一节所讲,对故障零容忍,对光模块的稳定性要求极高。因此,非气密封装已经不能满足可靠性要求了,各家厂商又开始使用气密封装降低失效率。光模块中产生的可靠性问题主要是光器件失效引起的,包括激光器、探测器和其他元器件,其中激光器失效最高。阿里曾经做过统计,在光模块众多的元器件中,超过90%以上的失效是与激光器相关的。

wKgaoma6uNSAfvtSAABrvbSmEgA777.png

图2 阿里统计的光模块各元件失效占比统计

光模块自身已经面临非常高的可靠性风险了,然而光模块从400G、800G发展到1.6T,模块功耗随着芯片功率、射频损耗,DSP补偿等迅速增加,功耗增加提高了光模块实际的工作温度,同样也使得光模块寿命急速缩短,可靠性急剧下降。光模块温度升高,激光器芯片的发光效率降低,废热更大,也会带来可靠性风险。

功耗增加机柜温度升高可靠性下降

图3 功耗增加机柜温度升高可靠性下降

现行可供参考的可靠性标准如GR-468,一方面从标准提出到现在已有二十余年时间,另一方面该标准是作为通信用光电子器件的可靠性标准,对AI场景并不适用。近年来,大模型使用方以及光模块厂商都对光器件提出了更严格的可靠性要求。在2023年CIOE上,阿里提出了自身对于光芯片可靠性的认证要求,要求光模块FIT小于125,即有1000个光模块在工作,5年后,只允许5个出现故障。同时也对激活能Ea,和n做了限定,限定激活能 Ea=0.35,n=0。老化公式的n,是加速压力的指数,可以是电流,温度,或者湿度,关键取决于芯片设计里哪个因素的影响最大。以电流为例,如果n按照3取值,老化电流是工作电流的1.5倍,得出激光器工作寿命是10年。如果相同条件下n取为0,那么寿命就只有3年了。Ea和n都取最小值,会得到很小的加速系数,最终会计算出很大的FIT值,这样一来对可靠性的要求就更为苛刻了。

wKgZoma6uNSAeTRlAAA_SKky0L0632.png

图4 可靠性中加速系数计算公式

如何提升光模块可靠性

光模块的可靠性重点关注的就是激光器。激光器从发光原理、制造工艺来看,降低优化的程度有限,并不能完全达到电芯片的尺度,近期内也不会有颠覆性的技术改良大幅提高可靠性。对于光模块的可靠性控制重点还是在实际使用时的早期失效和随机失效,早期失效可以通过选用一定参数的加速老化进行剔除,老化的条件,时间都需要通过科学的计算,避免老化时间过短剔除不到位或者时间过长降低产品寿命。对于随机失效,目前有些方案如finisar等公司采用的备份激光器,通过增加多组激光器作为备用降低失效率,一个坏了立刻切到另一个好的激光器去工作,但是增加一组备份,成本、空间、功耗,又增加了很多难度。海思设计过一种智能光模块,通过实时监控光模块多种参数状态,采用大数据训练主动对光模块做预警,提前判断光模块即将失效,这要求厂家对自身产品数据要有十分全面的掌握。

广电计量光电器件可靠性分析

光模块市场近两年随着AI浪潮的出现展现出了广阔的想象空间,但也给光模块的可靠性带来了更高的挑战。过去厂家不重视模块的可靠性,缺乏对产品的失效评估,而现在解决产品可靠性问题,将会是占领用户市场,打通产品从送样到批量供货的关键。

广电计量是国内第一家完成激光发射器、探测器全套AEC-Q102车规认证的国有第三方上市检测机构,具备VCSEL、LED、APD、SPAD等激光器和探测器批次性验证试验能力,具有丰富的光电器件可靠性验证经验。在人才队伍上,形成以博士、专家为核心的光电器件测试分析团队,可以协助客户定制可靠性评估方案,建立准确的产品失效模型,满足客户在可靠性、失效分析领域的认证检测需求。

广电计量半导体服务优势

  • 工业和信息化部“面向集成电路、芯片产业的公共服务平台”
  • 工业和信息化部“面向制造业的传感器等关键元器件创新成果产业化公共服务平台”
  • 国家发展和改革委员会“导航产品板级组件质量检测公共服务平台”
  • 广东省工业和信息化厅“汽车芯片检测公共服务平台”
  • 江苏省发展和改革委员会“第三代半导体器件性能测试与材料分析工程研究中心”
  • 上海市科学技术委员会“大规模集成电路分析测试平台”

在集成电路及SiC领域是技术能力最全面、知名度最高的第三方检测机构之一,已完成MCU、AI芯片、安全芯片等上百个型号的芯片验证,并支持完成多款型号芯片的工程化和量产。

在车规领域拥有AEC-Q及AQG324全套服务能力,获得了近50家车厂的认可,出具近400份AEC-Q及AQG324报告,助力100多款车规元器件量产。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    37739

    浏览量

    294555
  • SiC
    SiC
    +关注

    关注

    32

    文章

    3442

    浏览量

    67838
  • 光模块
    +关注

    关注

    82

    文章

    1574

    浏览量

    61722
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI 芯片浪潮,职场晋升新契机?

    、新架构不断涌现。能够在工作中提出创新的解决方案,推动 AI 芯片性能、功耗、成本等关键指标的优化,将极大提升在职称评审中的竞争力。例如,在芯片设计中引入新的计算范式,如存算一体技术,有效解决传统冯・诺
    发表于 08-19 08:58

    睿海光电800G模块助力全球AI基建升级

    在全球数字化转型加速的背景,超高速模块作为数据中心与AI算力网络的核心部件,正经历从400G向800G、1.6T的迭代浪潮。在这一赛道中
    发表于 08-13 19:05

    睿海光电以高效交付与广泛兼容助力AI数据中心800G模块升级

    租户环境提供推理服务,需实现性能隔离与稳定扩展。面对这一技术浪潮,深圳市睿海光电科技有限公司(简称“睿海光电”)凭借其创新的800G模块解决方案,以交付速度比同行快2-3天的硬核实力
    发表于 08-13 19:01

    影响电源模块可靠性和性能的挑战

    在早前Flex Power Modules的一篇博客文章中,我们探讨了电源模块平均故障间隔时间(MTBF)计算值的可靠性。我们当时的结论是,只有在完全相同、静态的条件比较产品时,数据表上的数值才有
    的头像 发表于 07-07 15:33 700次阅读
    影响电源<b class='flag-5'>模块</b><b class='flag-5'>可靠性</b>和性能的挑战

    元器件可靠性领域中的 FIB 技术

    元器件可靠性领域中的FIB技术在当今的科技时代,元器件的可靠性至关重要。当前,国内外元器件级可靠性质量保证技术涵盖了众多方面,包括元器件补充
    的头像 发表于 06-30 14:51 484次阅读
    元器件<b class='flag-5'>可靠性</b>领域中的 FIB <b class='flag-5'>技术</b>

    可靠性测试包括哪些测试和设备?

    在当今竞争激烈的市场环境中,产品质量的可靠性成为了企业立足的根本。无论是电子产品、汽车零部件,还是智能家居设备,都需要经过严格的可靠性测试,以确保在各种复杂环境都能稳定运行,为用户提供可靠
    的头像 发表于 06-03 10:52 1019次阅读
    <b class='flag-5'>可靠性</b>测试包括哪些测试和设备?

    提供半导体工艺可靠性测试-WLR晶圆可靠性测试

    随着半导体工艺复杂度提升,可靠性要求与测试成本及时间之间的矛盾日益凸显。晶圆级可靠性(Wafer Level Reliability, WLR)技术通过直接在未封装晶圆上施加加速应力,实现快速
    发表于 05-07 20:34

    电机微机控制系统可靠性分析

    针对性地研究提高电机微机控制系统可靠性的途径及技术措施:硬件上,方法包括合理选择筛选元器件、选择合适的电源、采用保护电路以及制作可靠的印制电路板等;软件上,则采用了固化程序和保护 RAM 区重要数据等
    发表于 04-29 16:14

    颉晶圆电阻:高可靠性和耐久助力电子设备稳定运行

    颉科技(Viking)作为行业领先的电子元器件制造商,凭借其先进的制造技术和严格的质量控制标准,推出了高性能的晶圆电阻。这些电阻不仅在精度和稳定性上表现出色,还在可靠性和耐久方面展
    的头像 发表于 04-10 17:52 564次阅读
    <b class='flag-5'>光</b>颉晶圆电阻:高<b class='flag-5'>可靠性</b>和耐久<b class='flag-5'>性</b>助力电子设备稳定运行

    **【技术干货】Nordic nRF54系列芯片:传感器数据采集与AI机器学习的完美结合**

    技术干货】nRF54系列芯片:传感器数据采集与AI机器学习的完美结合 近期收到不少伙伴咨询nRF54系列芯片的应用与技术细节,今天我们整理几个核心问题与解答,带你快速掌握如何在nRF
    发表于 04-01 00:00

    从IGBT模块大规模失效爆雷看国产SiC模块可靠性实验的重要

    深度分析:从IGBT模块可靠性问题看国产SiC模块可靠性实验的重要 某厂商IGBT模块曾因
    的头像 发表于 03-31 07:04 1022次阅读

    DeepSeek推动AI算力需求:800G模块的关键作用

    和性能方面展现了出色的优势,满足当前AI算力需求的快速增长。 高可靠性模块经过温度、静电放电及机械耐久等严格测试,确保在数据中
    发表于 03-25 12:00

    半导体集成电路的可靠性评价

    半导体集成电路的可靠性评价是一个综合的过程,涉及多个关键技术和层面,本文分述如下:可靠性评价技术概述、
    的头像 发表于 03-04 09:17 1136次阅读
    半导体集成电路的<b class='flag-5'>可靠性</b>评价

    如何测试耦的性能与可靠性

    耦作为电气隔离的关键组件,其性能和可靠性直接影响到整个系统的稳定性和安全。因此,对光耦进行严格的性能测试和可靠性评估是必不可少的。
    的头像 发表于 01-14 16:13 2375次阅读

    不同制造商TOPCon伏组件的老化测试:性能、稳定性与可靠性

    随着TOPCon技术市场份额的快速增长,对其可靠性评估需求迫切。尽管早期报告认为TOPCon比PERC更可靠,但该技术伏组件
    的头像 发表于 12-05 01:06 2141次阅读
    不同制造商TOPCon<b class='flag-5'>光</b>伏组件的老化测试:性能、稳定性与<b class='flag-5'>可靠性</b>