0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

技术干货 | AI浪潮下的光模块可靠性

广电计量 2024-08-13 09:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能AI)技术的快速发展对数据处理和传输提出了前所未有的挑战。在深度学习、自然语言处理和计算机视觉等AI应用中,训练和学习需要巨大的数据量传递和交互。2023年GPT-4模型所需训练的参数量有1.8万亿,要完成这么大的数据量的运算,需要上万个GPU同时工作。如此庞大的数据传输对于传统铜缆而言是个巨大的挑战,因此光模块在数据传输中发挥着非常重要的作用。光模块在AI和数据中心中负责数据的转换,将1bit的电信号转为光信号,把1bit的光信号转为电信号。400G模块,能转换0.4T bit,800G光模块,转换0.8T bit,以GPT-4的训练参数计算,完成一次计算所需要调用的光模块数量就可能多达数万。而随着大模型的不断进化和训练参数的急速增加,对光模块的需求量只多不少。

AI场景对光模块的故障率要求

因为训练数据量大,所以AI场景架构采用GPU运算更合适,这与传统的数据中心的服务器类型有所区别。CPU是串行运算,通常有较少的核心(一般在2到32个核心之间),每个核心都非常强大,适合执行复杂的单线程任务,适用于传统数据中心的串行结构。GPU是并行运算,拥有大量的核心(数百到数千个),每个核心较简单,适合执行大量的并行任务,因此更适用数据量超大的AI场景。传统的数据中心结构,是基于串行方式的,对时延的要求虽然很看重,但不像AI场景中对时延的苛刻要求。并行任务的结果就是成千上万的并行数据要传输,整个数据的完成是以时延最大,最慢的那个bit为准的。其他再快也不行。

光模块的故障率比传统的电学芯片的要高很多很多,光模块选择热插拔,也是因为光学器件的故障率很高,用热插拔方便维修和更换。传统的数据中心,光模块对于故障率的要求比传统通信更宽松,少量的故障并不会影响到整体的运行传输,所以遇到光模块故障后及时更换就可以了。但对于基于AI的这种场景就不适用,大数据量的并行计算,而且不是实时保存的。如果有任何一个数据传错了,那么整体要重来,重新计算一遍。中国移动也曾提到当前人工智能中主流万卡集群的GPU网络每月最大会发生上千次闪断,其中34%是与网络相关。其中每年大概会有60次左右的光模块故障导致的训练中断,而且故障定位也通常会需要数天到数十天之久。所以光模块失效率高会导致大的丢包率和维护成本,从而给设备服务商带来巨大的运营压力。因此在AI场景中对光模块可靠性的要求非常苛刻。

AI大模型中丢包率导致训练所需时间增长

图1 AI大模型中丢包率导致训练所需时间增长

AI场景光模块的可靠性问题

综上所述,对于传统数据中心而言,一般会把可靠性的要求放宽,是因为通常在实际部署中,数据中心的树形网络结构是配置了冗余的,从而这此前提下放宽了对模块故障率的要求。冗余越大,有更多的节点可以实现业务传输,光模块的失效率略大一些是不影响整体通信的。因此传统数据中心的光模块,有很长一段时间,是非气密封装,因为非气密封装,故障率会高一些,但成本也会下降很多。

但AI大模型与传统数据中心不同,AI场景所采用的并行计算,如上一节所讲,对故障零容忍,对光模块的稳定性要求极高。因此,非气密封装已经不能满足可靠性要求了,各家厂商又开始使用气密封装降低失效率。光模块中产生的可靠性问题主要是光器件失效引起的,包括激光器、探测器和其他元器件,其中激光器失效最高。阿里曾经做过统计,在光模块众多的元器件中,超过90%以上的失效是与激光器相关的。

wKgaoma6uNSAfvtSAABrvbSmEgA777.png

图2 阿里统计的光模块各元件失效占比统计

光模块自身已经面临非常高的可靠性风险了,然而光模块从400G、800G发展到1.6T,模块功耗随着芯片功率、射频损耗,DSP补偿等迅速增加,功耗增加提高了光模块实际的工作温度,同样也使得光模块寿命急速缩短,可靠性急剧下降。光模块温度升高,激光器芯片的发光效率降低,废热更大,也会带来可靠性风险。

功耗增加机柜温度升高可靠性下降

图3 功耗增加机柜温度升高可靠性下降

现行可供参考的可靠性标准如GR-468,一方面从标准提出到现在已有二十余年时间,另一方面该标准是作为通信用光电子器件的可靠性标准,对AI场景并不适用。近年来,大模型使用方以及光模块厂商都对光器件提出了更严格的可靠性要求。在2023年CIOE上,阿里提出了自身对于光芯片可靠性的认证要求,要求光模块FIT小于125,即有1000个光模块在工作,5年后,只允许5个出现故障。同时也对激活能Ea,和n做了限定,限定激活能 Ea=0.35,n=0。老化公式的n,是加速压力的指数,可以是电流,温度,或者湿度,关键取决于芯片设计里哪个因素的影响最大。以电流为例,如果n按照3取值,老化电流是工作电流的1.5倍,得出激光器工作寿命是10年。如果相同条件下n取为0,那么寿命就只有3年了。Ea和n都取最小值,会得到很小的加速系数,最终会计算出很大的FIT值,这样一来对可靠性的要求就更为苛刻了。

wKgZoma6uNSAeTRlAAA_SKky0L0632.png

图4 可靠性中加速系数计算公式

如何提升光模块可靠性

光模块的可靠性重点关注的就是激光器。激光器从发光原理、制造工艺来看,降低优化的程度有限,并不能完全达到电芯片的尺度,近期内也不会有颠覆性的技术改良大幅提高可靠性。对于光模块的可靠性控制重点还是在实际使用时的早期失效和随机失效,早期失效可以通过选用一定参数的加速老化进行剔除,老化的条件,时间都需要通过科学的计算,避免老化时间过短剔除不到位或者时间过长降低产品寿命。对于随机失效,目前有些方案如finisar等公司采用的备份激光器,通过增加多组激光器作为备用降低失效率,一个坏了立刻切到另一个好的激光器去工作,但是增加一组备份,成本、空间、功耗,又增加了很多难度。海思设计过一种智能光模块,通过实时监控光模块多种参数状态,采用大数据训练主动对光模块做预警,提前判断光模块即将失效,这要求厂家对自身产品数据要有十分全面的掌握。

广电计量光电器件可靠性分析

光模块市场近两年随着AI浪潮的出现展现出了广阔的想象空间,但也给光模块的可靠性带来了更高的挑战。过去厂家不重视模块的可靠性,缺乏对产品的失效评估,而现在解决产品可靠性问题,将会是占领用户市场,打通产品从送样到批量供货的关键。

广电计量是国内第一家完成激光发射器、探测器全套AEC-Q102车规认证的国有第三方上市检测机构,具备VCSEL、LED、APD、SPAD等激光器和探测器批次性验证试验能力,具有丰富的光电器件可靠性验证经验。在人才队伍上,形成以博士、专家为核心的光电器件测试分析团队,可以协助客户定制可靠性评估方案,建立准确的产品失效模型,满足客户在可靠性、失效分析领域的认证检测需求。

广电计量半导体服务优势

  • 工业和信息化部“面向集成电路、芯片产业的公共服务平台”
  • 工业和信息化部“面向制造业的传感器等关键元器件创新成果产业化公共服务平台”
  • 国家发展和改革委员会“导航产品板级组件质量检测公共服务平台”
  • 广东省工业和信息化厅“汽车芯片检测公共服务平台”
  • 江苏省发展和改革委员会“第三代半导体器件性能测试与材料分析工程研究中心”
  • 上海市科学技术委员会“大规模集成电路分析测试平台”

在集成电路及SiC领域是技术能力最全面、知名度最高的第三方检测机构之一,已完成MCU、AI芯片、安全芯片等上百个型号的芯片验证,并支持完成多款型号芯片的工程化和量产。

在车规领域拥有AEC-Q及AQG324全套服务能力,获得了近50家车厂的认可,出具近400份AEC-Q及AQG324报告,助力100多款车规元器件量产。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41987

    浏览量

    303080
  • SiC
    SiC
    +关注

    关注

    32

    文章

    3925

    浏览量

    70364
  • 光模块
    +关注

    关注

    84

    文章

    1734

    浏览量

    64775
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索CP系列热电模块:高性能与可靠性的完美结合

    探索CP系列热电模块:高性能与可靠性的完美结合 在电子工程师的日常设计工作中,热电模块是实现精确温度控制的关键组件。今天,我们就来深入了解一Laird Technologies的CP
    的头像 发表于 05-21 09:05 238次阅读

    无线通信技术核心定位从 “速度竞赛” 转向超高可靠性

    “可用”升级为“可信”。 二、核心技术:筑牢超高可靠底层支撑 Wi-Fi 8的超高可靠性,依托物理层与MAC层的关键创新,从四大维度实现升级: 增强型LDPC编码 :编码块长度翻倍,大幅提升纠错能力,减少
    发表于 04-23 17:31

    烧结银膏在硅技术和EML技术的应用

    烧结银膏在硅技术和EML技术的应用 烧结银膏作为一种高导热、低温兼容、高可靠性的先进电子封装材料,在硅
    发表于 02-23 09:58

    什么是高可靠性

    一、什么是可靠性可靠性指的是“可信赖的”、“可信任的”,是指产品在规定的条件和规定的时间内,完成规定功能的能力。对于终端产品而言,可靠度越高,使用保障就越高。 PCB
    发表于 01-29 14:49

    MGDM-155系列高可靠性DC-DC电源模块

    ,延长设备寿命。滤波与同步功能:内置LC滤波器:降低反射输入电流纹波和输出电压纹波,提升供电质量。同步功能:支持多模块频率同步或外部源同步,优化并联系统稳定性。高可靠性设计:无光耦设计:减少耦老化
    发表于 01-28 08:41

    灌封技术提高PCB可靠性并延长使用寿命

    灌封技术作为电子产品防护的手段之一,对电子产品起到了防潮、防霉、防盐雾的作用,增加了电子产品在恶劣环境可靠性,是其他防护工艺不可代替的。随着科学技术的发展,灌封材料也在不断地改
    发表于 01-26 11:26

    MUN12AD03-SEC电源模块性能、成本、可靠性三大优势

    MUN12AD03-SEC电源模块性能、成本、可靠性三大优势随着工业4.0、5G通信和AIoT的快速发展,电源模块正从‘功能组件”向‘系统核心’演进。客户对效率、集成度和可靠性的要求已
    发表于 01-15 09:50

    如何测试单片机MCU系统的可靠性

    工作情况,单片机系统的可靠性。必要的话可以放置在高温,高压以及强电磁干扰的环境测试。 4、ESD和EFT等测试。可以使用各种干扰模拟器来测试单片机系统的可靠性。例如使用静电模拟器
    发表于 01-08 07:50

    国产AI芯片冲至160亿美元:狂欢的“可靠性”大考

    国产AI芯片年销售额达160亿美元,标志着设计环节实现突破,但商业落地的核心考验已转向可靠性AI芯片因高算力、高功耗特性,面临电源与时钟稳定性、高温耐久及复杂配置烧录三重
    的头像 发表于 12-11 15:33 558次阅读

    AI 芯片浪潮,职场晋升新契机?

    、新架构不断涌现。能够在工作中提出创新的解决方案,推动 AI 芯片性能、功耗、成本等关键指标的优化,将极大提升在职称评审中的竞争力。例如,在芯片设计中引入新的计算范式,如存算一体技术,有效解决传统冯・诺
    发表于 08-19 08:58

    睿海光电800G模块助力全球AI基建升级

    在全球数字化转型加速的背景,超高速模块作为数据中心与AI算力网络的核心部件,正经历从400G向800G、1.6T的迭代浪潮。在这一赛道中
    发表于 08-13 19:05

    睿海光电以高效交付与广泛兼容助力AI数据中心800G模块升级

    租户环境提供推理服务,需实现性能隔离与稳定扩展。面对这一技术浪潮,深圳市睿海光电科技有限公司(简称“睿海光电”)凭借其创新的800G模块解决方案,以交付速度比同行快2-3天的硬核实力
    发表于 08-13 19:01

    影响电源模块可靠性和性能的挑战

    在早前Flex Power Modules的一篇博客文章中,我们探讨了电源模块平均故障间隔时间(MTBF)计算值的可靠性。我们当时的结论是,只有在完全相同、静态的条件比较产品时,数据表上的数值才有
    的头像 发表于 07-07 15:33 1236次阅读
    影响电源<b class='flag-5'>模块</b><b class='flag-5'>可靠性</b>和性能的挑战

    元器件可靠性领域中的 FIB 技术

    元器件可靠性领域中的FIB技术在当今的科技时代,元器件的可靠性至关重要。当前,国内外元器件级可靠性质量保证技术涵盖了众多方面,包括元器件补充
    的头像 发表于 06-30 14:51 1017次阅读
    元器件<b class='flag-5'>可靠性</b>领域中的 FIB <b class='flag-5'>技术</b>

    可靠性测试包括哪些测试和设备?

    在当今竞争激烈的市场环境中,产品质量的可靠性成为了企业立足的根本。无论是电子产品、汽车零部件,还是智能家居设备,都需要经过严格的可靠性测试,以确保在各种复杂环境都能稳定运行,为用户提供可靠
    的头像 发表于 06-03 10:52 1690次阅读
    <b class='flag-5'>可靠性</b>测试包括哪些测试和设备?