0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何处理复杂的静默数据损坏问题

新思科技 来源:新思科技 2024-11-21 18:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在本系列的第一篇文章中,我们探讨了静默数据损坏(Silent Data Corruption,SDC)的定义及其对当前计算数据状况的影响。为此,我们再次邀请了谷歌的首席工程师Rama Govindaraju和微软的硬件架构合伙人Robert S. Chappell共同探讨解决这一棘手问题的可行方案。

回顾一下,静默数据损坏是指受影响的CPU在处理数据时无意中引发错误。这些错误可能会长时间潜伏而不被发现,进而悄无声息地破坏整个数据集。

随着计算机处理能力的飞速提升,尤其是伴随内存密集型人工智能AI)及其他前沿技术的广泛应用,SDC的风险日益加剧,可能导致大量数据的损坏,进而引发难以预估且影响深远的问题。

SDC问题亟待解决,那我们应该如何应对呢?

处理复杂的静默数据损坏问题

当前,SDC的成因尚未明确,且解决方案尚处于初级阶段。

SDC所面临的一大挑战是决策者未投入充足资源来根本性地解决该问题,而仅仅是在症状显现时采取临时缓解措施。“这要花多少钱?”是常见的反对理由,通常也是SDC未得到根本解决的原因,毕竟定期执行扫描以及改进芯片制造工艺等诸多措施的成本过高。

最终,成本问题成为了开发实际解决方案的绊脚石。如果成本过高,为什么还要去研究解决方案呢?但这正是悖论所在:如果开发出了解决方案,就可以进一步研究降低成本和扩大应用的方法。

解决SDC的责任不应仅落在芯片开发者身上,制造商以及更广泛的利益相关方也应参与其中。即使现有的每个芯片都完美无瑕,SDC问题仍然会发生。然而,芯片生命周期的每一个环节都可能存在相关的解决方案,且或将对此发挥积极作用。

如今,制造商缺乏应对SDC的动力。如果客户收到有故障或缺陷的芯片,通常只需退换即可。这种做法虽然可行,但并未从根本上解决问题。如果激励机制发生改变,相应的行为模式也会随之变化。例如,如果芯片开发者可以向制造商证明某个芯片存在缺陷,而制造商必须为此支付50倍于芯片成本的赔偿,那么制造商就会更自觉地采取预防措施。

此外,早期的筛查和测试有助于尽早发现SDC,从而留出补救时间。就比如您汽车上的传感器。许多传感器并不是汽车正常运行所必需的,而是用于提醒用户可能存在的问题。

在芯片领域,某些故障可能隐藏了一两年之久,等到发现时往往为时已晚。芯片中的传感器可以发出预警或警告,虽然这只是权宜之计,但可以在过渡阶段提供有效帮助。

解决SDC面临的一大难题在于,解决方案需要广泛覆盖。具体来说,真正有效的解决方案应涵盖芯片开发者、供应商、云和数据管理者及其他相关方等等所有环节。

有望解决静默数据损坏的工具和方法

解决SDC的另一难点在于我们对其发生机制和原因知之甚少。不知彼,不知己,每战必贻。因此,我们需要更多能够广泛共享、分析和研究的数据。此外,行业也应允许并鼓励研究人员和开发者聚焦于SDC问题。

识别数据中的异常点、采取纠正措施、诊断症状、关注时间延迟或数据泄漏等警示迹象,以及其他许多诊断选项,将有助于揭开SDC的神秘面纱。然后,通过调整策略,我们也许能够找到解决方案。然而,这些举措仍未能在开发阶段如期落地,所以迫切需要集结各方力量共同攻关。

我们可以借鉴网络安全等相关行业以及食品和消费品等领域,建立一系列的管理标准,规定安全可靠的产品必须达到的特定条件。在计算机组件领域,类似的框架必定有助于推动解决方案的发展。

在工具箱中,还有一个工具目前尚未得到充分利用,那就是人工智能(AI)和机器学习(ML)算法。在诊断方面,定期筛查并不完美。一项筛查可以运行10次,但可能会得到5次阳性结果和5次阴性结果。故障容易被遗漏,而即便能够识别出某些症状,但通常也难以确定故障的根本原因或具体机制。

AI或ML或许能够提供帮助。理论上,当SDC的早期迹象达到某些条件时,算法能够发出警报。但这种方法也并不理想,因为训练这些模型需要大量数据,进而需要综合处理数据,而且用于AI训练的数据集必须具备高度的目的性。这个方法虽然很有潜能,但仍处于早期阶段。

毫无疑问,这一问题规模巨大,构成了根本性威胁,需要我们携手应对。芯片开发者、制造商、软件和硬件工程师、供应商以及任何涉及计算机数据的人员等等各个领域的利益相关者,都需要共同合作并认真对待SDC问题。在此过程中,教育扮演着重要角色,我们希望类似本博客系列的资源有助于阐明为什么必须采取行动来解决静默数据损坏,并说服决策者落实措施。

解决问题的第一步是承认问题的存在。对于静默数据损坏,我们已经意识到问题的存在,现在是采取行动的时候了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6766

    浏览量

    108180
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112241
  • 计算机
    +关注

    关注

    19

    文章

    7857

    浏览量

    93649
  • 人工智能
    +关注

    关注

    1821

    文章

    50551

    浏览量

    267988
  • 新思科技
    +关注

    关注

    5

    文章

    994

    浏览量

    53028

原文标题:对话谷歌和微软,为什么静默数据损坏(SDC)问题需要高度重视?(下)

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用 SSP 的 LPC1768 上的 SPI 传输数据损坏是什么原因导致的?

    MOSI 传输不正确。例如,最后一个字节似乎已损坏或重复,并且仅发送 23 个字节而不是 32 个字节。有些字节是用来发送0x55但它的传输0x00。 当我放置断点并单步执行时,数据会正确传输。 设置
    发表于 04-28 07:53

    stm32cubeide 编译报错如何处理

    报错如何处理 \"make -j8 all\" terminated with exit code -1073741819. Build might be incomplete.
    发表于 04-28 07:47

    SAF sCheck 关机测试如何处理

    to read from the NvM during the next cycle? 预计如何处理? Br, 哈里什 R
    发表于 04-15 09:31

    变频器逆变模块损坏的起因及处理方法

    变频器作为现代工业控制中的核心设备,其逆变模块的可靠性直接影响生产系统的稳定性。然而,在实际应用中,逆变模块损坏是变频器故障中最常见的现象之一。深入分析其损坏原因并掌握有效的处理方法,对设备维护人员具有重要意义。
    的头像 发表于 03-13 17:13 1019次阅读

    NAND闪存的电荷泄露机理与静默数据损坏防御——天硕工业级SSD技术解析

    工控系统的典型特征是7×24小时持续运行、读多写少、数据长期驻留。与消费级使用场景不同,SSD中的数据可能数月甚至数年不被重写,但却要随时可被准确读取。然而, NAND闪存不是“天然长期可靠”的介质
    的头像 发表于 03-06 16:17 396次阅读
    NAND闪存的电荷泄露机理与<b class='flag-5'>静默</b><b class='flag-5'>数据</b><b class='flag-5'>损坏</b>防御——天硕工业级SSD技术解析

    SMT产线急停?PCB变形/MARK点损坏的4步应急处理法与根本预防

    23年PCBA一站式行业经验PCBA加工厂家今天为大家讲讲如何处理PCB变形或MARK点损坏导致校正失败的情况。处理PCB变形或MARK点损坏导致的校正失败,核心思路是先评估问题程度,
    的头像 发表于 02-03 09:16 511次阅读
    SMT产线急停?PCB变形/MARK点<b class='flag-5'>损坏</b>的4步应急<b class='flag-5'>处理</b>法与根本预防

    请问没有用到的I/0如何处理

    没有用到的I/0如何处理
    发表于 01-12 06:29

    大语言模型如何处理上下文窗口中的输入

    本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
    的头像 发表于 12-03 13:48 865次阅读
    大语言模型如<b class='flag-5'>何处理</b>上下文窗口中的输入

    Stduio使用wifi模块出错如何处理

    外设为潘多拉IOT开发板,使用Stduio配置了wifi框架,但是代码里在配置wifi模式时,没有找到wlan0这个设备,wifi整个功能也用不了,请问应该如何处理。使用正点原子资料包里的rtthread测试demo,wifi工作正常,wifi模块硬件没有问题。
    发表于 10-10 08:18

    一文读懂 | 识别静默数据损坏的来源

    在大型数据中心,静默数据错误(SDE,SilentDataErrors)正引发广泛担忧——这类错误会在系统内传播,对AI训练任务等长时间运行的程序造成严重影响。从技术角度看,静默
    的头像 发表于 09-19 18:06 951次阅读
    一文读懂 | 识别<b class='flag-5'>静默</b><b class='flag-5'>数据</b><b class='flag-5'>损坏</b>的来源

    NUC972DF62Y LCD FIFO欠载中断如何处理

    我使用 NUC972DF62Y 并使用 LCM 和 GE2D 模块。 是什么原因导致 FIFO 欠运行中断,我必须如何处理它? 清除旗帜UNDERRUN_INT后,它再次设置。
    发表于 08-29 07:44

    在M480系列中,GPIO配置为准双向模组时,如何处理功耗过大?

    在M480系列中,GPIO配置为准双向模组时,用户应该如何处理功耗过大?
    发表于 08-28 08:05

    当UART数据传输过程中发生RLS(接收线状态)中断时,如何处理PEF、FEF和BIF标志?

    当UART数据传输过程中发生RLS(接收线状态)中断时,如何处理PEF、FEF和BIF标志
    发表于 08-22 07:25

    静力水准仪在测量过程中遇到误差如何处理?

    静力水准仪在测量过程中遇到误差如何处理?静力水准仪在工程沉降监测中出现数据偏差时,需采取系统性处理措施。根据实际工况,误差主要源于环境干扰、设备状态、安装缺陷及操作不当四类因素,需针对性解决。静力
    的头像 发表于 08-14 13:01 1153次阅读
    静力水准仪在测量过程中遇到误差如<b class='flag-5'>何处理</b>?

    固定式测斜仪在测量过程中遇到误差如何处理?

    在岩土工程与结构物安全监测中,固定式测斜仪是捕捉位移变化的核心设备。然而,实际应用中可能因环境、操作或设备因素导致测量误差。很多人想要了解固定式测斜仪在测量过程中遇到误差如何处理?下面让南京峟思给
    的头像 发表于 06-13 12:10 846次阅读
    固定式测斜仪在测量过程中遇到误差如<b class='flag-5'>何处理</b>?