0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何处理复杂的静默数据损坏问题

新思科技 来源:新思科技 2024-11-21 18:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在本系列的第一篇文章中,我们探讨了静默数据损坏(Silent Data Corruption,SDC)的定义及其对当前计算数据状况的影响。为此,我们再次邀请了谷歌的首席工程师Rama Govindaraju和微软的硬件架构合伙人Robert S. Chappell共同探讨解决这一棘手问题的可行方案。

回顾一下,静默数据损坏是指受影响的CPU在处理数据时无意中引发错误。这些错误可能会长时间潜伏而不被发现,进而悄无声息地破坏整个数据集。

随着计算机处理能力的飞速提升,尤其是伴随内存密集型人工智能AI)及其他前沿技术的广泛应用,SDC的风险日益加剧,可能导致大量数据的损坏,进而引发难以预估且影响深远的问题。

SDC问题亟待解决,那我们应该如何应对呢?

处理复杂的静默数据损坏问题

当前,SDC的成因尚未明确,且解决方案尚处于初级阶段。

SDC所面临的一大挑战是决策者未投入充足资源来根本性地解决该问题,而仅仅是在症状显现时采取临时缓解措施。“这要花多少钱?”是常见的反对理由,通常也是SDC未得到根本解决的原因,毕竟定期执行扫描以及改进芯片制造工艺等诸多措施的成本过高。

最终,成本问题成为了开发实际解决方案的绊脚石。如果成本过高,为什么还要去研究解决方案呢?但这正是悖论所在:如果开发出了解决方案,就可以进一步研究降低成本和扩大应用的方法。

解决SDC的责任不应仅落在芯片开发者身上,制造商以及更广泛的利益相关方也应参与其中。即使现有的每个芯片都完美无瑕,SDC问题仍然会发生。然而,芯片生命周期的每一个环节都可能存在相关的解决方案,且或将对此发挥积极作用。

如今,制造商缺乏应对SDC的动力。如果客户收到有故障或缺陷的芯片,通常只需退换即可。这种做法虽然可行,但并未从根本上解决问题。如果激励机制发生改变,相应的行为模式也会随之变化。例如,如果芯片开发者可以向制造商证明某个芯片存在缺陷,而制造商必须为此支付50倍于芯片成本的赔偿,那么制造商就会更自觉地采取预防措施。

此外,早期的筛查和测试有助于尽早发现SDC,从而留出补救时间。就比如您汽车上的传感器。许多传感器并不是汽车正常运行所必需的,而是用于提醒用户可能存在的问题。

在芯片领域,某些故障可能隐藏了一两年之久,等到发现时往往为时已晚。芯片中的传感器可以发出预警或警告,虽然这只是权宜之计,但可以在过渡阶段提供有效帮助。

解决SDC面临的一大难题在于,解决方案需要广泛覆盖。具体来说,真正有效的解决方案应涵盖芯片开发者、供应商、云和数据管理者及其他相关方等等所有环节。

有望解决静默数据损坏的工具和方法

解决SDC的另一难点在于我们对其发生机制和原因知之甚少。不知彼,不知己,每战必贻。因此,我们需要更多能够广泛共享、分析和研究的数据。此外,行业也应允许并鼓励研究人员和开发者聚焦于SDC问题。

识别数据中的异常点、采取纠正措施、诊断症状、关注时间延迟或数据泄漏等警示迹象,以及其他许多诊断选项,将有助于揭开SDC的神秘面纱。然后,通过调整策略,我们也许能够找到解决方案。然而,这些举措仍未能在开发阶段如期落地,所以迫切需要集结各方力量共同攻关。

我们可以借鉴网络安全等相关行业以及食品和消费品等领域,建立一系列的管理标准,规定安全可靠的产品必须达到的特定条件。在计算机组件领域,类似的框架必定有助于推动解决方案的发展。

在工具箱中,还有一个工具目前尚未得到充分利用,那就是人工智能(AI)和机器学习(ML)算法。在诊断方面,定期筛查并不完美。一项筛查可以运行10次,但可能会得到5次阳性结果和5次阴性结果。故障容易被遗漏,而即便能够识别出某些症状,但通常也难以确定故障的根本原因或具体机制。

AI或ML或许能够提供帮助。理论上,当SDC的早期迹象达到某些条件时,算法能够发出警报。但这种方法也并不理想,因为训练这些模型需要大量数据,进而需要综合处理数据,而且用于AI训练的数据集必须具备高度的目的性。这个方法虽然很有潜能,但仍处于早期阶段。

毫无疑问,这一问题规模巨大,构成了根本性威胁,需要我们携手应对。芯片开发者、制造商、软件和硬件工程师、供应商以及任何涉及计算机数据的人员等等各个领域的利益相关者,都需要共同合作并认真对待SDC问题。在此过程中,教育扮演着重要角色,我们希望类似本博客系列的资源有助于阐明为什么必须采取行动来解决静默数据损坏,并说服决策者落实措施。

解决问题的第一步是承认问题的存在。对于静默数据损坏,我们已经意识到问题的存在,现在是采取行动的时候了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107355
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110263
  • 计算机
    +关注

    关注

    19

    文章

    7764

    浏览量

    92688
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261572
  • 新思科技
    +关注

    关注

    5

    文章

    925

    浏览量

    52643

原文标题:对话谷歌和微软,为什么静默数据损坏(SDC)问题需要高度重视?(下)

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Stduio使用wifi模块出错如何处理

    外设为潘多拉IOT开发板,使用Stduio配置了wifi框架,但是代码里在配置wifi模式时,没有找到wlan0这个设备,wifi整个功能也用不了,请问应该如何处理。使用正点原子资料包里的rtthread测试demo,wifi工作正常,wifi模块硬件没有问题。
    发表于 10-10 08:18

    一文读懂 | 识别静默数据损坏的来源

    在大型数据中心,静默数据错误(SDE,SilentDataErrors)正引发广泛担忧——这类错误会在系统内传播,对AI训练任务等长时间运行的程序造成严重影响。从技术角度看,静默
    的头像 发表于 09-19 18:06 552次阅读
    一文读懂 | 识别<b class='flag-5'>静默</b><b class='flag-5'>数据</b><b class='flag-5'>损坏</b>的来源

    NUC972DF62Y LCD FIFO欠载中断如何处理

    我使用 NUC972DF62Y 并使用 LCM 和 GE2D 模块。 是什么原因导致 FIFO 欠运行中断,我必须如何处理它? 清除旗帜UNDERRUN_INT后,它再次设置。
    发表于 08-29 07:44

    在M480系列中,GPIO配置为准双向模组时,如何处理功耗过大?

    在M480系列中,GPIO配置为准双向模组时,用户应该如何处理功耗过大?
    发表于 08-28 08:05

    当UART数据传输过程中发生RLS(接收线状态)中断时,如何处理PEF、FEF和BIF标志?

    当UART数据传输过程中发生RLS(接收线状态)中断时,如何处理PEF、FEF和BIF标志
    发表于 08-22 07:25

    静力水准仪在测量过程中遇到误差如何处理?

    静力水准仪在测量过程中遇到误差如何处理?静力水准仪在工程沉降监测中出现数据偏差时,需采取系统性处理措施。根据实际工况,误差主要源于环境干扰、设备状态、安装缺陷及操作不当四类因素,需针对性解决。静力
    的头像 发表于 08-14 13:01 585次阅读
    静力水准仪在测量过程中遇到误差如<b class='flag-5'>何处理</b>?

    STM32WLE5CBU6在待机模式下使用频率校准命令失败如何处理

    STM32WLE5CBU6在待机模式下使用频率校准命令失败,用get_error命令获取信息发现HSE32启动失败,进而导致校准失败,应该如何处理
    发表于 03-07 07:06

    DLPC3433的PCLK和PDATA【0~23】该如何处理呢?

    我们项目里面只用到了mipi接口,请问下如何处理不用的并口输入呢? 规格书中在第7页有描述PDM_CVS_TE,VSYNC_WE,HSYNC_CS,DATAEN_CMD需要下拉,但没有明确说PCLK和PDATA【0~23】该如何处理, 请问下PCLK和PDATA【0~
    发表于 02-27 08:43

    差分输入的AD转换芯片如何处理单端输入的信号?

    对一个仪表放大器输出的信号进行AD转换,怎么使用差分输入呢,IN-端是接地么?还是怎么处理? 即是:差分输入的AD转换芯片如何处理单端输入的信号
    发表于 02-07 06:40

    ADS1192IRSMR何处理采集ECG信号伴随的工频干扰、运动基线漂移、电极接触噪声、肌电干扰等及其他干扰的?

    请问这颗ECG 模拟前端,他如何处理采集ECG信号伴随的工频干扰、运动基线漂移、电极接触噪声、肌电干扰等及其他干扰的,是需要外面搭电路还是他内部可以处理,如果是搭电路能否给应用线路图?内部处理的话是否能够大部分
    发表于 02-05 08:23

    请问ADS42LB49模拟地AGND和数字地DGND是如何处理

    ADS42LB49的芯片手册中没有讲模拟地AGND和数字地DGND是如何处理的,但 ADS42LB49引脚只有一个GND PAD引脚,请问在PCB布线时,应当如何处理PCB板上的一个模拟地和数字地?
    发表于 01-22 08:09

    请问LDC1314读出来的数据何处理呢?数据与距离的关系函数如何确定?

    请问LDC1314读出来的数据何处理呢?数据与距离的关系函数如何确定?自己测量找关系么??
    发表于 01-02 06:21

    ADS1292系列VQFN封装的芯片,Thermal pad该如何处理

    请问,ADS1292系列VQFN封装的芯片,Thermal pad该如何处理?datasheet上没有注明如何处理该脚。 是否像常规的芯片一样进行处理?具体如下: 单电源供电下: Thermal Pad接 GND 双电源下:
    发表于 12-30 08:30

    使用DDC112时,只使用其中一个通道,另外一个通道应该如何处理

    1.在使用DDC112时,只使用其中一个通道,另外一个通道应该如何处理. 2.DDC112可以稳定测量的最小电流为多少. 3.DDC112可以测量的最大负电流为多少?
    发表于 12-11 07:45

    AFE5809EVM GUI如何处理低频信号?

    请教如何处理低频信号。 对AFE5809EVM GUI进行如下图设置,请问是否正确。
    发表于 12-09 07:04