0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI芯片的可靠性对终端应用有何影响

lPCU_elecfans 来源:电子发烧友网 作者:电子发烧友网 2022-04-26 08:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)当我们谈及AI芯片,脑海中不免都会想起TOPS、L4/L5自动驾驶、图像识别和处理算法等词。但在初创企业、芯片大厂纷纷追逐“AI热“的情况下,芯片的可靠性成了一个大问题,甚至对终端应用也有较大的影响。

自动驾驶故障,不止OEM要担责

经常关注汽车新闻的读者想必都很清楚,近年来因为自动/辅助驾驶引发的事故越来越多,起因多种多样,但很少会将其追溯到芯片上。有的车企为了追求快速上市,其AI芯片很可能只有AEC-Q100认证,而没有ISO 26262这样的功能安全认证,在他们看来这些标准太过“传统”了,对于产品的创新流程来说有些多余了。

这在消费者眼里也是如此,我们对功能的感知是最为直观的,而对故障的感知只要在接受范围来就好。这就使得此类车厂可以以一种“手机APP”开发式的模式运作,实现快速迭代。然而,这并不代表功能安全可以被忽视,毕竟当坏事落在自己头上时,总得要个说法吧。

在实现功能安全的过程中,从提出要求、架构、设计、编程到测试阶段,都有对应的确认与验证工作,然而通过验证是一回事,能否实现追溯就是另一回事了。比如设计上的改动可能会违背芯片要求等等,最终导致实际性能不符等问题,所以在功能安全开发设计和认证的过程中,必须要做到可追溯。

IP厂商Arteris提出了一个追溯方案名为Harmony Trace,帮助芯片厂商更好地实现功能安全。Harmony Trace在这些分散的流程系统之间创造了一层整合系统,用于追踪半导体产品寿命周期中的所有失误。一旦违反芯片要求的错误出现,这套系统就会通知工程师这项改动需要进行检查,从而自动化车规认证的审查流程。当然了,芯片开发厂商所用的开发工具流都是不尽相同的,所以Harmony Trace也提供了对现有主流EDA工具、认证流程的支持。

在自动驾驶安全标准继续演进,ISO 21448和UL4600等标准提出的额外要求下,在AI芯片设计中保证可追溯性或许是缩短产品开发认证周期的一条捷径。

可靠性第一

事实证明,不止自动驾驶领域,云端同样需要可靠的AI计算芯片。我们从现在的云端计算集群来看,多个节点为云服务提供了强大的计算能力,但正是因为这般复杂的架构,每一个节点都有可能成为整个系统的阿喀琉斯之踵。

这样的案例我们也见多了,甚至开始影响到我们的生活,热搜上时不时就会冒出“某某应用崩了”的消息,互联网公司经受的服务器故障可谓数不胜数,而且苦于定位故障来源,这其中,芯片也脱离不了干系。

造成这些后果的芯片可靠性问题主要有三种,早期失效(ELF)和正常设备运行下的随机失效,还有不可避免的设备老化。芯片都是有着工作寿命的,所以最后一项难以从设计上解决,最多尽可能延长其寿命,而前面两者才是当下云端需要提防的问题。

常见的早期失效有闸极氧化层失效、老化效果不好和软击穿等,随机失效很多与运行环境有关,比如温度过高、辐射过高等等。

为了进一步让AI芯片免受这些可靠性问题的影响,初创公司Ceremophic公布了自己研发的QS1芯片。这是一款基于5nm工艺的分层学习芯片,集成了2GHz自定义机器学习处理器、2GHz的自定义FPU处理机器学习计算,还有一个基于ThreadArch的RISC-V处理器和ARM Cortex-M55应用处理器,Ceremophic称后者主要用于元宇宙相关应用的视频处理。在接口方面,该芯片支持到x16 PCIe 6.0/CXL 3.0。

那么这款芯片在可靠性上的亮点又有哪些呢?Ceremophic称对于早期失效而言,他们选用了高效的ASIC实现方式来使用抗ELF的逻辑库,在正确的逻辑单元组合下以最小的设计开销做到低ELF。

而在面对随机失效上,Ceremophic用到了自己的多线程技术,利用两个多线程处理器运行同一程序,一旦检测到错误,就会利用多个结果来做出表决,并进行修正,接着程序执行会直接从检测到错误发生的地方开始运行,而不是一个未知的安全起始点,消耗更多的功耗。

在传统的高可靠性设计中,往往都得采用高成本的解决方案,比如冗余,就像是需要在两个地方做同一件事,带来计算资源和功耗的双重增加。不仅如此,解决方式也需要消耗更多的运行周期,这也是为何云端服务器出现故障后,不能快速恢复的原因。

原文标题:AI芯片不只拼算力,还得看可不可靠

文章出处:【微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 可靠性
    +关注

    关注

    4

    文章

    283

    浏览量

    27658
  • 自动驾驶
    +关注

    关注

    795

    文章

    15074

    浏览量

    182072
  • AI芯片
    +关注

    关注

    17

    文章

    2187

    浏览量

    36895

原文标题:AI芯片不只拼算力,还得看可不可靠

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    无线通信技术核心定位从 “速度竞赛” 转向超高可靠性

    定位从“速度竞赛”转向超高可靠性(UHR, Ultra-High Reliability),打破无线网络“尽力而为”的局限,实现接近有线网络的稳定、低时延、低丢包连接,为工业、医疗、XR、智能家居等场景
    发表于 04-23 17:31

    什么是高可靠性

    一、什么是可靠性可靠性指的是“可信赖的”、“可信任的”,是指产品在规定的条件下和规定的时间内,完成规定功能的能力。对于终端产品而言,可靠度越高,使用保障就越高。 PCB
    发表于 01-29 14:49

    芯片可靠性面临哪些挑战

    芯片可靠性是一门研究芯片如何在规定的时间和环境条件下保持正常功能的科学。它关注的核心不是芯片能否工作,而是能在高温、高电压、持续运行等压力下稳定工作多久。随着晶体管尺寸进入纳米级别,
    的头像 发表于 01-20 15:32 711次阅读
    <b class='flag-5'>芯片</b><b class='flag-5'>可靠性</b>面临哪些挑战

    芯片可靠性(RE)性能测试与失效机理分析

    2025年9月,国家市场监督管理总局发布了六项半导体可靠性测试国家标准,为中国芯片产业的质量基石奠定了技术规范。在全球芯片竞争进入白热化的今天,可靠性已成为衡量半导体产品核心价值的关键
    的头像 发表于 01-09 10:02 1690次阅读
    <b class='flag-5'>芯片</b><b class='flag-5'>可靠性</b>(RE)性能测试与失效机理分析

    如何测试单片机MCU系统的可靠性

    用什么方法来测试单片机系统的可靠性,当一个单片机系统设计完成,对于不同的单片机系统产品会有不同的测试项目和方法,但是一些是必须测试的。 下面分享我的一些经验: 1、测试单片机软件功能的完善
    发表于 01-08 07:50

    电能质量在线监测装置的故障自恢复功能对其可靠性影响?

    电能质量在线监测装置的故障自恢复功能,是提升设备可靠性的 核心技术手段之一 —— 其本质是通过 “自动化故障响应与修复”,减少人工干预依赖、缩短故障停机时间、保障数据连续,最终延长设备平均
    的头像 发表于 12-12 16:08 814次阅读
    电能质量在线监测装置的故障自恢复功能对其<b class='flag-5'>可靠性</b><b class='flag-5'>有</b><b class='flag-5'>何</b>影响?

    国产AI芯片冲至160亿美元:狂欢下的“可靠性”大考

    国产AI芯片年销售额达160亿美元,标志着设计环节实现突破,但商业落地的核心考验已转向可靠性AI芯片因高算力、高功耗特性,面临电源与时钟稳
    的头像 发表于 12-11 15:33 578次阅读

    汉思新材料:芯片底部填充胶可靠性哪些检测要求

    芯片底部填充胶可靠性哪些检测要求?芯片底部填充胶(Underfill)在先进封装(如FlipChip、CSP、2.5D/3DIC等)中起着至关重要的作用,主要用于缓解焊点因热膨胀系数
    的头像 发表于 11-21 11:26 869次阅读
    汉思新材料:<b class='flag-5'>芯片</b>底部填充胶<b class='flag-5'>可靠性</b><b class='flag-5'>有</b>哪些检测要求

    车规级与消费级芯片可靠性、安全与成本差异

    引言在汽车电子和消费电子领域,"车规级"与"消费级"芯片代表了两种截然不同的设计理念和技术标准。车规级芯片专为汽车应用设计,强调在极端环境下的可靠性和安全
    的头像 发表于 11-18 17:27 1832次阅读
    车规级与消费级<b class='flag-5'>芯片</b>的<b class='flag-5'>可靠性</b>、安全<b class='flag-5'>性</b>与成本差异

    材料选择对PCB可靠性具体影响?

    材料选择对PCB可靠性的具体影响主要体现在以下方面: 1. 基材性能匹配 FR-4基材的玻璃化转变温度(Tg)需≥130℃才能满足汽车电子长期高温需求,而高频电路需选用介电常数(Dk) 2. 铜箔
    的头像 发表于 10-27 14:07 526次阅读

    可靠性设计的十个重点

    专注于光电半导体芯片与器件可靠性领域的科研检测机构,能够对LED、激光器、功率器件等关键部件进行严格的检测,致力于为客户提供高质量的测试服务,为光电产品在各种高可靠性场景中的稳定应用提供坚实的质量
    的头像 发表于 08-01 22:55 1338次阅读
    <b class='flag-5'>可靠性</b>设计的十个重点

    接口稳定性:车载智能终端可靠性检测的关键维度

    接口机械结构耐久测试对设备的要求,本质是通过 “被测对象合规、工装模拟精准、监测数据可靠”,实现对接口真实使用场景的有效复现。只有设备满足精度、兼容和稳定性要求,才能准确暴露接口在长期使用中的机械缺陷(如材料疲劳、结构松动)
    的头像 发表于 08-01 08:00 1880次阅读
    接口稳定性:车载智能<b class='flag-5'>终端</b><b class='flag-5'>可靠性</b>检测的关键维度

    长期运行的秘密:车载智能终端耐久可靠性检测

    车载智能终端可靠性检测是一个多维度、严苛的过程,需结合环境模拟、性能验证、长期耐久测试等手段,并依据国际车规标准执行。通过全面检测,可提前暴露设计、材料或工艺缺陷,确保设备在车辆全生命周期内稳定运行,为智能驾驶、车联网等功能
    的头像 发表于 07-31 09:29 1791次阅读
    长期运行的秘密:车载智能<b class='flag-5'>终端</b>耐久<b class='flag-5'>性</b>与<b class='flag-5'>可靠性</b>检测

    请问49通道的触摸芯片CMS32F759/737可靠性怎么检测的?

    请问49通道的触摸芯片CMS32F759/737可靠性怎么检测的?
    发表于 07-30 16:33

    半导体芯片可靠性测试都有哪些测试项目?——纳米软件

    本文主要介绍半导体芯片可靠性测试项目
    的头像 发表于 06-20 09:28 1723次阅读
    半导体<b class='flag-5'>芯片</b>的<b class='flag-5'>可靠性</b>测试都有哪些测试项目?——纳米软件