0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新思科技Multi-Die系统如何满足现代计算需求

新思科技 来源:新思科技 2024-12-19 10:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从赋能聊天机器人快速生成回答的生成式人工智能工具,到支持金融预测和天气建模的高性能计算(HPC)应用,我们对处理能力的需求显然达到了新的高度。面对这些计算密集型工作负载,单片SoC已不再能够满足当今的处理需求。为此,我们不断创新工程技术,Multi-Die系统也应运而生。这种在单一封装中实现异构集成的技术突破,不仅带来了更优越的系统功耗和性能,还提高了产品良率,加速了更多系统功能的整合。

Multi-Die系统承担着如此重要的角色,那开发者又该如何确保它们在整个生命周期内稳健可靠呢?

芯片测试对于任何芯片设计而言都至关重要。Multi-Die系统更是如此,需要对裸片到系统级执行全面测试,其中包括将各组件连接在一起的所有互连技术,例如通用芯粒互连技术(UCIe)。在这篇文章中,我们将深入探讨Multi-Die系统的独特问题,以及如何通过测试和芯片生命周期管理来确保这些复杂的设计能够按预期可靠地工作。开发者如需获得更多见解,还可以观看我们的网络研讨会系列:“成功实现Multi-Die系统所需具备的条件”(共六个部分)。该系列网络研讨会介绍了Multi-Die系统的趋势和挑战、早期架构设计、协同设计和系统分析、Die-to-Die连接、验证及系统健康状况等等。

从裸片到系统的全面芯片测试

许多因素都会影响芯片的性能,温度、老化和退化只是其中的一部分。对于Multi-Die系统来说,老化风险甚至更高,因为一个裸片发生故障可能会导致整个系统失效,造成巨大的经济损失。在裸片层面排除缺陷是一个很好的开始。每个生产的裸片都将经历专门的测试流程,以确保百万分比缺陷率(DPPM)非常低。测试自动化流程负责测试和诊断器件的数字、内存和模拟部分。这其中的挑战在于找到所需测试向量数量和相关成本之间的平衡点,以期获得理想结果。

检查每个裸片很重要,在系统层面评估整个系统也很重要。Multi-Die系统可以将不同工艺节点、不同用途的裸片或芯粒组合在一起。因此,一个系统可能包含运行温度或散热水平不同的多个裸片。此外,裸片之间的电磁干扰以及电迁移也可能造成问题。

对于Multi-Die系统,全面而彻底的预组装测试环节,可以筛选出已知良好裸片(KGD)。设计模块内置的高级可测性设计(DFT)功能可以评估裸片。对各个裸片进行测试,并在必要时进行修复后,设计就进入了组装和键合阶段。部分或全部键合内存和逻辑芯片之后,就可以测试互连了。

降低芯粒互连的功耗并提升其性能

Die-to-Die接口使裸片可以并排放置,为了进一步提高密度,还可以堆叠在2.5D或3D封装中。如果两个裸片之间提供数据接口的功能块(即接口),可以兼具高带宽、低功耗和低延迟特性,系统性能就能得到提升。

Die-to-Die连接通常基于高速接口,例如UCIe,该接口有望成为Multi-Die系统的优选互连标准,也是行业唯一具有完整的Die-to-Die接口工具套件的标准。UCIe适用于2D、2.5D未来的3D封装,支持目前每引脚8 Gbps到16 Gbps的大部分设计,非常适合从网络连接到超大规模数据中心的高带宽应用。对于3D设计,由于互连更短,使得硅通孔(TSV)更加脆弱,因此互连级风险更高。

Multi-Die系统开发者需要避免互连中的固定型故障、开路或短路,同时确保时序和电压方面的行为正确。由于涉及超高速信号,信号完整性成为了指示裸片间数据共享有效性的重要参数,所以通过测量和监控来检测信号衰减水平非常重要。UCIe要求在PHY的两侧之间提供冗余通道,从而支持通过这些额外的通道实现故障修复。基于UCIe系统中的所有裸片都必须通过UCIe通道进行访问、测试和修复,以便能够监控裸片中正在发生的问题。

键合后测试可以解决一些要求切换互连通道的互连层面问题,还可以通过算法测试来评估互连缺陷。2.5D和3D互连有不同的算法集,而且测试是基于互连的缺陷。故障模型将决定所要应用的算法测试。

贯穿系统生命周期的智能监控和分析

Multi-Die系统具有微小的微凸块,这些微凸块彼此非常靠近,因此无法通过物理探测进行测试。例如,对于UCIe,微凸块的间距为25至55微米,而探测距离通常为90微米。更好的办法是通过内置自测(BIST)进行电子探测,从而检测那些需要采取纠正措施的软错误或硬错误。或者也可以使用在预组装阶段集成的专用晶圆测试焊盘。

当系统处于开发阶段以及在现场使用时,芯片生命周期管理(SLM)方法就很有用。这种方法通过在芯片上集成传感器和监控器来评估各种参数,例如温度、电压、老化和退化程度。集成SLM IP技术与分析智能后,可以将从器件传感器和监控器收集的大量数据转化为可操作的系统优化洞察。

那么SLM技术如何识别热问题呢?无论是单个裸片还是Multi-Die系统,热管理问题都不容忽视。在设计阶段,由于没有实际工作负载,开发者很难评估这些问题。再加上2.5D或3D架构的复杂性后,更是很难得到最终设计的热曲线。以下是SLM能发挥作用的情况。布置在裸片重点位置的片上监控器让开发者有机会深入了解和分析裸片的热特性,并且可以在需要调整布局以解决散热问题时提供指示信号。同样,深入了解热效应还可能促使开发者做出降低系统高带宽内存(HBM)组件数据速率的决策。或者,可能还可以通过软件来缓解散热问题。借助监控器提供的数据,开发者可以分析并确定更优纠正方案。

SLM技术还提供可追溯性,即无论最终产品在生命周期中何时出现问题,它都能追溯到问题的根源。例如,假设在试制过程的某个环节发现良率异常,此时准确定位问题来源至关重要。我们需要判断问题是出在某个特定晶圆或裸片上,还是影响了某一时期内生产的所有晶圆或裸片,抑或是源于晶圆厂本身。这种追溯能力在Multi-Die系统中尤为重要,因为此类系统的封装成本可能非常高。越快发现问题,开发者就能越快让产品进入市场并降低成本。良好的SLM解决方案应该能够在几分钟内识别根本原因,而手动方法可能需要花费几天或几周时间。

可追溯性还适用于以下情况:最终产品已部署到现场,但开始出现意外甚至灾难性的故障,可能需要召回。这种退货授权(RMA)情况可以利用SLM和整个测试生态体系,追溯制造过程,找出根本原因。同时,还能找出现场中可能存在相同问题的同类器件,以便在故障发生前主动召回,或者通过调整器件的电压或频率来延长其使用寿命。

测试的最后阶段针对堆叠本身进行。“已知良好系统”是此阶段的核心,因为测试团队的目标是确定其Multi-Die系统能否稳定可靠地运行,并在需要时找到监控、分析和解决问题的方法。IEEE Std 1838-2019提供了一种模块化测试访问架构,可支持测试裸片以及相邻堆叠裸片之间的互连层。

对于堆叠架构,有些测试需要在下游进行,而更智能的测试仍然留在流程的上游。例如,在裸片层面评估高温性能是不可行的。相反,在堆叠后进行Multi-Die系统的温度测试最有效,此时发现的故障可以根据其位置进行修复。在晶圆层面进行温度测试也是可行的,不过这可能相当昂贵。高端系统的开发者可能会选择执行这些测试。监控和收集这些重要数据,能够让设计、制造和测试团队确定如何提高结果质量。

自动化和智能化进一步提高Multi-Die系统的质量

为了满足我们所讨论的需求并推动下一波半导体创新,新思科技推出了Multi-Die解决方案,以加速单一封装中的异构集成。这套全面的解决方案涵盖了系统全生命周期的各个关键环节,包括测试、诊断、修复、校准以及持续优化各项性能指标。针对设计、试制、生产和现场优化的可追溯性和分析能力可以提高良率、质量和可靠性,并降低成本。此外,我们的AI驱动芯片设计套件Synopsys.ai具备业界少有的半导体测试自主AI应用程序。新思科技TSO.ai优化了复杂设计中的测试程序生成过程,能以更少的测试向量实现尽可能高的缺陷覆盖率。

为了满足计算密集型工作负载对高带宽和高性能的需求,Multi-Die系统正迅速成为芯片设计的主流。自动化测试流程和分析智能有助于提高上述系统的质量和可靠性水平,而这更是为生成式人工智能和高性能计算(HPC)等造福全世界的应用带来了曙光。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片测试
    +关注

    关注

    6

    文章

    156

    浏览量

    21085
  • 人工智能
    +关注

    关注

    1813

    文章

    49740

    浏览量

    261549
  • 新思科技
    +关注

    关注

    5

    文章

    925

    浏览量

    52639
  • HPC
    HPC
    +关注

    关注

    0

    文章

    342

    浏览量

    24825

原文标题:从GenAI到HPC,Multi-Die系统如何满足现代计算需求?

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    思科技助力UCIe 3.0快速落地

    芯片已从单一整体式芯片发展为集成多个芯粒的 Multi-Die 设计,其中每个芯粒都针对处理、内存和数据传输等特定功能进行了优化。
    的头像 发表于 11-30 10:01 386次阅读

    思科技以AI驱动EDA加速Multi-Die创新

    Multi-Die设计将多个异构或同构裸片无缝集成在同一封装中,大幅提升了芯片的性能和能效,因而在高性能计算(HPC)、人工智能(AI)、数据分析、先进图形处理和其他要求严苛的应用领域中至关重要。
    的头像 发表于 11-07 10:17 335次阅读

    思科技斩获2025年台积公司开放创新平台年度合作伙伴大奖

    涵盖AI辅助设计解决方案、EDA流程、射频设计迁移、Multi-Die设计测试、接口IP以及硅光电子技术等多个领域,充分彰显了双方合作在塑造半导体设计未来过程中所发挥的关键作用。
    的头像 发表于 10-24 16:31 1012次阅读

    面向芯粒设计的最佳实践

    半导体领域正经历快速变革,尤其是在人工智能(AI)爆发式增长、对更高处理性能及能效需求持续攀升的背景下。传统的片上系统(SoC)设计方案在尺寸与成本方面逐渐触及瓶颈。此时,Multi-Die设计应运而生,将SoC拆分为多个称为芯
    的头像 发表于 10-24 16:25 784次阅读

    思科技UCIe IP解决方案实现片上网络互连

    通用芯粒互连技术(UCIe)为半导体行业带来了诸多可能性,在Multi-Die设计中实现了高带宽、低功耗和低延迟的Die-to-Die连接。它支持定制HBM(cHBM)等创新应用,满足了I/O裸片
    的头像 发表于 08-04 15:17 2283次阅读

    思科技网页端虚拟原型工具的工作流程

    片上系统(SoC)和基于芯粒的半导体的复杂性持续增长。随着Multi-Die架构、AI加速器和日益增加的内存带宽成为常态,在设计周期的早期解决性能和功耗问题变得尤为重要。
    的头像 发表于 08-04 15:08 687次阅读
    新<b class='flag-5'>思科</b>技网页端虚拟原型工具的工作流程

    思科技与三星深化合作加速AI和Multi-Die设计

    思科技近日宣布,正与三星代工厂持续紧密合作,为先进边缘AI、HPC和AI应用的下一代设计提供强大支持。双方合作助力共同客户实现复杂设计的成功流片,并缩短设计周期。这些客户可以借助适用于SF2P工艺
    的头像 发表于 07-18 13:54 749次阅读

    利用新思科Multi-Die解决方案加快创新速度

    Multi-Die设计是一种在单个封装中集成多个异构或同构裸片的方法,虽然这种方法日益流行,有助于解决与芯片制造和良率相关的问题,但也带来了一系列亟待攻克的复杂性和变数。尤其是,开发者必须努力确保
    的头像 发表于 02-25 14:52 1109次阅读
    利用新<b class='flag-5'>思科</b>技<b class='flag-5'>Multi-Die</b>解决方案加快创新速度

    思科技助力下一代数据中心AI芯片设计

    Multi-Die设计正成为增强数据中心现代计算性能、可扩展性和灵活性的关键解决方案。通过将传统的单片设计拆分为更小的异构或同构芯片(也称小芯片),开发者可以针对特定任务优化每个组件,进而
    的头像 发表于 02-20 09:17 843次阅读
    新<b class='flag-5'>思科</b>技助力下一代数据中心AI芯片设计

    思科技与英特尔携手完成UCIe互操作性测试

    IP(知识产权)的40G UCIe解决方案。这一成果标志着新思科技在Multi-Die(多芯片组件)解决方案领域取得了重大进展,进一步巩固了其在技术创新先驱中的领先地位。 一直以来,新思科技都专注于为
    的头像 发表于 02-18 14:18 777次阅读

    什么是物联网智能路灯? 智慧路灯是什么?什么样的智慧路灯更满足现代需求

    什么是物联网智能路灯? 智慧路灯是什么?什么样的智慧路灯更满足现代需求
    的头像 发表于 02-18 10:19 1067次阅读
    什么是物联网智能路灯? 智慧路灯是什么?什么样的智慧路灯更<b class='flag-5'>满足</b><b class='flag-5'>现代</b><b class='flag-5'>需求</b>

    思科技全新40G UCIe IP解决方案助力Multi-Die设计

    随着物理极限开始制约摩尔定律的发展,加之人工智能不断突破技术边界,计算需求和处理能力要求呈现爆发式增长。为了赋能生成式人工智能应用,现代数据中心不得不采用Multi-Die设计,而这又
    的头像 发表于 02-18 09:40 820次阅读

    思科技助力晶圆代工厂迎接Multi-Die设计浪潮

    过去几十年来,单片芯片一直是推动技术进步的主力。但就像工业革命期间,役畜被更高效强大的机器所取代一样,半导体行业如今也处于类似变革的阶段。
    的头像 发表于 02-15 10:57 956次阅读

    利用Multi-Die设计的AI数据中心芯片对40G UCIe IP的需求

    ,我们估计需要6000到8000个A100 GPU历时长达一个月才能完成训练任务。”不断提高的HPC和AI计算性能要求正在推动Multi-Die设计的部署,将多个异构或同构裸片集成到一个标准或高级封装中
    的头像 发表于 01-09 10:10 1639次阅读
    利用<b class='flag-5'>Multi-Die</b>设计的AI数据中心芯片对40G UCIe IP的<b class='flag-5'>需求</b>

    AmpereOne如何满足现代数据中心需求

    在当今要求苛刻的技术环境中,数据中心和企业面临着严峻的挑战。不断上升的能源成本促使公司寻求更节能的解决方案,以满足可持续性和成本目标。对可扩展计算密度的需求也在增长,以跟上日益复杂的应用程序和云原生
    的头像 发表于 12-09 17:33 995次阅读