0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

芯片的验证为何越来越难?

颖脉Imgtec 2025-06-05 11:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文由半导体产业纵横(ID:ICVIEWS)编译自semiengineering


过去,仿真曾是验证的唯一工具,但如今选择已变得多样。平衡成本与收益并非易事。

芯片首次流片成功率正在下降,主要原因是设计复杂度上升和成本削减的尝试。这意味着管理层必须深入审视其验证策略,确保工具和人员的潜力得到最大发挥。

自半导体时代伊始,通过仿真验证设计是否具备所需功能,一直是功能验证的核心。当设计规模较小时,这是一种简单有效的方法。但随着设计规模扩大,手动编写足够测试用例以覆盖所有功能变得不再现实。测试平台技术随之发展,实现了部分流程的自动化。这在一段时间内有效,但如今却导致验证变得高度复杂且低效——芯片首次流片成功率的下降便是明证。

“众所周知,随着芯片复杂度以每18个月翻一番的速度增长,验证状态空间呈指数级膨胀,”Cadence产品管理团队总监皮特·哈迪(Pete Hardee)表示,“仿真一直是主要验证方法,但五年前验证一个相对简单的处理器内核需要10¹³次仿真周期,而验证GPU则需要10¹⁵次。”如今,这些数字更是高出了几个数量级。

“仿真方法缺乏智能,”Ansys产品营销总监马克·斯温嫩(Marc Swinnen)指出,“你输入一个向量,观察结果;再输入另一个向量,再观察结果。但你并不清楚每个向量的预期作用和目标,因此基本上是在进行蒙特卡洛模拟,寄希望于覆盖所有极端情况,或试图主动导向这些情况。”

仿真早已力不从心。“短期内,提升仿真速度是解决方案,这也推动了仿真市场的爆发式增长,”Real Intent首席执行官普拉卡什·纳拉因(Prakash Narain)表示,“我们需要更强的计算能力。与此同时,形式验证开始崭露头角——它并非与仿真并驾齐驱,而是填补了仿真在关键功能行为全覆盖上的漏洞。”

目前,多种验证技术可与仿真互补,但许多团队难以将其成功整合到整体方法论中。原因包括:需要各类专家才能正确使用这些技术;无法展示整体进展或完成度;部分团队仍依赖现有方法的经验性成功。

静态验证和形式验证工具各有优势,一类借助人工智能技术的新工具也开始涌现。例如,辅助工具可在代码开发过程中确保其可靠性,或执行等价性检查。团队需要持续评估每种工具的价值,同时了解威胁其成功的缺陷来源和类型。

功能验证流程的全面评估,始于理解芯片可能失败的原因。“某些产品的工作模式数量激增,”是德科技(Keysight)新机遇业务经理克里斯·穆思(Chris Mueth)表示,“只要其中一种模式未经验证,产品就可能失败。如何记录所有模式?如何建立验证流程以涵盖所有模式组合?如何记录性能要素?”

首先需要了解缺陷的本质,这将决定发现缺陷的最佳工具。“芯片流片后出现的缺陷,要么是设计中的结构性缺陷,如溢出/下溢、未知状态(Xs)、有限状态机(FSM)问题、死代码、冗余代码;要么是设计中的语义差异,如功能缺陷,”Axiomise首席执行官阿希什·达尔巴里(Ashish Darbari)表示,“形式验证工具可通过应用驱动的流程,在设计启动时自动分析并发现大多数结构性缺陷,这大幅节省了功能仿真的开销。”

从理论上讲,形式验证相比仿真具有重大优势。“无需编写测试用例来激励被测设计(DUT)的所有行为并验证不良反应,形式验证工具会自动生成激励,”Cadence的哈迪表示,“除非受到约束,否则形式验证工具会考虑所有可能的输入组合。随着我们走出特定应用时代,这一优势愈发显著。我们将DUT的预期行为定义为一组属性,要么证明这些属性在所有情况下都成立,要么得到潜在缺陷的反例。”

没有任何一种技术能独立解决问题,需要找到最佳组合方式。“控制这种复杂性所需的全部智慧,蕴含在方法论和工程师身上,”Real Intent的纳拉因表示,“我们一直在为这些工具投入更强的计算能力,但这正是问题所在。另一种思路是从根本上质疑:基于布尔逻辑的传统技术能否应对这种复杂性爆炸?这正是静态验证的用武之地,因为它们更抽象。但静态验证的问题在于依赖抽象,而这种抽象依赖于针对特定问题的定制化技术。”

没有放之四海而皆准的解决方案。“历史经验需要融入验证环境,”弗劳恩霍夫IIS自适应系统工程部门高级混合信号自动化团队经理本杰明·普劳奇(Benjamin Prautsch)表示,“管理层很难理解这一点,因为需要处理许多细节。测试IP或验证IP专家掌握的信息成为重要资产。必须将两者结合,并且一旦现场出现错误或设计存在缺陷,必须将其纳入设计指南或添加断言,以改进整体测试和验证环境。”

规避成本巨大。“如今变化速度极快,如果今天不采取行动,三个月后可能会陷入更糟糕的境地,”Synopsys形式验证高级产品总监张晋(Jin Zhang)表示,“看看大语言模型(LLM)每周都在更新的速度,你必须升级工具、拥抱新技术,别无选择,否则将被淘汰。”

失败成本同样高昂。“因此,改变看似有效的现有方法需要克服巨大的恐惧心理,”纳拉因表示,“这就是为什么人们仍依赖传统验证签收方法。机会在于‘左移’——尽早部署验证技术,在缺陷修复成本低且快速的阶段发现问题。虽然这可能不会影响当前的仿真工作,但随着仿真中发现的错误减少,对‘左移’的依赖将逐渐增加。”


小错误引发大问题

首先需要了解可能威胁成功的缺陷类型。在许多情况下,这些缺陷在流片前才被发现,看似极其复杂,但实际上很多是由深埋在逻辑中的小错误导致的。“通过运行静态检查(lint)和形式属性验证,很容易发现计数器中的功能缺陷,”Axiomise的达尔巴里举例称,“它可能导致SoC中的DDR性能计数器溢出。在一个真实案例中,设计验证(DV)团队花了三周时间通过仿真调试,最终发现问题出在计数器上。”

形式验证的传统缺点是计算密集,这意味着它仅用于小规模(通常是控制路径主导的)模块和子系统。“具有讽刺意味的是,推动验证需求爆炸式增长的计算能力提升,反而使形式验证更有效,”哈迪表示,“现代形式验证工具可验证中型处理器内核,对于大型处理器,可先将其分解为子系统,再在顶层使用分治策略创建端到端属性进行验证。形式验证还能在数分钟或数小时内全面验证复杂数学模块。例如,32位整数乘法器(GPU或AI加速器中许多算术逻辑单元或数学协处理器的典型构建模块)有2⁶⁴种可能的输入组合,通过仿真覆盖所有组合是不可行的。”

形式验证的目标不仅限于功能验证。“我们部署了一种新型面积分析应用,用于检测芯片中消耗功率的冗余触发器和门电路,”达尔巴里表示,“通过形式属性验证,用户无需任何测试平台或测试用例,即可快速分析整个SoC。报告结果令人震惊,尤其是考虑到这些设计此前已通过仿真验证。”

形式验证的角色正在转变。“过去,人们使用属性验证来验证简单的局部断言,”Synopsys的张晋表示,“例如,验证有限状态机的状态转换,这些被称为局部属性。但近年来,重点已转向验证端到端属性——为输出编写属性,并从输入推导逻辑。这些属性更复杂,验证难度更大,需要更多技术,但与仅在设计中散布局部属性相比,能捕捉到更多真实设计缺陷和极端情况缺陷。”

管理层需要精确衡量验证成本。“没有衡量,整个论证就依赖经验性成功,”达尔巴里表示,“这可能存在偶然性,且在很大程度上取决于技能、指导、管理和经验等因素。如果管理层通过衡量验证成本(包括工具、人力、测试平台搭建、测试平台运行和调试成本,以及未发现缺陷的成本)来评估投资回报率(ROI),结果将有效指示哪些方法可行、哪些不可行。形式验证并非万能,仿真仍需用于验证形式验证的假设,但两者的正确结合能产生惊人效果。”

管理层正在倾听。“几年前,推广形式验证的方法是向管理层展示其发现的仿真团队遗漏的缺陷,”哈迪表示,“在尚未认识到形式验证价值的组织中,这有时仍有必要,但这类组织已越来越少。如今,管理层开始信任由形式验证专家带领的小型团队,他们能以仿真团队验证类似模块所需时间的一小部分,完成高度复杂模块的全面验证,并提供更具结论性的验证结果。”


展望人工智能

人工智能技术发展迅速,在会议上发表的成果可能已落后一代或两代。“人工智能辅助工程可能会为你生成大量设计和验证IP,”是德科技的穆思表示,“人们需要一段时间来适应并学会信任这些结果。但在这种模式下,工作重心将转移到流程前端——指定需求和参数,让AI引擎执行任务。设计过程将与机器学习引擎互动,呈现出不同的形态。前期的需求和参数设定至关重要,这能让引擎高效完成工作。”

验证一直关乎比较两个模型并识别差异。“人们正在探讨如何将大语言模型(LLM)和其他人工智能方法融入验证方法论,”弗劳恩霍夫的普劳奇表示,“一种方法是寻找需求文档与验证测试平台之间的差异,以识别漏洞。这只是其中一个方面,我们期待看到此类工具的开发,以支持验证工程师——这并非试图实现完全自动化,而是为了辅助工程师并跟踪所有信息。”

进展已在发生。“我们已在使用生成式人工智能(GenAI)创建SystemVerilog断言,”张晋表示,“形式验证应用的首要障碍是需要创建属性,而GenAI能帮助降低这一门槛。这项技术已被部分客户投入生产使用。根据设计和测试计划,它能为你生成断言,这大大提高了效率。”

一些公司已在使用辅助工具。“它们使设计的初始编码(如人工输入等)更加容易,”纳拉因表示,“但也带来了可变性和输出准确性等问题。因此,验证变得更加关键——确保无论采用何种方法创建设计,都能经过全面验证。这为融入人工智能技术提供了机会,而这同样关乎‘左移’。如果辅助工具和人工智能技术能推动验证‘左移’的应用场景,将是重要的进步。”

随着大语言模型生成质量的提升,所有人都将看到效率的提升。“我认为GenAI将改变游戏规则,使形式验证普及化,”张晋表示,“过去,形式验证由专业工程师负责,但如今企业逐渐意识到必须在流程早期引入形式验证,且应由设计者主导。过去,设计者通常仅提取少量形式属性,不会编写大量断言,而GenAI能帮助他们在设计中添加更多断言并真正受益。这项技术必将推动形式验证在行业中的更广泛应用。”


应用形式验证

应用形式验证并非简单购买工具并插入流程。形式验证可通过多种方式解决特定类型的问题。哈迪将其分为三类:

设计者形式验证:寄存器传输级(RTL)设计者可使用形式验证实现“左移”,尽早交付更高质量的代码;

核心形式验证:通过穷举证明提高验证质量;

SoC集成形式验证:分担仿真的特定任务,发现极端情况缺陷。

了解模块级、子系统级和全系统级验证的区别至关重要,形式验证的角色在不同层级有所不同。“在IP级或子系统级,团队应使用静态方法(如lint和形式验证)而非仿真,”张晋表示,“在系统级和SoC级,则应使用动态方法进行验证,因为形式验证在该层级难以扩展。”

尽管SoC级可能需要仿真,但这并不意味着排除形式验证。“在有计划地应用形式验证的场景中,投资回报率惊人,”达尔巴里表示,“工程师和管理层都认可对形式验证的投资,因为它能更快发现缺陷、避免重新流片,并帮助优化仿真。主要问题仍是工程团队缺乏编写形式验证断言的足够培训。当由经验丰富的专家使用时,形式验证能够对系统级和子系统级设计、处理器功能安全及安全验证进行签收。”

设计的变化也要求方法论随之改变。“设计不再局限于特定应用,在设计时,根本无法定义这些芯片需要处理的所有工作负载,”哈迪表示,“这意味着我们必须验证所有可能情况。在特定应用时代,理论上可以定义包含所有指定场景测试的验证计划,并根据该计划衡量覆盖率——即便如此,定义‘何时完成验证’已很困难;而如今,即使使用受限随机方法,我们也永远无法确定仿真测试是否足够,因此无法判断何时完成验证。”

变革需要时间。“许多可提高设计和验证团队效率的技术尚未得到应用,”张晋表示,“重新调整验证方法论、在流程中引入最新技术,需要时间,而复杂度的提升和解决问题的时间缩短加剧了这一挑战。不幸的是,团队必须评估现有方法论,了解当前可用技术,并探索如何利用新技术改进流程。有了GenAI,我相信三到五年内验证流程将发生巨大变化,自动化和生成式技术将大幅增加,我们将看到智能驱动的流程。一旦所有自动化技术成熟,芯片一次流片成功率可能会显著提高。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 仿真
    +关注

    关注

    53

    文章

    4404

    浏览量

    137644
  • 芯片验证
    +关注

    关注

    5

    文章

    40

    浏览量

    47872
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国内首个汽车芯片标准验证平台启用,“消费芯片”再上车?

    [首发于智驾最前沿微信公众号]10月28日,国内首个国家级汽车芯片标准验证中试服务平台在深圳正式投入使用。该平台由国家及行业相关机构共同推动建设,旨在满足车规级芯片在环境与可靠性、失效分析、信息安全
    的头像 发表于 10-29 15:17 421次阅读
    国内首个汽车<b class='flag-5'>芯片</b>标准<b class='flag-5'>验证</b>平台启用,“消费<b class='flag-5'>芯片</b>”再<b class='flag-5'>难</b>上车?

    FPGA技术为什么越来越牛,这是有原因的

    最近几年,FPGA这个概念越来越多地出现。例如,比特币挖矿,就有使用基于FPGA的矿机。还有,之前微软表示,将在数据中心里,使用FPGA“代替”CPU,等等。其实,对于专业人士来说,FPGA并不陌生
    的头像 发表于 08-22 11:39 3810次阅读
    FPGA技术为什么<b class='flag-5'>越来越</b>牛,这是有原因的

    PCB为啥现在行业越来越流行“浅背钻”了?

    高速先生成员--黄刚 毫无疑问,信号速率已经是灰常灰常高了,过孔对信号质量的影响在以往文章中已经分享过太多太多。过孔一身都是坑,其中最大的那个就是它的stub影响。一个有stub的过孔衰减的上限可能是大家想象不到的,1dB,5dB,10dB,20dB甚至更大都有可能。 So,一套专门为提升有stub的过孔性能的加工工艺就应运而生了,那就是背钻,简单的流程就像下面这样了。 当然,我们也知道,本身常规的板子是不需要背钻的,突然增加这样一个工艺流程,加钱是难免的事情。因此精明的硬件朋友们就学会了根据高速信号速率的不同来决定是否需要背钻和哪些层背钻,哪些层就不用背钻了。简单定性来说就是,速率低就能允许过孔的stub长,速率高就需要stub短,当然高速先生在很多场合上也大概把速率和stub长度的关系量化过,还不知道的粉丝可以去问问身边知道的同事了,哈哈。 由于多一层背钻,就要多花一层的钱,所以大多数客户都会觉得在不算非常高的速率下,例如25Gbps左右,可能超过25mil以上stub的过孔才会去背钻。例如下面的连接器过孔案例,在这一层出线层的情况下,过孔stub是25mil。 这个时候我们来考虑背钻和不背钻的影响,背钻后留下的stub是10mil,模型的示意图如下所示: 然后从结果上看差异是非常明显的,TDR阻抗差异超过10个欧姆,回波损耗也差了接近10个dB。说明背钻工艺对过孔性能的改善帮助很大很大。。。 从上面的结果能看到,25mil不背钻结果当然不是很好,背钻之后哪怕剩下10mil其实结果都能接近完美了,看起来的确和我们想象的一样,如果本身就只有10mil的stub,那还背钻个啥,又省钱又不会为难板厂,一举两得! 那问题来了,如果真的只有10mil的stub的话,到底值不值得背钻呢?那我们把上面那个模型的走线层换到更靠下的层去走,过孔的stub就10mil出头的样子,如下所示: 在不背钻的情况下,仿真得到的TDR阻抗结果是85欧姆左右,感觉还行啊,能接受! 这个时候我们来硬要板厂帮我们做背钻,本来是10mil出头,让板厂钻掉几个mil,保证最后是8mil的stub,就像下面这个动图展示的背钻过程一样! 最后做出来的这个效果就是背钻后剩下8mil stub的模型了。 无非也只是少了3mil左右的stub,能比不背钻好多少,能差出0.5欧姆都顶天了吧。这下恐怕要让大家失望了,背钻后过孔的阻抗从不背钻的85欧姆左右提升到快接近90欧姆了,足足差不多有5欧姆的提升!!! 这。。。就有点惊掉下巴了啊,就差几个mil的stub,能差出快5欧姆的情况?中间是不是有什么误会啊? 误会可能没有,认知不同是有的。我猜你们认为的只差3个mil的stub长度说的是下面这种情况,那就是把底层焊盘去掉,仅减小过孔stub长度的这个模型吧? 的确如你们之前想象的一样,如果只减小过孔stub长度的话,8mil的stub和10mil多的stub对过孔阻抗的影响的确微乎其微,可能0.2欧姆都没有! 从三者回波损耗的结果对比也能看到几个结论:不背钻的影响在25Gbps之前性能差别的确不大,但是在25Gbps之后其实恶化是很厉害的。哪怕只钻掉焊盘,不减小过孔stub的改善也是非常明显的,还有就是从结果来看,单纯只差几个mil的stub影响是非常小的哈。 这种小于10mil的过孔stub的背钻我们在PCB加工行业内就称为浅背钻,如下图所示,浅背钻主要就是为了去掉底层焊盘的影响,其次才是希望让stub再短几个mil。 最后总结下哈:这个地方的影响无论是从SI性能还是加工方面看,都很容易被忽略,尤其当我们的通道走到了像112Gbps以上的超高速率下,影响是不小的。同时对于板厂加工也是会增加一丢丢难度,毕竟要钻的过孔深度很短,一不留神就钻过了或者压根没钻到,所以也需要对PCB板厂的加工能力有一定的要求哈。我们板厂去做这个事情当然没有问题,关键是在于各位硬件或者PCB设计,包括SI的小伙伴们有没有意识到这个地方对高频的影响,从而找我们的板厂去做这个浅背钻而已! 问题:大家对自己产品的过孔要不要去做背钻工艺,都是怎么考虑的啊? 关于一博: 一博科技成立于2003年3月,深圳创业板上市公司,股票代码: 301366,专注于高速PCB设计、SI/PI仿真分析等技术服务,并为研发样机及批量生产提供高品质、短交期的PCB制板与PCBA生产服务。致力于打造一流的硬件创新平台,加快电子产品的硬件创新进程,提升产品质量。
    发表于 08-18 16:30

    LED芯片亮,发热量越大,还是芯片暗,发热量越大?

    LED芯片亮,发热量越大,还是芯片暗,发热量越大?遇到这个问题,相信很多人都会认为是芯片
    的头像 发表于 07-21 16:16 686次阅读
    LED<b class='flag-5'>芯片</b><b class='flag-5'>越</b>亮,发热量越大,还是<b class='flag-5'>芯片</b><b class='flag-5'>越</b>暗,发热量越大?

    后摩尔时代:芯片不是越来越凉,而是越来越

    1500W,而在消费领域,旗舰显卡RTX5090也首次引入了液态金属这一更高效但成本更高的热界面材料(TIM)。为什么芯片越来越热?它的热从哪里来?芯片内部每一个晶体管
    的头像 发表于 07-12 11:19 1166次阅读
    后摩尔时代:<b class='flag-5'>芯片</b>不是<b class='flag-5'>越来越</b>凉,而是<b class='flag-5'>越来越</b>烫

    超大规模芯片验证:基于AMD VP1902的S8-100原型验证系统实测性能翻倍

    引言随着AI、HPC及超大规模芯片设计需求呈指数级增长原型验证平台已成为芯片设计流程中验证复杂架构、缩短迭代周期的核心工具。然而,传统原型验证
    的头像 发表于 06-06 13:13 1089次阅读
    超大规模<b class='flag-5'>芯片</b><b class='flag-5'>验证</b>:基于AMD VP1902的S8-100原型<b class='flag-5'>验证</b>系统实测性能翻倍

    RK3576 vs RK3588:为何越来越多的开发者转向RK3576?

    瑞芯微(Rockchip)最新发布的 RK3576 一经推出,就吸引了大量原本关注 RK3588 的开发者。RK3588 作为旗舰级芯片,性能固然强大,但 RK3576 凭借其超高的能效比、优化
    发表于 05-30 08:46

    机器人主控芯片平台有哪些 机器人主控芯片一文搞懂

    AI芯片在人形机器人中的应用越来越广泛。这些AI芯片专门设计用于执行人工智能算法,如深度学习、机器学习等。
    的头像 发表于 04-25 16:26 5889次阅读
    机器人主控<b class='flag-5'>芯片</b>平台有哪些  机器人主控<b class='flag-5'>芯片</b>一文搞懂

    概伦电子芯片封装连接性验证工具PadInspector介绍

    当今时代人们对产品性能要求越来越高,SoC设计也随之变得越来越复杂,由此导致SoC内模块数量呈指数级增长。不同于传统设计方法,芯片封装设计中的l/O pad配置规划和封装连接性验证流程
    的头像 发表于 04-22 09:59 711次阅读
    概伦电子<b class='flag-5'>芯片</b>封装连接性<b class='flag-5'>验证</b>工具PadInspector介绍

    概伦电子先进PDK验证平台PQLab介绍

    PQLab是一款技术先进的PDK(半导体工艺设计套件)验证平台。随着半导体工艺快速发展,PDK的规模和复杂度也在极速加大,以至于PDK的验证难度越来越高,耗时越来越长,为解决这一困境,
    的头像 发表于 04-16 09:44 936次阅读
    概伦电子先进PDK<b class='flag-5'>验证</b>平台PQLab介绍

    当我问DeepSeek:为什么传感器技术越来越重要

    为什么传感器技术越来越重要 我们一起来看看     DeepSeek是怎么说的 为什么传感器技术越来越重要?   传感器:数字世界的感官,智能时代的基石…… 在这个数字化的世界里,
    的头像 发表于 03-01 15:58 668次阅读

    静脉识别在各个领域越来越得到认同了

    发表于 02-26 18:09

    帝奥微推出DCDC降压电源模块DPM6101/03

    近年来,随着科技的飞速发展及新能源的大面积普及,电子设备在各种行业的不同应用中发挥着越来越重要的作用。目前对于很多产品及设备而言,其被赋予和集成的功能越来越丰富,因此配备的主控芯片算力越来越
    的头像 发表于 01-20 15:25 1310次阅读
    帝奥微推出DCDC降压电源模块DPM6101/03

    这类视频看多了生意反而会越来越差?

    行业资讯
    芯广场
    发布于 :2024年12月11日 18:51:25

    ADS1230输出开始时稳定一段时间,随后开始减小,并且减小越来越快,是哪里的问题?

    如题,开始上电,ADS1230输入端输入稳定的毫伏信号,输出显示正确无跳变,维持这个输入信号不变,随着时间推移,输出显示开始变化,并且变化越来越快,最后减小到接近零。测输入端的毫伏信号没有变化,而cap两端由几百毫伏变成了接近零。请问这是输入电路有问题,还是芯片损坏了,
    发表于 12-06 07:44