0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

揭秘芯片测试:如何验证数十亿个晶体管

汉通达 2026-03-06 10:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微观世界的“体检”难题

在一枚比指甲盖还小的芯片中,集成了数十亿甚至上百亿个晶体管,例如 NVIDIA 的 H100 GPU 包含 800 亿个晶体管。要如何确定每一个晶体管都在正常工作?这是一个超乎想象的复杂工程。如果让人类拿着显微镜一个接一个地检查,测试一颗芯片可能需要数百年。然而在现代工厂中,这必须在几秒钟内完成。这就是可测性设计(DFT, Design for Testability)的用武之地。
一聊起年轻时研发过ATE,很多人就会问我半导体测试究竟是如何进行的?索性回忆回忆写点东西。本文将带你走完一颗芯片从晶圆厂诞生到被认证为“良品”的全过程,揭示这一支撑整个数字世界的幕后技术。

1. 测试的本质其实就是输入与输出的游戏

测试的核心逻辑非常简单:施加一个特定的输入,验证是否出现了预期的输出。但在现代半导体中,这个问题变得极其棘手。因为芯片外部可供连接的引脚(Pin)通常只有几百到几千个,而内部却有数十亿个晶体管。我们无法直接从外部“看到”内部每一个晶体管的状态。
打个比方:这就像医生给人看病。当身体不舒服时,你怎么知道是胃、肠还是胆囊出了问题?医生不能直接把肚子剖开看,而是通过内窥镜深入体内,或者注射显影剂观察反应。
芯片测试也是如此。我们在设计芯片时,就必须预埋特殊的电路结构,让内部状态变得“可见”且“可控”。这就是 DFT 的起点。

2. DFT给植入芯片的“听诊器”

DFT(Design for Test)意为“为测试而设计”。如果不预先设计这些电路,芯片造出来后就是个“黑盒”,根本无法测试。

扫描链架构 (Scan Architecture):芯片的窗口

这是 DFT 最基础的技术。工程师将芯片内部的触发器(Flip-flops)连接成一条长长的“扫描链”(Scan Chain)。

  • Shift-in(移入): 像串糖葫芦一样,把想要的数据(0或1)通过少量的引脚由外部推入芯片内部每一个节点。
  • Capture(捕获): 让芯片运行一个时钟周期,捕捉运算结果。
  • Shift-out(移出): 将结果像传送带一样送出芯片,与预期值进行比对。

通过这种方式,原本深埋在芯片内部、无法触及的逻辑门,就变得可以通过外部引脚进行控制和观测了。

ATPG:自动“找茬”生成器

有了扫描链,我们需要决定输入什么数据才能发现故障。这就需要 ATPG (Automatic Test Pattern Generation) 工具。它基于“故障模型(Fault Model)”自动生成测试向量。常见的故障模型:

  • Stuck-at Fault(固定型故障): 某根信号线像被胶水粘住了一样,永远保持在 0 或 1,无法翻转。
  • Transition Fault(跳变故障): 信号虽然能变,但变慢了(例如从 0 变到 1 的时间太长,导致时序违例)。

扫描压缩 (Scan Compression)

为了降低成本,现代芯片采用了扫描压缩技术。核心思想是用极少的外部测试引脚,驱动内部成百上千条扫描链并行工作。这能将测试时间压缩数十倍,直接决定了芯片的生产成本。

3. ATE半导体测试最昂贵的“判官”

任何关于芯片测试的讨论都离不开 ATE (Automatic Test Equipment,自动测试设备)。这些由 Teradyne(泰瑞达) 和 Advantest(爱德万) 等巨头制造的机器,单台造价从数十万到数百万美元不等。ATE 在做什么?表面上看,ATE 只是负责供电、给信号、读结果。但实际上它是一台超高精度的物理仪器:

  • 电平控制: 精确控制输入电压(例如 0.7V 代表 0,1.2V 代表 1)。
  • 时序控制: 以纳秒甚至皮秒级的精度,定义何时读取输出(Strobe Timing)。
  • 参数测量: 测量微安级的漏电流(Leakage)或纳安级的待机功耗。

并行测试 (Multi-site Testing)

在工厂里,时间就是金钱。哪怕每颗芯片减少 1 秒的测试时间,对于产量上亿的芯片来说也是巨额的利润。因此,工程师的主要目标之一就是缩短测试时间。最有效的手段是“同测”——用一台 ATE 同时测试 4、8、16 甚至 32 颗芯片。这虽然让测试程序极其复杂,但能显著摊薄昂贵的机台成本。

4. 测试的三大关卡

芯片测试并非一次性完成,而是分阶段进行的“闯关游戏”。

第一关:晶圆测试 (Wafer Sort / CP Test)

时间点: 晶圆刚出厂,还没被切割。目的: “排雷”。 尽早剔除坏品。因为后续的封装(Packaging)成本很高,把坏的芯片封装起来是纯粹的浪费。在这个阶段,探针卡扎在晶圆上进行测试。CP 测试通常无法做到全速或高温测试,它更像是一个初筛,把明显的坏品打上标记(Ink out),不让它们进入下一环节。

第二关:封装测试 (Final Test / FT)

时间点: 芯片切割并封装完成后。目的: “终审”。这是最关键的一步。芯片被放入插座(Socket)中,环境更加稳定。

  • 全功能验证: 测试所有逻辑功能。
  • 三温测试: 在常温、高温(如 125°C)和低温(如 -40°C)下分别测试,确保芯片在极端环境下不崩溃。
  • 老化测试 (Burn-in): 这是一个将芯片置于高温高压下长时间运行的过程,目的是通过加速老化,把那些有潜在缺陷、寿命短的“夭折”芯片(Infant Mortality)提前筛选出来,保证出厂产品的可靠性。

第三关:系统级测试 (System Level Test / SLT)

时间点: FT 之后,出货之前。目的: “实战演习”。随着制程越来越先进(如 5nm, 3nm),芯片内部变得极其复杂,有些缺陷只有在跑真实操作系统或应用时才会暴露。SLT 就是把芯片插在一个类似手机电脑主板的测试板上,真的去启动 Android/Windows,跑 3DMark 或特定的业务负载。这是为了拦截那些“ATE 测不出来,但用户一用就死机”的隐蔽缺陷。

5. 生产线上的生存法则

在量产中,测试流程遵循两条铁律:

  • SOF (Stop on Failure): 一旦发现任何错误,立即停止测试该芯片。对于量产来说,坏了就是坏了,多测一秒都是浪费。
  • 由简入繁: 先测最便宜、最容易失败的项目(如短路测试),后测复杂昂贵的项目。


典型测试流程:

  • Continuity (连通性): 检查引脚是否短路或断路。
  • DC Parametric (直流参数): 测漏电流、功耗。
  • Scan Test (扫描测试): 用 ATPG 抓逻辑缺陷。
  • MBIST (内存自测): 芯片自己测试内部的 SRAM/Cache。
  • 补充: 如果发现内存有坏点,许多芯片可以通过 Repair (修复) 机制,启用备用的冗余电路来替代坏点,把“坏”芯片修成“好”芯片。
  • Trim (修调): (补充) 对于模拟电路,通过烧断内部熔丝(Fuse)来校准电压或频率。
  • Functional (功能测试): 模拟实际工作模式。

6. Binning区分芯片的三六九等

并不是所有通过测试的芯片都是一样的。这就涉及到了 Binning(分级)。

物理分级 (HBIN)

决定了机械臂把芯片放到哪个盘子里。

  • Bin 1: 完美良品(特等品)。
  • Bin 2: 普通良品。
  • Bin 99: 废品(扔进垃圾桶)。

性能分级 (Performance Binning),这是商业价值的来源。

  • Speed Binning (速度分级): 同样的设计,有的芯片能跑 3.0GHz,有的只能跑 2.5GHz。前者标成 Intel i9 卖高价,后者标成 i7 或 i5。这通常是由于制造工艺的微小随机差异造成的。
  • Functional Binning (功能分级): 著名的“皮衣刀法”。比如 NVIDIA 的 GPU,如果 100 个核心里坏了 2 个,厂商不会扔掉它,而是通过熔丝把坏的 2 个核心屏蔽掉,作为次旗舰(如 4080)出售;如果坏了 10 个,就做成 4070。
  • Leakage Binning (漏电分级): 低漏电的芯片发热小、省电,常被用于移动设备或标为“低功耗版”溢价出售。


7. 良率 (Yield)决定生死的数字

良率 = (良品数量 / 总芯片数量) × 100%在半导体行业,良率就是一切。对于月产数万片晶圆的工厂,98% 和 99% 的良率差异,可能意味着每年数亿美元的利润差距。

D0 (Defect Density) 与芯片面积

良率通常遵循泊松分布模型:其中 D_0 是缺陷密度,A 是芯片面积。这个公式告诉我们一个残酷的事实:芯片做得越大,良率就越难控制。 这就是为什么现在的 AI 芯片(面积巨大)卖得那么贵,以及为什么行业要转向 Chiplet(小芯片)技术——把大芯片切碎了做,能显著提高良率。

零缺陷的博弈

测试工程师面临永恒的困境:

  • Test Escape (漏测): 把坏芯片当好芯片卖出去了 -> 导致客户退货,品牌受损。
  • Overkill (误杀): 把好芯片当坏芯片扔掉了 -> 直接损失真金白银。

优秀的测试策略,就是在这两者之间寻找最佳的平衡点。
补充知识JTAG 标准在 DFT 领域,你常会听到 JTAG (IEEE 1149.1)。这是一个行业标准接口,最初就是为了解决电路板级测试难题而发明的。它定义了 TAP 控制器和边界扫描技术,是实现上述 DFT 功能的物理基础之一。
Load Board 与 Probe CardATE 是通用设备,如何连接特定的芯片?

  • Probe Card (探针卡): 用于晶圆测试,上面有成千上万根比头发还细的探针,直接扎在晶圆的焊盘上。
  • Load Board (负载板/DIB): 用于封装后测试,是一个巨大的电路板,上面装有特制的插座(Socket)来放置芯片。这些硬件接口的设计质量直接影响测试的稳定性。


KGD (Known Good Die)在 Chiplet 和 2.5D/3D 封装(如台积电 CoWoS)流行的今天,CP 测试的重要性被拔高了。因为一个封装里可能封装了 4 颗 HBM 显存和 1 颗 GPU 核心,只要其中一颗 Die 是坏的,整个昂贵的封装就报废了。因此,厂商需要 KGD——在晶圆阶段就必须 100% 确信这颗 Die 是好的。

半导体测试不仅仅是“找坏人”,它是芯片制造中定义质量、决定成本、划分等级的关键环节。当你下一次看到新闻中提到某款芯片“良率突破”或“频率提升”,请记住,这背后不仅是制造工艺的进步,更是无数测试工程师通过海量数据分析、精密电路设计和严苛筛选策略所构建的质量长城。是他们决定了一颗沙子提炼出的硅片,究竟是以几百美元的价格驱动超级计算机,还是作为废料被丢弃。

声明:


本号对所有原创、转载文章的陈述与观点均保持中立,推送文章仅供读者学习和交流。文章、图片等版权归原作者享有,如有侵权,联系删除。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54631

    浏览量

    470900
  • 晶体管
    +关注

    关注

    78

    文章

    10470

    浏览量

    148927
  • 芯片测试
    +关注

    关注

    6

    文章

    185

    浏览量

    21192
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    晶体管性能的检测

    时,先将hFE/ICEO选择开关置于ICEO档,选择晶体管的极性,将被测晶体管的三引脚插测试孔,然后按下ICEO键,从表中读出反向击穿电
    发表于 04-26 17:06

    概述晶体管

    晶体管的代表形状晶体管分类图:按照该分类,掌握其种类1. 按结构分类根据工作原理不同分类,分为双极晶体管和单极晶体管。双极晶体管双是指Bi(
    发表于 05-05 01:31

    RF功率晶体管耐用性的三电气参数验证

    众所周知,像硅双极晶体管等一些晶体管能够在其中一些半导体单元因短路或负载失配等原因损坏时继续工作。因此,将一器件定义为“耐用晶体管”可能没有清晰的界限。对硅LDMOS
    发表于 06-26 07:11

    晶体管晶圆芯片

    供应晶圆芯片,型号有: 可控硅, 中、大功率晶体管,13000系列晶体管,达林顿晶体管,高频小信号晶体管,开关二极
    发表于 02-17 16:24

    什么是晶体管 晶体管的分类及主要参数

    调制和振荡器。晶体管可以独立封装,也可以封装在非常小的区域内,容纳1亿或更多晶体管集成电路的一部分。(英特尔 3D 晶体管技术)严格来说,晶体管
    发表于 02-03 09:36

    什么是达林顿晶体管

    相当高的总电流增益。输出晶体管的最大集电极电流决定了输出晶体管对的最大集电极电流,可以是 100 安培或更高。需要的物理空间更少,因为晶体管通常封装在一器件中。另一
    发表于 02-16 18:19

    自制晶体管耐压测试

    晶体管耐压测试
    发表于 01-29 11:43 27次下载

    晶体管对于CPU有什么影响

    CPU使用数十亿微型晶体管,电子门打开和关闭以执行计算。晶体管越小,所需的功率就会越小。7nm和10nm是这些晶体管尺寸的测量尺寸。nm是
    的头像 发表于 08-18 10:02 8172次阅读

    CPU中的晶体管的工作原理?

     CPU里的晶体管都是集成的超微晶体管,一22纳米工艺的i5可能集成上十亿晶体管
    发表于 01-31 16:10 1.6w次阅读

    芯片集成多少晶体管

    大家都知道芯片使由晶体管构成的,一芯片由小到几十,大到超百亿晶体管构成。像华为麒麟990芯片
    的头像 发表于 12-14 13:49 2.1w次阅读

    芯片上如何集成晶体管 晶体管的结构特点有哪些

    芯片上集成晶体管的方法有很多,其中最常用的是封装技术,即将晶体管封装在芯片上,使其成为一整体,从而实现
    的头像 发表于 02-19 14:02 6315次阅读

    晶体管芯片的关系

    晶体管是现代电子设备中至关重要的组件,而芯片则是晶体管的集成。晶体管是一种用于控制电流的电子器件,它是由半导体材料制成的。晶体管的发明和发展
    发表于 08-04 09:45 3083次阅读

    芯片内部晶体管的工作原理

    晶体管,作为现代电子设备的基石,其功能和工作原理一直是电子学和半导体物理领域研究的核心。芯片中的每个晶体管都是一微型开关,负责控制电流的流动。随着技术的不断发展,现代
    的头像 发表于 10-16 10:09 4764次阅读
    <b class='flag-5'>芯片</b>内部<b class='flag-5'>晶体管</b>的工作原理

    晶体管测试仪电路图分享

    晶体管测试仪是一种专门用于测试晶体管的电子设备,也被称为晶体管特性图示仪。其主要工作原理是利用测试
    的头像 发表于 02-12 14:17 1.2w次阅读
    <b class='flag-5'>晶体管</b><b class='flag-5'>测试</b>仪电路图分享

    晶体管测试仪的主要作用

    晶体管测试仪是一种专门用于测试晶体管的电子设备,也被称为晶体管特性图示仪。它的主要工作原理是利用测试
    的头像 发表于 05-09 16:37 2749次阅读