微观世界的“体检”难题
在一枚比指甲盖还小的芯片中,集成了数十亿甚至上百亿个晶体管,例如 NVIDIA 的 H100 GPU 包含 800 亿个晶体管。要如何确定每一个晶体管都在正常工作?这是一个超乎想象的复杂工程。如果让人类拿着显微镜一个接一个地检查,测试一颗芯片可能需要数百年。然而在现代工厂中,这必须在几秒钟内完成。这就是可测性设计(DFT, Design for Testability)的用武之地。
一聊起年轻时研发过ATE,很多人就会问我半导体测试究竟是如何进行的?索性回忆回忆写点东西。本文将带你走完一颗芯片从晶圆厂诞生到被认证为“良品”的全过程,揭示这一支撑整个数字世界的幕后技术。
1. 测试的本质其实就是输入与输出的游戏
测试的核心逻辑非常简单:施加一个特定的输入,验证是否出现了预期的输出。但在现代半导体中,这个问题变得极其棘手。因为芯片外部可供连接的引脚(Pin)通常只有几百到几千个,而内部却有数十亿个晶体管。我们无法直接从外部“看到”内部每一个晶体管的状态。
打个比方:这就像医生给人看病。当身体不舒服时,你怎么知道是胃、肠还是胆囊出了问题?医生不能直接把肚子剖开看,而是通过内窥镜深入体内,或者注射显影剂观察反应。
芯片测试也是如此。我们在设计芯片时,就必须预埋特殊的电路结构,让内部状态变得“可见”且“可控”。这就是 DFT 的起点。
2. DFT给植入芯片的“听诊器”
DFT(Design for Test)意为“为测试而设计”。如果不预先设计这些电路,芯片造出来后就是个“黑盒”,根本无法测试。
扫描链架构 (Scan Architecture):芯片的窗口
这是 DFT 最基础的技术。工程师将芯片内部的触发器(Flip-flops)连接成一条长长的“扫描链”(Scan Chain)。
- Shift-in(移入): 像串糖葫芦一样,把想要的数据(0或1)通过少量的引脚由外部推入芯片内部每一个节点。
- Capture(捕获): 让芯片运行一个时钟周期,捕捉运算结果。
- Shift-out(移出): 将结果像传送带一样送出芯片,与预期值进行比对。
通过这种方式,原本深埋在芯片内部、无法触及的逻辑门,就变得可以通过外部引脚进行控制和观测了。
ATPG:自动“找茬”生成器
有了扫描链,我们需要决定输入什么数据才能发现故障。这就需要 ATPG (Automatic Test Pattern Generation) 工具。它基于“故障模型(Fault Model)”自动生成测试向量。常见的故障模型:
- Stuck-at Fault(固定型故障): 某根信号线像被胶水粘住了一样,永远保持在 0 或 1,无法翻转。
- Transition Fault(跳变故障): 信号虽然能变,但变慢了(例如从 0 变到 1 的时间太长,导致时序违例)。
扫描压缩 (Scan Compression)
为了降低成本,现代芯片采用了扫描压缩技术。核心思想是用极少的外部测试引脚,驱动内部成百上千条扫描链并行工作。这能将测试时间压缩数十倍,直接决定了芯片的生产成本。
3. ATE半导体测试最昂贵的“判官”
任何关于芯片测试的讨论都离不开 ATE (Automatic Test Equipment,自动测试设备)。这些由 Teradyne(泰瑞达) 和 Advantest(爱德万) 等巨头制造的机器,单台造价从数十万到数百万美元不等。ATE 在做什么?表面上看,ATE 只是负责供电、给信号、读结果。但实际上它是一台超高精度的物理仪器:
- 电平控制: 精确控制输入电压(例如 0.7V 代表 0,1.2V 代表 1)。
- 时序控制: 以纳秒甚至皮秒级的精度,定义何时读取输出(Strobe Timing)。
- 参数测量: 测量微安级的漏电流(Leakage)或纳安级的待机功耗。
并行测试 (Multi-site Testing)
在工厂里,时间就是金钱。哪怕每颗芯片减少 1 秒的测试时间,对于产量上亿的芯片来说也是巨额的利润。因此,工程师的主要目标之一就是缩短测试时间。最有效的手段是“同测”——用一台 ATE 同时测试 4、8、16 甚至 32 颗芯片。这虽然让测试程序极其复杂,但能显著摊薄昂贵的机台成本。
4. 测试的三大关卡
芯片测试并非一次性完成,而是分阶段进行的“闯关游戏”。
第一关:晶圆测试 (Wafer Sort / CP Test)
时间点: 晶圆刚出厂,还没被切割。目的: “排雷”。 尽早剔除坏品。因为后续的封装(Packaging)成本很高,把坏的芯片封装起来是纯粹的浪费。在这个阶段,探针卡扎在晶圆上进行测试。CP 测试通常无法做到全速或高温测试,它更像是一个初筛,把明显的坏品打上标记(Ink out),不让它们进入下一环节。
第二关:封装测试 (Final Test / FT)
时间点: 芯片切割并封装完成后。目的: “终审”。这是最关键的一步。芯片被放入插座(Socket)中,环境更加稳定。
- 全功能验证: 测试所有逻辑功能。
- 三温测试: 在常温、高温(如 125°C)和低温(如 -40°C)下分别测试,确保芯片在极端环境下不崩溃。
- 老化测试 (Burn-in): 这是一个将芯片置于高温高压下长时间运行的过程,目的是通过加速老化,把那些有潜在缺陷、寿命短的“夭折”芯片(Infant Mortality)提前筛选出来,保证出厂产品的可靠性。
第三关:系统级测试 (System Level Test / SLT)
时间点: FT 之后,出货之前。目的: “实战演习”。随着制程越来越先进(如 5nm, 3nm),芯片内部变得极其复杂,有些缺陷只有在跑真实操作系统或应用时才会暴露。SLT 就是把芯片插在一个类似手机或电脑主板的测试板上,真的去启动 Android/Windows,跑 3DMark 或特定的业务负载。这是为了拦截那些“ATE 测不出来,但用户一用就死机”的隐蔽缺陷。
5. 生产线上的生存法则
在量产中,测试流程遵循两条铁律:
- SOF (Stop on Failure): 一旦发现任何错误,立即停止测试该芯片。对于量产来说,坏了就是坏了,多测一秒都是浪费。
- 由简入繁: 先测最便宜、最容易失败的项目(如短路测试),后测复杂昂贵的项目。
典型测试流程:
- Continuity (连通性): 检查引脚是否短路或断路。
- DC Parametric (直流参数): 测漏电流、功耗。
- Scan Test (扫描测试): 用 ATPG 抓逻辑缺陷。
- MBIST (内存自测): 芯片自己测试内部的 SRAM/Cache。
- 补充: 如果发现内存有坏点,许多芯片可以通过 Repair (修复) 机制,启用备用的冗余电路来替代坏点,把“坏”芯片修成“好”芯片。
- Trim (修调): (补充) 对于模拟电路,通过烧断内部熔丝(Fuse)来校准电压或频率。
- Functional (功能测试): 模拟实际工作模式。
6. Binning区分芯片的三六九等
并不是所有通过测试的芯片都是一样的。这就涉及到了 Binning(分级)。
物理分级 (HBIN)
决定了机械臂把芯片放到哪个盘子里。
- Bin 1: 完美良品(特等品)。
- Bin 2: 普通良品。
- Bin 99: 废品(扔进垃圾桶)。
性能分级 (Performance Binning),这是商业价值的来源。
- Speed Binning (速度分级): 同样的设计,有的芯片能跑 3.0GHz,有的只能跑 2.5GHz。前者标成 Intel i9 卖高价,后者标成 i7 或 i5。这通常是由于制造工艺的微小随机差异造成的。
- Functional Binning (功能分级): 著名的“皮衣刀法”。比如 NVIDIA 的 GPU,如果 100 个核心里坏了 2 个,厂商不会扔掉它,而是通过熔丝把坏的 2 个核心屏蔽掉,作为次旗舰(如 4080)出售;如果坏了 10 个,就做成 4070。
- Leakage Binning (漏电分级): 低漏电的芯片发热小、省电,常被用于移动设备或标为“低功耗版”溢价出售。
7. 良率 (Yield)决定生死的数字
良率 = (良品数量 / 总芯片数量) × 100%在半导体行业,良率就是一切。对于月产数万片晶圆的工厂,98% 和 99% 的良率差异,可能意味着每年数亿美元的利润差距。
D0 (Defect Density) 与芯片面积
良率通常遵循泊松分布模型:其中 D_0 是缺陷密度,A 是芯片面积。这个公式告诉我们一个残酷的事实:芯片做得越大,良率就越难控制。 这就是为什么现在的 AI 芯片(面积巨大)卖得那么贵,以及为什么行业要转向 Chiplet(小芯片)技术——把大芯片切碎了做,能显著提高良率。
零缺陷的博弈
测试工程师面临永恒的困境:
- Test Escape (漏测): 把坏芯片当好芯片卖出去了 -> 导致客户退货,品牌受损。
- Overkill (误杀): 把好芯片当坏芯片扔掉了 -> 直接损失真金白银。
优秀的测试策略,就是在这两者之间寻找最佳的平衡点。
补充知识JTAG 标准在 DFT 领域,你常会听到 JTAG (IEEE 1149.1)。这是一个行业标准接口,最初就是为了解决电路板级测试难题而发明的。它定义了 TAP 控制器和边界扫描技术,是实现上述 DFT 功能的物理基础之一。
Load Board 与 Probe CardATE 是通用设备,如何连接特定的芯片?
- Probe Card (探针卡): 用于晶圆测试,上面有成千上万根比头发还细的探针,直接扎在晶圆的焊盘上。
- Load Board (负载板/DIB): 用于封装后测试,是一个巨大的电路板,上面装有特制的插座(Socket)来放置芯片。这些硬件接口的设计质量直接影响测试的稳定性。
KGD (Known Good Die)在 Chiplet 和 2.5D/3D 封装(如台积电 CoWoS)流行的今天,CP 测试的重要性被拔高了。因为一个封装里可能封装了 4 颗 HBM 显存和 1 颗 GPU 核心,只要其中一颗 Die 是坏的,整个昂贵的封装就报废了。因此,厂商需要 KGD——在晶圆阶段就必须 100% 确信这颗 Die 是好的。
半导体测试不仅仅是“找坏人”,它是芯片制造中定义质量、决定成本、划分等级的关键环节。当你下一次看到新闻中提到某款芯片“良率突破”或“频率提升”,请记住,这背后不仅是制造工艺的进步,更是无数测试工程师通过海量数据分析、精密电路设计和严苛筛选策略所构建的质量长城。是他们决定了一颗沙子提炼出的硅片,究竟是以几百美元的价格驱动超级计算机,还是作为废料被丢弃。
声明:
本号对所有原创、转载文章的陈述与观点均保持中立,推送文章仅供读者学习和交流。文章、图片等版权归原作者享有,如有侵权,联系删除。
-
芯片
+关注
关注
463文章
54630浏览量
470900 -
晶体管
+关注
关注
78文章
10470浏览量
148927 -
芯片测试
+关注
关注
6文章
185浏览量
21192
发布评论请先 登录
揭秘芯片测试:如何验证数十亿个晶体管
评论