高算力低功耗背后的半导体革新-电子发烧友网

台积电在其2025年的技术研讨会上，其联席首席运营官张晓强揭晓了CoWoS技术的新发展。非常值得关注的就是名为“明日CoWoS”的技术，让3D堆叠能力再上一个台阶。首次亮相的“集成电压调节器”（IVR）可嵌入芯片内，靠近处理器以提升电源调节效率。这一技术革新，凭借台积电在CoWoS技术上的垄断优势，可能使台达电、英飞凌等电源模块供应商的独立产品因融入CoWoS而消失。

台积电的技术变革，把整个产业推向一个高度，即高算力和低功耗的双追求达到一个高度。本文将从历史到现在，背后全面梳理半导体技术创新。

算力与功耗的纠缠史

在芯片的发展史中，我们只看见摩尔定律推动算力发展。实则，芯片不断提高算力时，功耗一直是工程师们头疼的事情。高算力和低能耗，一直是半导体从业人员的追求。

简称，吃很少的饭，干极多的活儿。金牌牛马实锤了。

就拿整个电子产业初期的祖师爷——电子管来说，这个被称作电子产业“初代神器”的玩意，一度成为20世纪前半叶的电子顶流。它从初时的 “整流/检波” 功能，到实现 “信号放大”，再到支撑早期计算机、雷达、通信设备的规模化应用。能力值被拉满，却因算力和功耗极限，被晶体管一瞬间取代。

毕竟启动电子管的阴极需要通过电流加热才能发射电子，单个电子管功耗可达几瓦至几十瓦，大量使用时总功耗极高。

这种电能饕餮必将成为历史。

后面便是晶体管时代，相较于电子管，晶体管的PN结无需 “加热阴极” 就能控制电流，从原理上规避了电子管的功耗、发热缺陷。而在接下来的几十年晶体管自我革命里，晶体管们削尖了头往芯片里钻。显然，在追随摩尔定律这条路上，产品的核心诉求就是让越小的黑方块里放下越大的算力，同时不要发烫。

在工艺制程不断演进进程中，大致经历了PMOS（P沟道金属氧化物半导体）→NMOS（N沟道金属氧化物半导体）→HMOS（高性能金属氧化物半导体）→CMOS的过渡，以及FinFET（鳍式场效应晶体管）、GAA（环绕栅极晶体管）等新型结构的引入，不断突破物理极限，提升晶体管性能并降低功耗。

下面就用一小段说清一个工艺，来给大家快速回看这段历史影像。

首先登场的是PMOS，PMOS的杰出代表就是1971年英特尔推出的4004芯片，这是其第一款商用4位微处理器，采用10μm PMOS工艺，特点就是采用P型硅作为衬底，铝作为互连金属，二氧化硅作为绝缘层。PMOS晶体管的空穴迁移率较低，导致工作频率仅 108KHz，功耗较高（15V 工作电压）。后续的8008芯片也是沿用PMOS工艺，工艺未变，但从4位处理器升级到了8位，指令集扩展至 48 条，晶体管数量增至 3500 个。使得整体性能翻倍。

NMOS登场也非常快，仅仅发生在4004芯片的三年后。在1974年推出的8080采用6 微米NMOS工艺，以电子迁移率更高的N 型硅取代 P 型硅，使晶体管开关速度提升10倍，工作频率跃升至 2MHz。集成度也大幅提高，晶体管数量增至6000个，支持 64KB 内存寻址，处理速度达 0.64MIPS，成为首款被广泛应用于微型计算机的处理器。

再过四年，HMOS来临。采用3微米 HMOS工艺的8086芯片，是 x86 架构的奠基之作。

该工艺的特点就是在 NMOS 基础上优化硅栅结构，通过离子注入精确控制掺杂浓度，晶体管密度提升近 5 倍，集成2.9万个晶体管。HMOS工艺的功耗降低至5V，且与TTL逻辑电路兼容。

随后CMOS开始崭露头角，这个上世纪60年代被提出的工艺技术，直到80年代中期发挥自己一个突出优势——低功耗。如1985年英特尔 80386SX采用1.5μm CMOS，主频达 20MHz，功耗仅为同性能 HMOS的1/5。CMOS 取代 HMOS，本质是半导体需求从 “速度优先” 转向 “速度与功耗平衡” 的必然结果。

而在65nm工艺节点时，功耗问题又突出出来。时间发生在2004年，产业界发现晶体管密度的改善在降低晶体管功耗和提高晶体管开关速度方面变慢。2005 年ITRS（国际半导体技术路线图）公布的研究表明，在 65nm 节点上，动态功耗密度和泄漏功耗将分别增加 1.43 倍和 2.5 倍。到 2007 年左右，业界已经明显意识到 65nm 工艺下漏电流及功耗急速上升的问题，并开始引起警觉。

解决65nm功耗问题，产业采用的是组合拳。材料（High-k/金属栅）、结构（应变硅/STI）、设计（Multi-Vth/电源门控）、封装（倒装芯片/散热）等技术协同。这些技术在 65nm 时代完成研发和验证，在45nm节点全面商用，不仅缓解了65nm的功耗危机，更奠定了后续纳米级工艺（32nm、22nm等）的发展基础，使摩尔定律得以延续至 21 世纪第二个十年。

此后，当集成电路芯片制造产业的特征尺寸缩小到22nm时，传统的CMOS平面微纳加工工艺技术面临性能劣化等问题。2011年，英特尔公司在其 22nm 工艺技术节点上首次推出商品化的Fin-FET（鳍式场效应晶体管）产品Ivy - Bridge，大大增加了晶体管的栅控能力，降低了芯片功耗。此后，台积电等公司在 Fin - FET 技术节点上不断发展，工艺尺寸达到 14nm、7nm、5nm等。此外，为了进一步提高集成度，3D 集成技术如硅通孔（TSV）技术也得到了发展。

近几年，GAA（Gate-All-Around，全环绕栅极）结构横空出世，是继 FinFET之后的新一代半导体器件架构，通过栅极完全环绕导电沟道实现更精准的电流控制，是支撑 3nm 及以下先进制程的核心技术。

在不断追求高性能芯片的道路上，高温和漏电成为摩尔定律失效的主要刽子手。大家从各个角度来寻求大算力的突破。

此时，产业界诞生一个新词——超越摩尔（More than Moore）。

超越摩尔时代的大厂策略

超越摩尔告诉你什么叫条条道路通罗马。

既然大家的目的都是追求大算力突破，追求性能和功耗的平衡，那晶体管微缩这条路并不是唯一解，奈何这招还失灵。这些通罗马的道路上，先进封装异军突起，既然单一芯片无法满足要求，那就让所需要芯片的裸Die封装到一起。其中3D IC通过“垂直堆叠+高密度互连”重构芯片形态，解决了传统 2D IC在“性能、功耗、面积”上的瓶颈。比如手机 SoC 可将逻辑芯片、LPDDR 内存、NAND 闪存垂直堆叠，体积缩小40%以上。

这一部分，给大家罗列一下，全球顶尖企业是如何超越摩尔的。

首先是台积电，作为全球工艺制程走在前沿的晶圆厂，台积电一边继续推动先进工艺的发展，一边磨砺先进封装技术，其中于2011年推出第一代CoWoS（Chip-on-Wafer-on-Substrate）技术。

CoWoS是由CoW和oS 组合而来，先将芯片通过Chip on Wafer（CoW）的封装制程连接至硅晶圆再把CoW 芯片与基板连接，整合成 CoWoS。核心是将不同的芯片堆叠在同一片硅中介层实现多颗芯片互联。

CoWoS 技术经历了多个重要发展阶段。2011 年的第一代，2014 年发展至第二代，2016年推出第三代技术，2019年第四代实现2X光罩尺寸中介层突破，这个巨大的中介层装有一个大型逻辑芯片和6个HBM2。由于一个HBM2存储的容量增加到8GB（64Gbit），所以总容量为48GB（384Gbit），是第三代容量的3倍。2021 年推出第五代技术，支持 3.3X光罩尺寸（约 2700mm²）。技术演进的核心驱动力是 AI 芯片对高带宽内存集成的需求，特别是 HBM（高带宽内存）的堆叠需求。-

2024 年，台积电推出了革命性的封装技术升级，采用 120mm×150mm 超大基板，实现 7,885mm² 的 9.5 倍光罩面积封装，同时通过新型热界面材料解决超高功耗散热难题。这一技术跃进标志着 CoWoS 进入“巨芯片”时代，为 AI 算力的进一步提升提供了物理基础。

英特尔的先进封装则叫EMIB（嵌入式多芯片互连桥接）与Foveros 。其中，EMIB为 2.D封装，摒弃传统大尺寸硅中介层，采用局部硅桥嵌入式设计：在有机基板的芯片间隙处嵌入小型硅桥，通过硅桥上的高密度铜线实现相邻芯片的高速信号传输。硅桥与芯片间通过微凸块键合，基板则承担电源分配与散热功能。

Foveros则为3D封装，其核心架构采用“基础晶圆+堆叠芯粒”设计，即基础晶圆（通常为14nm I/O芯片）提供电源管理与外部接口，顶部堆叠逻辑芯粒（如 CPU、GPU），通过微凸块或混合键合实现垂直互连。

三星则是以存储为核心，构建 “垂直堆叠 + 混合集成”的3D封装技术体系。其中，3D V-NAND 堆叠技术通过电荷俘获层实现超多层堆叠；HBM-PIM 封装则是将高带宽内存（HBM）与处理芯粒通过混合键合集成，实现内存内计算；X-Cube 3D IC采用硅通孔（TSV）+ 微凸块键合架构，支持 8 层逻辑芯粒堆叠。

国内的封装大厂如长电科技，采用XDFOI与3D SiP协同发展策略，前者是采用扇出型架构替代传统硅中介层，支持大尺寸封装；后者系统级封装则是高性能领域的高密度 3D SiP 支持6层芯粒堆叠。通富微电Chiplet 为核心的 3D 封装技术体系，形成两大核心平台，分别为VISionS 先进封装平台与3DMatrix 技术平台，前者融合 2.5D/3D 集成与 MCM-Chiplet 技术，采用扇出型架构与TSV硅通孔结合方案；后者集成 TSV、eSiFo（扇出封装）与3D SiP 三大核心技术，通过硅通孔实现垂直互连。

诚然，芯片的发展是整个产业链玩家共同推动，上面所提及的所有技术和案例都是典型企业的做法，背后是设计公司、EDA/IP公司、封测厂、晶圆厂、设备材料、软件公司等共同推动的生态，缺一不可。

生态的重要性

本期话题是高算力+低功耗。一高一低的平衡中，我们再拔高一个视野，看一看应用端的视角。回归芯片本质，其作用就是推动实际应用发展，而终端应用就是一个生态。

今年我们看见一个非常有意思的大模型产品——DeepSeek。DeepSeek 攻克了大模型训练的 “不可能三角”，其V3模型仅用557.6万美元便实现了与GPT-4 Turbo相当的性能，通过动态调整神经元激活范围，将算力消耗降低至行业平均水平的1/10，打破了传统大模型依赖海量数据与算力的研发路径。

也就是说，在芯片算力往上爬得费劲的时候，软件产品努力把所求降低，从而达到完美适配。

同时，DeepSeek也是全球首个全开源多模态模型体系，公开了模型权重、训练代码、数据清洗流程和微调工具等，大家可以自行下载与部署模型，降低了 AI 技术的开发门槛，吸引了全球开发者参与。

另一个值得一提的就是英伟达的CUDA生态，CUDA 是英伟达的并行计算平台和编程模型，2006年推出，英伟达的CUDA策略也能够从宏观角度来降低功耗拔高能力上线。自身的GPU硬件与CUDA紧密耦合，比如NVLink 高速互联技术和Tensor Core等硬件特性通CUDA能得到充分利用。

纵观整个芯片发展，算力和功耗是永恒的话题，哪怕是逼近物理极限，也要再进一步。疯狂的技术大拿们，为了让电子世界更加科幻，也在日夜创造奇迹。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉