0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

3D芯片堆叠是如何完成的

中科院半导体所 来源:悦智网 作者:Samuel K. Moore 2022-08-31 10:46 次阅读

高端计算的解决方案是堆叠硅片。

一批高性能处理器表明,延续摩尔定律的新方向是向上发展。每一代处理器都要比上一代性能更好,究其根本,这意味着要在硅片上集成更多的逻辑。但其中存在两个问题。首先,我们缩小晶体管及其组成的逻辑和内存块的能力正在放缓。其次,单块芯片已经达到了尺寸极限。光刻工具可以在850平方毫米的面积内绘制图案,这大约是一个现代服务器图形处理单元(GPU)的大小。

有一种解决办法是将两块或多块硅片并排放置在同一个封装中,并使用几毫米长的密集互连将它们缝合在一起,这样它们就可以作为一个单元有效地运行。这种所谓的2.5D方案由先进的封装技术实现,已经落后于几个顶级处理器,这些处理器现在由多个功能性“芯粒”组成,而不是单个集成电路。 但是,要像在同一块芯片上一样传输大量数据,我们需要更短、更密集的连接,而这只能通过将一块芯片堆叠在另一块芯片上来实现。在3D方案中面对面连接两块芯片可能意味着每平方毫米要有数百甚至数千微米长的连接。通过这些短而密集的连接,只需很少的能量就能将数据从一块硅片快速传输到另一块,就好像两块硅片是一块芯片一样。

要做到这一点需要很多创新。工程师们必须想办法防止堆栈中一块芯片的热量破坏另一块芯片,决定哪些功能应该放在哪里、这些功能如何实现,防止偶尔出现的坏芯片造成大量昂贵的无用系统,以及应对一次完成这一切所增加的复杂性。

以下3个示例不仅展示了3D芯片堆叠是如何完成的,还介绍了其优势。

采用3D V-Cache缓存技术的AMD Zen 3

长期以来,个人计算机都可以选择增加内存,以便提高处理超大应用和大数据量工作的速度。由于3D芯片堆叠的出现,超微半导体公司(AMD)的下一代CPU芯粒也有了这个选择。当然,这不是售后市场的扩展组件,但如果你想打造一台更具魅力的计算机,那么订购一款有超大缓存的处理器可能是正确的选择。

新款Zen 3计算芯粒及其前代版本均采用了相同的台积电(TSMC)制造工艺,因此其晶体管大小、互连和其他属性均相同。但是AMD对Zen 3做了很多架构修改,因此即使没有额外的高速缓存,其时钟运行速度也提高了6%,平均性能也提高了19%。在这些架构瑰宝之上,还有一组硅通孔(TSV),即直接穿透大部分硅的垂直互连。硅通孔构建在Zen 3的最后一级缓存中,也就是名为L3的静态随机存取存储器(SRAM)块中。缓存位于计算芯粒的中间,并由其全部8个内核共享。 在处理大量数据工作负载的处理器中,Zen 3晶圆的背面被减薄,使得硅通孔暴露出来。

然后,使用混合键合(参见补充介绍“3D技术”)将64MB的SRAM芯粒连接到这些暴露出来的硅通孔上。后一种技术可以每隔9微米在CPU内核和高速缓存之间形成连接。最后,为了结构稳定性和便于热传导,附加上空白硅芯粒以覆盖Zen 3 CPU裸片的其余部分。 以2.5D排列形式在CPU 裸片旁额外添加缓存并不可取,因为数据要花很长时间才能到达处理器内核。AMD高级研究员、设计工程师约翰•吴(John Wuu)在今年2月举行的IEEE国际固态电路会议(ISSCC)上对虚拟参会者说:“虽然L3(缓存)的尺寸增加了两倍,但3D V-cache只增加了4个(时钟)周期的延迟,这只有通过3D堆叠才能实现。”
7b373856-2870-11ed-ba43-dac502259ad0.jpg

更高的缓存在高端游戏中有了用武之地。使用台式锐龙CPU和3D V-Cache可将1080p渲染的游戏速度平均提高15%。这也适用于霄龙服务器中央处理机(CPU)所处理的更重要的工作,可将困难的半导体设计验证工作的运行时间缩短66%。

吴指出,与缩小逻辑的能力相比,业界缩小SRAM的能力正在放缓。因此,未来的SRAM扩展包可能会继续使用更成熟的制造工艺,而计算芯粒将被推到摩尔定律的最前沿。

Graphcore的Bow AI处理器

即使堆栈中的一块芯片上没有晶体管,3D集成也可以加快计算速度。总部位于英国的人工智能(AI)计算机公司Graphcore仅通过在其AI处理器上安装一块功率传输芯片,就大幅提高了其系统的性能。增加功率传输硅片意味着名为Bow的组合芯片可以运行得更快,为1.85而非1.325千兆赫,且电压低于其前一代。与上一代相比,这相当于通过训练神经网络使计算机的速度提高了40%,而能耗降低了16%。重要的是,用户无须更改其软件便能获得这种提升。 功率管理裸片由电容器和硅通孔组合而成。后者只是向处理器芯片供电和提供数据。真正起作用的是电容器。

与动态RAM中的位存储组件一样,这些电容器位于硅片中深窄的沟槽中。由于这些电荷储存器离处理器晶体管非常近,因此功率可以顺畅地传输,从而能使处理器内核在较低电压下更快地运行。如果没有功率传输芯片,处理器必须将其工作电压提高到标称水平以上,才能在1.85千兆赫下工作,因此耗电量更高。有了功率芯片,它可以实现更高的时钟频率,并且功耗也更低。 Bow的制造工艺独一无二,但不太可能一直保持这种方式。

大多数3D堆叠是在其中一块芯片仍在晶圆上时将一块芯片键合到另一块芯片上完成的,称为“晶圆上芯片”(chip-on-wafer)。相反,Bow采用了台积电的堆叠晶圆(wafer-on-wafer)技术,将一种类型的整片晶圆与另一种类型的整片晶圆键合起来,然后切割成芯片。

Graphcore首席技术官兼联合创始人西蒙•诺尔斯(Simon Knowles)表示,Bow是市场上第一款使用这种技术的芯片,它使两块裸片之间的连接密度高于使用晶圆上芯片工艺所能达到的密度。 虽然目前Graphcore的功率传输芯片没有晶体管,但未来可能会有。诺尔斯说,将这种技术用于功率传输“只是我们的第一步,在不久的将来,它会走得更远”。

英特尔的Ponte Vecchio超级计算机芯片

极光超级计算机旨在成为美国首批突破exaflop屏障(每秒百亿亿次高精度浮点运算)的高性能计算机之一。为了让极光达到这种高度,英特尔的Ponte Vecchio在47块硅片上封装了1000多亿个晶体管,构成了一台处理器。英特尔使用2.5D和3D技术将3100平方毫米的硅片塞进了2330平方毫米的空间中,大约相当于4块英伟达A100 GPU。

英特尔院士威尔弗雷德•戈麦斯(Wilfred Gomes)在ISSCC上对各位工程师说,这款处理器将英特尔的2D和3D集成技术推向了极限。 每个Ponte Vecchio实际上是两组使用英特尔2.5D集成技术Co-EMIB连接在一起的镜像芯粒。Co-EMIB是“共嵌式多裸片互连桥接”的缩写,它在两个3D芯粒堆栈之间形成了高密度互连硅桥。Co-EMIB裸片还将高带宽内存和一个I/O芯粒连接到了其余芯粒堆叠的“基底磁贴”上。

基底磁贴采用了英特尔的3D集成技术Foveros,将计算和缓存芯粒堆叠其上。Foveros使用微凸块(每根顶部有一个微米宽焊球的短铜柱)使垂直连接相隔几十微米。信号电源通过硅通孔进入该堆栈。 8个计算磁贴、4个缓存磁贴和8个给处理器散热的空白“热”磁贴都连接到了基底磁贴上。基底磁贴本身具备高速缓存和允许任何计算磁贴访问任何存储元件的网络7b7b9ac8-2870-11ed-ba43-dac502259ad0.jpg  

无需多言,这一切都不容易。戈麦斯对与会者说,这项技术在收益管理、时钟电路、热调节和功率传输方面进行了创新。例如,英特尔工程师选择为处理器提供高于正常值(1.8伏)的电压,以便电流足够低,从而简化封装。基底磁贴中的电路将电压降低到了近0.7伏,以便在计算磁贴上使用,并且每个计算磁贴必须在基底磁贴上有自己的功率域。这项能力的关键是一种名为“同轴磁集成电感器”的新型高效组件。因为这些组件都内置在封装基板中,所以在向计算磁贴提供电压之前,电路实际上在基底磁贴和封装之间来回蜿蜒。

戈麦斯表示,从2008年第一台千万亿次浮点运算超级计算机发展到今年的百亿亿次浮点运算超级计算机花了14年。他预测,借助3D堆叠等先进封装技术,下次将计算速度提高千倍所需的时间可能会缩短到6年。

3D技术

混合键合将芯片互连堆栈顶部的铜焊盘与另一块芯片上的铜焊盘直接键合在一起。在混合键合中,焊盘位于被氧化物绝缘体包围的小凹槽中。绝缘体被化学激活,在室温下被反向按压时会立即结合。然后,在退火步骤中,铜焊盘会膨胀并桥接间隙,形成低阻抗链路。 混合键合的连接密度高达每平方毫米1万个键合,远高于微凸块技术每平方毫米400至1600个键合的连接密度(见图表)。 7b8faa0e-2870-11ed-ba43-dac502259ad0.jpg

如今可以实现的间距(从一个互连的边缘到下一个互连最边缘的距离)约为9微米,更紧密的几何结构正在研究中。封装技术公司ASE集团的工程和技术营销总监曹丽红(Lihong Cao,音)表示,这项技术的极限间距可能在3微米左右。她说,改进混合键合最关键的步骤是防止晶圆翘曲,并将每一面的表面粗糙度降低到纳米级。 7bb7b382-2870-11ed-ba43-dac502259ad0.jpg

微凸块本质上是一种叫做“倒装芯片”的标准封装技术的缩小版。在倒装芯片中,焊料凸块被添加到了芯片顶部(表面)的互连端点。然后将芯片翻转到具有一组匹配互连的封装基板上,并熔化焊料形成键合。要用这种技术堆叠两块芯片,其中一块芯片的表面必须有短铜柱。然后用一个“微凸块”焊料盖住这些芯片,通过熔化焊料将两块芯片面对面连接起来。

使用微凸块时,从一个连接的起点到下一个连接最边缘的最短距离(也就是间距)可以小于50微米。英特尔在Ponte Vecchio超级计算机芯片中使用了36微米间距版本的Foveros 3D集成技术。三星表示,其名为3D X-Cube的微凸块技术可以实现30微米的间距。该技术达不到(上述)混合键合的密度。然而,它对对齐和平面化的要求并不像混合键合那样严格,因此更容易将采用不同制造技术制造的多块芯片堆叠到单个基极芯片上。 7be28328-2870-11ed-ba43-dac502259ad0.jpg

硅通孔(TSV)是垂直向下穿过芯片硅的互连。它们不会贯穿整个晶圆,因此必须将硅片的背面磨平,直至硅通孔暴露出来。这在3D堆叠芯片中通常是必要的,因为要将芯片键合在一起使其互连面对面。在这种情况下,硅通孔可为堆栈供电并提供数据。多年来,它们在垂直堆叠多块内存芯片的高带宽动态RAM中得到了广泛应用。但随着3D芯片堆叠技术的发展,这项技术也应用到了逻辑芯片中。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18257

    浏览量

    222079
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4414

    浏览量

    126642
  • sram
    +关注

    关注

    6

    文章

    742

    浏览量

    113897
  • 3D芯片
    +关注

    关注

    0

    文章

    50

    浏览量

    18361

原文标题:3D处理器的3种制造方法

文章出处:【微信号:bdtdsj,微信公众号:中科院半导体所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ad19中3d模型不显示?

    封装库导入3d模型不显示,但导入3d模型后的封装库生成pcb文件时显示3d模型,这是什么原因导致的。
    发表于 04-24 13:41

    头盔3D扫描逆向工程3d建模抄数测绘服务-CASAIM中科广电

    3D扫描
    中科院广州电子
    发布于 :2024年04月12日 14:03:01

    3D动画原理:电阻

    电阻3D
    深圳崧皓电子
    发布于 :2024年03月19日 06:49:19

    友思特C系列3D相机:实时3D点云图像

    3D相机
    虹科光电
    发布于 :2024年01月10日 17:39:25

    PADS VX2.7 下载安装及3D模型导入的注意事项

    ://mentor.mr-wu.cn/ 安装方式按照安装包内的指导完成即可。 破解注意事项:1.用最新版馒头破解 2.必须关闭杀毒软件,否则破解后不可用! 二:3D模型导入 1.从3D模型网址
    发表于 11-22 17:54

    3D芯片堆叠是如何完成

    长期以来,个人计算机都可以选择增加内存,以便提高处理超大应用和大数据量工作的速度。由于3D芯片堆叠的出现,CPU芯粒也有了这个选择,但如果你想打造一台更具魅力的计算机,那么订购一款有超大缓存的处理器可能是正确的选择。
    发表于 10-15 10:24 461次阅读
    <b class='flag-5'>3D</b><b class='flag-5'>芯片</b><b class='flag-5'>堆叠</b>是如何<b class='flag-5'>完成</b>

    飞腾派3D打印外壳

    飞腾派排针在背面,所以最理想的摆放方法是立起来,自己3D画了一个外壳。目前还有些小瑕疵,不过已经可以用了,非常不错。 加了座子以后随便什么HDMI,网线都不怕被拉倒了。 背面已经上了minipcie转nvme的转接板,比TF卡用起来爽多了。
    发表于 09-24 21:14

    光学3D表面轮廓仪可以测金属吗?

    光学3D表面轮廓仪是基于白光干涉技术,结合精密Z向扫描模块、3D 建模算法等快速、准确测量物体表面的形状和轮廓的检测仪器。它利用光学投射原理,通过光学传感器对物体表面进行扫描,并根据反射光的信息来
    发表于 08-21 13:41

    实时3D艺术最佳实践-纹理技术解读

    纹理贴图获取2D曲面图像并将其映射到3D多边形上。 本指南涵盖了几种纹理优化,可以帮助您的游戏运行得更流畅、看起来更好。 在本指南的最后,您可以检查您的知识。您将了解有关主题,包括纹理图谱
    发表于 08-02 06:12

    低成本3D扫描仪机械部分设计中。#3d打印 #3d扫描 #3d建模 #3d #fusion

    3D扫描仪
    学习电子知识
    发布于 :2023年07月03日 20:13:56

    3D扫描进度更新,在等快递。还有准备3D打印。#3d建模 #3d扫描 #三维扫描 #3d设计 #创客

    3D打印机3D打印
    学习电子知识
    发布于 :2023年05月28日 20:54:11

    3D打印机炸了 。哭哭。求抱抱。#3d打印 #玩转3d打印 #嵌入式 #物联网 #单片机开发

    3D打印机3D打印
    学习电子知识
    发布于 :2023年05月28日 20:53:55

    3d打印机已经满足不了我了 #车床 #铣床 #3d打印 #物联网 #3d

    3D打印机3D打印
    学习电子知识
    发布于 :2023年05月28日 20:53:32

    3D打印两台机器同时干

    3D打印
    YS YYDS
    发布于 :2023年05月25日 17:39:14

    视觉处理,2d照片转3d模型

    首先,太阳高度是恒定的。 照片每像素的亮度可求。我们只需要求出太阳与眼睛到物体的夹角就能求出3d模型。 最多就是各种物质的反射率。 英伟达的oir芯片就是做汽车视觉的,大家去取取经。 有时,2-3张位置不同的照片,可以快速生成模
    发表于 05-21 17:13