电子发烧友网报道(文/梁浩斌)今年火爆的AI应用也带火了数据中心市场,AI服务器需求暴增。不仅是AI大模型的规模在不断扩张至千亿级参数,还有越来越多不同类型的大模型训练和推理,都需要更强大的算力集群。
在一个多服务器构成的算力系统中,互连速率其实很大程度上决定着整个系统的性能上限,因此在片间互连方面,也开始采用CPO光电合封技术,将交换芯片和光电器件封装在一起,使得光电器件与芯片之间的数据传输损耗减小、提高传输速度。
但另一方面,由于半导体晶体管密度的提升速度放缓,单个计算节点中,比如单张AI加速卡上的芯片采用Chiplet技术成为了趋势,即多个小的“芯粒”封装在一起,通过互连组成一个整体的计算引擎。而为了提高chiplet设计的性能,芯片内部多个die之间的互连也非常关键。ONoC(Optical Network-on-Chip)片上光互连正是为了解决这个问题。
片上光互连:晶圆级的光互连网络
从结构上看,片上光互连其实是一种光子集成芯片技术,将不同功能的有源器件和无源器件集成在同一块光电基板上。光电基板上具有光子路由波导,这些波导被用于数据通信,和用于电路走线的多层金属层。CMOS电芯片堆叠在硅光芯片上,在光电基板上形成二维阵列。
光从基板上的激光光源中发出,输入到基板上的路由波导,通过波导到达光芯片上的调制器。这个时候电芯片上的信息数据,通过电芯片和光芯片之间的微凸块加载到环形调制器中,将数字1和0转换为光的强度差异。
调制后的光信号通过光电基板上的波导传播,到达其他光芯片上的光电探测器中。这个时候光信号就被转换成电信号,这些信息就被不同的电芯片所接收。
当然在实际应用中,每个CMOS芯片和光芯片之间,都有数以千计的微凸块被用于数据传输。因为光信号传播不需要铜导线,损耗小,延迟低,这样就实现了在光电基板上进行高能效、高带宽密度、低延迟的光互连。
从工作原理上看,其实可以大致分析出片上光互连的核心器件主要是激光器、调制器和接收器。要想提高片上光互连的传输容量,可以使用波分复用、偏振复用、模分复用等技术实现。
目前,针对单一物理维度光信号的复用、解复用设备已经相对成熟。为了进一步提高片上光互连系统的通道数量和传输容量,多种复用方式的综合运用成为了重要的研究趋势。例如,波长-偏振-模式混合复用等技术能够显著提升片上光互连系统的性能。此外,片上光互连架构的设计与选择对性能的提升也具有不可忽视的作用。片上光互连架构不仅决定了片上网络中不同节点的互连方式,同时也影响了路由器的端口数量和网络链路数量,进一步影响了网络的时延、功耗和可靠性等性能指标。
因此,综合运用多种复用方式并优化片上光互连架构是片上光互连发展的重要趋势。
距离落地应用还有多远?
目前片上光互连技术主要处于实验室阶段,还未大规模量产。业界的主要玩家包括一些高校和研究机构,比如美国加州大学圣巴巴拉分校、加州伯克利大学、荷兰的埃因霍温科技大学和特温特大学、美国集成光子制造研究所、中科院半导体所等。另外也有英特尔、曦智科技等厂商在推动相关技术的产业化。
英特尔在今年的Hot CHIPS会议上,展示了一款代号为“Piuma”的8核528线程处理器,而这款处理器的最大特点在于,采用了硅光子互连,能够提供1TB/s的光学带宽,可以将多达131,072个芯片连接在一起,形成一个大型共享内存的图形处理超级计算机。
在Piuma组成的超级计算机中,路由器就是网络,所有设备都通过 HyperX 拓扑进行连接,每个机架内将有16个Piuma芯片。不过英特尔目前还未决定Piuma芯片是否会进行商业化,他们表示,如果有客户提供资金支持,公司将会很乐意生产这款产品。
曦智科技近几年一直在片上光互连技术上努力推进商业化,今年HiPChips会议上,曦智科技展示了其片上光互连技术上的最新进展,该系统的通道数为512,单通道最长广播距离为50mm,广播延时1ns,单通道频率4GHz,片上总带宽达到2Tbps。实测数据显示,该计算系统完成多个计算核之间All-to-All的数据广播,这将大幅提高每个计算核的算力利用率。
而基于该片上光互连技术,曦智科技正在推动第一款商用级光电混合计算加速卡的商业化落地,未来将搭载曦智科技自研软件栈,在商用场景下发挥片上光互连低延迟、低功耗的优势。
小结:
在芯片受限于制程工艺、晶体管密度提高放缓的情况下,通过芯粒的设计将多个die封装在同一基板上成为了突破单芯片性能的一条重要路线。而这条路线的关键在于片上互连技术的发展,片上光互连技术也为未来的chiplet设计路线提供了更多的可能。
在一个多服务器构成的算力系统中,互连速率其实很大程度上决定着整个系统的性能上限,因此在片间互连方面,也开始采用CPO光电合封技术,将交换芯片和光电器件封装在一起,使得光电器件与芯片之间的数据传输损耗减小、提高传输速度。
但另一方面,由于半导体晶体管密度的提升速度放缓,单个计算节点中,比如单张AI加速卡上的芯片采用Chiplet技术成为了趋势,即多个小的“芯粒”封装在一起,通过互连组成一个整体的计算引擎。而为了提高chiplet设计的性能,芯片内部多个die之间的互连也非常关键。ONoC(Optical Network-on-Chip)片上光互连正是为了解决这个问题。
片上光互连:晶圆级的光互连网络
从结构上看,片上光互连其实是一种光子集成芯片技术,将不同功能的有源器件和无源器件集成在同一块光电基板上。光电基板上具有光子路由波导,这些波导被用于数据通信,和用于电路走线的多层金属层。CMOS电芯片堆叠在硅光芯片上,在光电基板上形成二维阵列。
光从基板上的激光光源中发出,输入到基板上的路由波导,通过波导到达光芯片上的调制器。这个时候电芯片上的信息数据,通过电芯片和光芯片之间的微凸块加载到环形调制器中,将数字1和0转换为光的强度差异。
调制后的光信号通过光电基板上的波导传播,到达其他光芯片上的光电探测器中。这个时候光信号就被转换成电信号,这些信息就被不同的电芯片所接收。
当然在实际应用中,每个CMOS芯片和光芯片之间,都有数以千计的微凸块被用于数据传输。因为光信号传播不需要铜导线,损耗小,延迟低,这样就实现了在光电基板上进行高能效、高带宽密度、低延迟的光互连。
从工作原理上看,其实可以大致分析出片上光互连的核心器件主要是激光器、调制器和接收器。要想提高片上光互连的传输容量,可以使用波分复用、偏振复用、模分复用等技术实现。
目前,针对单一物理维度光信号的复用、解复用设备已经相对成熟。为了进一步提高片上光互连系统的通道数量和传输容量,多种复用方式的综合运用成为了重要的研究趋势。例如,波长-偏振-模式混合复用等技术能够显著提升片上光互连系统的性能。此外,片上光互连架构的设计与选择对性能的提升也具有不可忽视的作用。片上光互连架构不仅决定了片上网络中不同节点的互连方式,同时也影响了路由器的端口数量和网络链路数量,进一步影响了网络的时延、功耗和可靠性等性能指标。
因此,综合运用多种复用方式并优化片上光互连架构是片上光互连发展的重要趋势。
距离落地应用还有多远?
目前片上光互连技术主要处于实验室阶段,还未大规模量产。业界的主要玩家包括一些高校和研究机构,比如美国加州大学圣巴巴拉分校、加州伯克利大学、荷兰的埃因霍温科技大学和特温特大学、美国集成光子制造研究所、中科院半导体所等。另外也有英特尔、曦智科技等厂商在推动相关技术的产业化。
英特尔在今年的Hot CHIPS会议上,展示了一款代号为“Piuma”的8核528线程处理器,而这款处理器的最大特点在于,采用了硅光子互连,能够提供1TB/s的光学带宽,可以将多达131,072个芯片连接在一起,形成一个大型共享内存的图形处理超级计算机。
在Piuma组成的超级计算机中,路由器就是网络,所有设备都通过 HyperX 拓扑进行连接,每个机架内将有16个Piuma芯片。不过英特尔目前还未决定Piuma芯片是否会进行商业化,他们表示,如果有客户提供资金支持,公司将会很乐意生产这款产品。
曦智科技近几年一直在片上光互连技术上努力推进商业化,今年HiPChips会议上,曦智科技展示了其片上光互连技术上的最新进展,该系统的通道数为512,单通道最长广播距离为50mm,广播延时1ns,单通道频率4GHz,片上总带宽达到2Tbps。实测数据显示,该计算系统完成多个计算核之间All-to-All的数据广播,这将大幅提高每个计算核的算力利用率。
而基于该片上光互连技术,曦智科技正在推动第一款商用级光电混合计算加速卡的商业化落地,未来将搭载曦智科技自研软件栈,在商用场景下发挥片上光互连低延迟、低功耗的优势。
小结:
在芯片受限于制程工艺、晶体管密度提高放缓的情况下,通过芯粒的设计将多个die封装在同一基板上成为了突破单芯片性能的一条重要路线。而这条路线的关键在于片上互连技术的发展,片上光互连技术也为未来的chiplet设计路线提供了更多的可能。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
光互连
+关注
关注
0文章
10浏览量
7990
发布评论请先 登录
相关推荐
热点推荐
Molex收购Teramount:CPO互连技术开启算力与能效的“双赢时代”
** 。Teramount的TeraVERSE®平台以其独特的“可拆卸光纤直连芯片”方案,为大规模共封装光学(CPO)提供了可量产的互连接口,或将成为超大规模数据中心、AI算力集群突破
力争百万 Tokens 推理成本降低百倍:云天励飞发布未来三年大算力芯片战略,首曝 DeepVerse 路线图
2月3日,云天励飞正式举办“大算力芯片战略前瞻会”,首次对外公布未来三年的大算力 AI 推理
北大团队最新研究:AI芯片算力提升数倍,能效提升超90倍
首次实现后摩尔新器件异质集成的多物理域融合傅里叶变换系统。 这一全新计算架构将傅里叶变换计算速度从当前每秒约1300亿次提升至每秒约5000亿次,算力提升近4倍,能效
国产AI芯片真能扛住“算力内卷”?海思昇腾的这波操作藏了多少细节?
最近行业都在说“算力是AI的命门”,但国产芯片真的能接住这波需求吗?
前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下算力
发表于 10-27 13:12
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力
持续发展体现在:
1、收益递减
大模型的基础的需要极大的算力,这首先源于昂贵的高性能AI芯片,然后是宝贵的电力、水等与环境相关的资源。
收益递减体现在:
①模型大小
②训练数据量
③训练算法的优化
2
发表于 09-14 14:04
【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理
前言
【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了
发表于 06-18 19:31
片上光互连:未来单芯片算力提升的重要路径
评论