0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新思科技助力下一代数据中心AI芯片设计

新思科技 来源:新思科技 2025-02-20 09:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Multi-Die设计正成为增强数据中心现代计算性能、可扩展性和灵活性的关键解决方案。通过将传统的单片设计拆分为更小的异构或同构芯片(也称小芯片),开发者可以针对特定任务优化每个组件,进而显著提高效率和能力。这种模块化策略对数据中心特别有利,因为数据中心需要高性能、可靠且可扩展的系统来处理大量数据和复杂的AI工作负载。

超大规模数据中心不断发展的复杂架构可以使用各种类型的Multi-Die设计:

计算芯片负责核心处理任务,包括通用CPU、用于并行处理的GPU以及专用于人工智能(AI)和机器学习(ML)的加速器

内存芯片为数据密集型应用提供必要的存储和带宽,支持各种类型的内存,如DDR、HBM和新兴的非易失性技术

IO芯片负责管理输入和输出操作,促进计算单元与内存、网络和存储等外部接口之间的数据传输,确保高数据带宽和低延迟

此外,定制芯片可以满足特定要求或优化特定功能,包括增强数据保护的安全设计、高效节能的电源管理设计以及具备高级通信功能的网络设计。

本文深入探讨了PCIe和以太网以及UCIe IP的多芯片设计如何最大限度地提高带宽和性能,助力现代化AI数据中心基础设施实现纵向和横向扩展。

为何纵向和横向扩展是数据中心连接性的关键

互连是构建AI基础结构的一大挑战,我们应如何将多个数据中心的数万台服务器连接在一起,形成能够处理AI工作负载的庞大网络?AI数据中心的复杂性不言而喻,涵盖多个CPU和加速器、各种交换机、大量NIC以及其他设备。无缝连接这些组件离不开高效的网络。因此,纵向和横向扩展技术就显得至为关键。IO分解为这两种扩展策略提供了契机。在纵向扩展场景中,PCIe和UCIe利用UCIe IP实现Die-to-Die连接,构建内部网络结构;同时,对于横向扩展场景,以太网和UCIe IP则可以在服务器间建立高速、低延迟链路。

纵向扩展和横向扩展概述

纵向扩展(或垂直扩展)指的是通过添加CPU数量、扩展内存或增强存储容量增加单台服务器的资源。这种方法将所有资源集中在一台机器内,可以简化架构、降低延迟。纵向扩展的核心在于用来构建内部网络结构的PCIe技术。最新的PCIe 7.0标准可连接CPU、GPU、NIC、存储驱动器等外设,提供低延迟和高带宽接口,确保服务器内的高效通信。

横向扩展(或水平扩展)是将工作负载分配到多台服务器上,创建协同工作的机器网络。这种方法经济高效、具备冗余能力,并能灵活应对不断增长的工作负载。然而,这也增加了网络配置与管理的复杂性,因为多台机器间的通信可能会增加延迟。因此,以太网技术和即将推出的超级以太网标准便显得尤为重要,它们为数据中心内的服务器提供了高速、低延迟通信链路。目前,业界正在积极探讨新标准,旨在实现AI加速器与交换机之间的高速链路,确保数据传输与协调工作更加高效。

3ace9ff8-eea6-11ef-9310-92fbcf53809c.png

▲图1 数据中心架构扩展所需关键互连技术一览

集成以太网和PCIe的Multi-Die设计

如图1所示,Multi-Die设计为实现纵向与横向扩展提供了诸多可能。Multi-Die设计采用了PCIe、以太网和UCIe IP,对缩短上市时间、降低成本和风险至关重要,同时提供了全面的架构灵活性。接下来,本文将详细介绍Multi-Die设计的几个主要IO小芯片类型,包括超大型AI训练芯片、交换机SoC以及重定时器

超大型AI训练芯片

为了处理庞大的数据模型,AI芯片必须能高效执行计算和数据管理任务。AI训练专用芯片旨在满足这些巨大的计算和数据处理需求,在单个芯片上集成多个处理单元、内存和互连,以提供优越的性能和效率。因此,集成了40G UCIe和224G以太网的Multi-Die设计应运而生,为AI的高效训练带来了实现方案。数据中心不再需要依赖于数千个庞大的GPU,而是可以通过更加小巧的SoC来执行AI训练,这大幅减小了延迟和功耗,进一步改善了带宽和传输距离。

224G以太网PHY IP提供了强大且可定制的接口。CEI-224G还在不断发展,对AI训练操作来说,实现每通道224Gbps,同时保持生态系统互操作性并降低功耗至关重要。此外,UCIe IP可以在多个芯片上提供高速、低延迟、节能的数据传输,速度高达40Gbps,显著增强这些芯片的可扩展性和模块化。

3aef2566-eea6-11ef-9310-92fbcf53809c.png

▲图2 适用于AI训练芯片的224G/UCIe Multi-Die设计

具有电或光合封接口的100T交换机SoC

AI加速器当然非常重要,但怎么将它们连接到一起呢?这需要很多交换机。交换机SoC正成为横向扩展AI和HPC数据中心并保持低功耗的另一种解决方案,电传输距离为3-4米,光传输距离为10-100米。这些SoC将电和光互连直接集成到CPU和GPU中,有助于增强网络优化的可扩展性和效率,对缓解集群规模迅速扩张时的连接性瓶颈非常重要。电I/O虽支持高带宽密度且功耗低,但传输距离有限;而光互连则能显著延长数据传输范围。可插拔光收发器模块能增加传输距离,但大规模AI工作负载难以承受其高昂成本与整体能耗。相比之下,共封装光I/O方案支持更高带宽,其功耗更低、延迟更小且传输距离更远,恰好能够迎合AI/ML基础结构的扩展需求。

光和电IO可支持以224Gbps运行的多条高速通道,且相比传统可插拔QSFPDD或OSFP收发器模块,其功耗显著降低。此外,集成UCIe和高速以太网等先进标准,可促进与主芯片的高速、低延迟通信,突破传统互连的局限性。

3b012018-eea6-11ef-9310-92fbcf53809c.png

▲图3 100T光/电交换机SoC

用于重定时器或扩展传输范围的高带宽IO

重定时器和扩展传输范围解决方案也同样不可或缺,可以维持信号完整性、减少长距离延迟。重定时器支持PCIe和CXL等高级协议,可无缝集成到现代数据中心架构中,并实现大量内存扩展,无需彻底改造现有系统。这种兼容性对于处理内存密集型AI推理操作以及克服PCIe 7.0等新标准带来的信号完整性挑战至关重要。

PCIe和CXL协议的融合正通过实现内存池和动态、经济高效的内存分配重塑数据中心架构。为了使重定时器在新环境中发挥作用,它们必须具有协议感知能力,并能够适应快速发展的CXL标准。片上诊断、安全启动功能和低功耗等特性对于确保安全、易于调试和可持续性至关重要。业界向Multi-Die设计的转变进一步强调了通用、高带宽I/O解决方案的必要性,从而简化了系统设计并加快了上市时间。这些技术进步不仅对于满足当前AI与高性能计算的需求至关重要,也确保了数据中心能够轻松应对未来不断攀升的算力与带宽需求。

3b18b606-eea6-11ef-9310-92fbcf53809c.png

▲图4 重定时器或扩展传输范围IO设计

采用以太网、PCIe和UCIe IP的Multi-Die实现示例

图5为Multi-Die设计示例,其中包含224G以太网PHY和集成1.6T PCS和MAC以太网控制器、PCIe 6.x或7.0 PHY和控制器、安全IP、传感器、DFT和UCIe PHY和控制器IP。该设计可以重新配置,为各种通道实现1.6T/3.2T/6.4T带宽,包括45dB LR、MR和VSR以太网以及PCIe 6.x和7.0范围。

45dB长距离以太网和UCIe重定时器Die-to-Die设计

组合PCIe/CXL/以太网和UCIe Die-to-Die设计

适用于交换机的1.6T/3.2T/6.4T可扩展IO设计

3b2f934e-eea6-11ef-9310-92fbcf53809c.png

▲图5 Multi-Die设计框图

这种Multi-Die设计支持双向224G数据传输的可配置通道数,能应对高达45dB的插入损耗。其目的是满足AI基础结构对更高带宽、更低功耗和更远传输距离的需求。该示例增强了CPU/GPU集群连接和创新计算架构的可扩展性,包括一致性内存扩展和资源解耦。

总结

集成PCIe和以太网等高速接口以及UCIe IP和链路健康监控功能,有助于扩展Multi-Die设计的带宽。新思科技为UCIe提供高达40Gbps的高质量、完整IP解决方案,集成信号完整性监视器和可测试性功能、224G以太网及PCIe 7.0,能够大幅提高带宽、降低延迟并改善可扩展性。新思科技的Multi-Die设计IP解决方案遵循不断演变的行业标准,可以与生态系统内的产品互操作,其多项前沿技术已经应用到芯片中,是实现下一代数据中心AI芯片的低风险解决方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    5924

    浏览量

    179548
  • 数据中心
    +关注

    关注

    16

    文章

    5519

    浏览量

    74655
  • PCIe
    +关注

    关注

    16

    文章

    1422

    浏览量

    87554
  • 新思科技
    +关注

    关注

    5

    文章

    925

    浏览量

    52643

原文标题:以太网+PCIe+UCIe IP:数据中心的三重“超能力”

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    适用于数据中心AI时代的800G网络

    持续优化800G网络解决方案,为下一代1.6T数据中心铺平道路,助力数据中心迎接更高性能、更智能化的时代挑战。 ​ *文章来源于飞速(FS)社区 ​
    发表于 03-25 17:35

    如何利用人工智能实现更为高效的下一代数据存储

    充分利用人工智能,实现更为高效的下一代数据存储
    发表于 01-15 07:08

    如何去推进新一代数据中心的发展?

    一代数据中心有哪些实践操作范例?如何去推进新一代数据中心的发展? 
    发表于 05-25 06:16

    微软云计算解决方案与下一代数据中心介绍

    微软云计算解决方案与下一代数据中心介绍。
    发表于 08-19 16:18 0次下载

    下一代数据中心对机柜系统的要求

    本白皮书侧重于探讨与在当今 数据中心 内的机架式安装电信设备和 IT 设备相关的问题。相关的内容详见APC 4 号白皮书:下一代数据中心的电源系统基本要求文侧重于解决相关供电的
    发表于 08-29 17:30 35次下载

    华为数据中心能源将开启下一代智能数据中心

    提升。华为通过创新技术,在逐步改变产业结构,在数据中心能源领域,华为预制模块化数据中心、模块化UPS及多个产品在中国区乃至全球市场份额排名第。华为产品创新的初衷是为了聚焦客户需求,打造“极简、绿色、智能、安全”的
    的头像 发表于 09-07 14:23 3656次阅读

    400G将如何引领下一代数据中心网络

    400G光模块正在加速数据中心的发展,随着5G时代的到来和国内外大型数据中心的兴建,下一代数据中心100G光模块正在慢慢被400G光模块所取代,接下来我们要讲述的是400G如何引领下一代数据中
    发表于 06-11 17:26 1148次阅读

    下一代数据中心100G接口——DSFP封装

    近年来,随着互联网与5G的快速发展使得数据流量需求不断增加,驱动着数据中心向着更高吞吐和更大带宽的方向发展,服务器网卡和接入交换机都在向着下一代100G接口演进—DSFP。本篇文章为您简单介绍100G DSFP封装。
    的头像 发表于 11-04 10:40 3601次阅读
    <b class='flag-5'>下一代数据中心</b>100G接口——DSFP封装

    高性能领导力:为下一代数据中心和汽车架构提供动力

    高性能领导力:为下一代数据中心和汽车架构提供动力 演讲ppt分享
    发表于 07-14 17:15 0次下载

    数据中心 AI 加速器:当前下一代

    数据中心 AI 加速器:当前下一代演讲ppt分享
    发表于 07-14 17:15 0次下载

    Molex莫仕Mirror Mezz Pro屡获殊荣,为下一代数据中心提供224G解决方案

    Mirror Mezz Pro和Mirror Mezz Enhanced 高速扣板连接器荣获物联网年度产品奖。 为下一代人工智能(AI)和高密度应用的下一代数据中心提供多种创新性能优势。 近日,由
    的头像 发表于 11-09 15:05 2807次阅读
    Molex莫仕Mirror Mezz Pro屡获殊荣,为<b class='flag-5'>下一代数据中心</b>提供224G解决方案

    芯原推出面向下一代数据中心的全新VC9800系列IP

    包括视频转码服务器、AI服务器、云桌面和云游戏等在内的下一代数据中心的先进需求。 VC9800系列视频处理器IP具备高性能、高吞吐量和服务器级别的多码流编解码能力,可支持最高256路码流,并兼容所有的主流视频格式,包括新一代先进
    的头像 发表于 01-09 13:18 844次阅读

    东盟能源和华为主编的《东盟下一代数据中心建设白皮书》正式发布

    2024年5月17日,在2024全球数据中心产业论坛上,由东盟能源中心(ASEAN Center for Energy)和华为主编的《东盟下一代数据中心建设白皮书》(以下简称《白皮书》)重磅发布,旨在推动东盟
    的头像 发表于 05-19 14:19 1704次阅读
    东盟能源和华为主编的《东盟<b class='flag-5'>下一代数据中心</b>建设白皮书》正式发布

    安森美携手英伟达推动下一代AI数据中心发展

    安森美(onsemi,美国纳斯达克股票代号:ON)宣布与英伟达(NVIDIA)合作,共同推动向800V直流(VDC)供电架构转型。这变革性解决方案将推动下一代人工智能(AI数据中心
    的头像 发表于 08-06 17:27 1169次阅读

    安森美SiC器件赋能下一代AI数据中心变革

    安森美(onsemi)凭借其业界领先的Si和SiC技术,从变电站的高压交流/直流转换,到处理器级的精准电压调节,为下一代AI数据中心提供了从3kW到25-30kW HVDC的供电全环节高能效、高密度
    的头像 发表于 10-31 13:47 391次阅读