0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI数据中心正在撞上“三堵墙”: 为什么高速系统设计最终都会回到PI与SI?

海阔天空的专栏 来源:泰克科技 作者:厂商供稿 2026-06-05 14:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引言

过去几年,AI大模型的发展速度远远超出了传统数据中心架构的演进节奏。从GPT、多模态模型,到视频生成、Agent与具身智能,模型参数规模、训练数据量以及推理负载都在持续增长。与此同时,AI数据中心也正在从传统CPU时代快速进入GPU、AI Accelerator与高速互联时代。

当整个行业都在追求更高算力时,一个越来越明显的问题开始出现:真正限制AI数据中心继续扩展的,已经不再只是算力芯片数量,而是功耗墙、内存墙和带宽墙。高端AI GPU单卡功耗已经突破700W,单机柜功耗正在接近甚至超过100kW;HBM正在持续推动存储带宽增长;NVLink、InfiniBand、800G Ethernet以及PCIe Gen5/Gen6等高速互联技术不断提升系统吞吐能力。

然而,随着系统规模持续扩大,越来越多的问题开始暴露出来。很多工程师发现,系统稳定性、误码率以及一致性测试问题,往往并非来自协议本身,而是来自更底层的系统设计。最终,这些问题都会回到PI(Power Integrity)、SI(Signal Integrity)以及EMI(Electromagnetic Interference)之间的复杂耦合关系。

侵权注意.png

为什么越来越多高速问题的根源来自电源

在高速电路设计中,PI、SI与EMI看似属于不同领域,但在实际系统中却高度关联。业内逐渐形成一个共识:超过半数的SI问题,其根源来自电源质量问题;与此同时,大量EMI超标问题,本质上也来自PDN中的高频噪声。因此,高速设计领域逐渐形成了一条经验:先保障PI,再优化SI。

对于AI数据中心而言,这种关系尤为明显。随着GPU负载不断变化、供电密度不断提高以及高速互联持续升级,电源系统的任何波动都可能最终体现在信号质量上。

电源完整性(PI)测试:比想象中困难得多

PI的核心目标,是为系统提供稳定、洁净且可预测的供电环境。在AI数据中心中,GPU动态负载的剧烈变化、高密度供电架构以及HVDC系统的发展,都让PI测试的重要性持续提升。然而现实情况是,PI并不是单一测试,而是涵盖直流测试、交流测试、瞬态测试以及专项分析测试的一整套验证体系。任何一个环节缺失,都可能为后续量产埋下风险.

其中最典型的问题之一便是纹波测试。现代芯片供电容错率通常只有3%5%,而高端芯片甚至已经低至1%。这意味着电源纹波往往必须控制在1015mV范围内。然而在实际测试过程中,本底噪声、探头选型、耦合方式以及带宽限制都会影响最终结果。如果测试链路本身存在问题,那么测得的数据就很难真实反映系统状态。

图片1.png

除了纹波测试之外,TLVR阶跃负载测试也是PI验证中的关键环节。TLVR相比传统VRM能够实现约10mV的性能改善,但在传统测试环境下,仅地环路误差就可能高达27mV。

换句话说,测试误差甚至已经超过技术本身带来的改善幅度。如果无法准确控制测量链路,研发团队将很难判断系统性能是否真正得到提升。

信号完整性(SI):误码为什么越来越像“玄学”

对于很多高速工程师来说,最头疼的问题并不是发现误码,而是误码无法稳定复现。实验室通过,客户现场失败;室温正常,高温异常。这类问题在PCIe、DDR、MIPI等高速系统中越来越常见。SI问题本质上主要来自两个方面:一是建立保持时间不足导致时序异常;二是信号幅度不足导致波形失真。对于DDR、MIPI等并行接口,工程师需要同时关注时序完整性与波形完整性;而对于PCIe、USB等串行接口,阻抗匹配问题则成为核心挑战。

其中,抖动分析是整个SI验证过程中最复杂的部分之一。抖动(Jitter)本质上是信号相对于参考时钟的定时误差(TIE)。根据来源不同,可进一步分为随机抖动(RJ)和确定性抖动(DJ)。实际分析过程中通常需要借助双狄拉克模型进行分解,并结合直方图、眼图以及TIE分析完成信号裕度评估。

图片2.png

一致性测试:能够通信不代表能够量产

对于今天的高速系统而言,能够正常通信仅仅只是开始。真正决定产品是否能够量产的,是一致性测试。以MIPI C-PHY为例,完整标准测试项目达到43项。只要其中任何一项不符合规范,产品便无法通过认证

这些测试不仅涉及抖动、眼图、电压以及时序等基础指标,还包含大量专项协议验证内容。随着PCIe、DDR、MIPI等标准持续升级,测试项目数量不断增加,人工测试效率越来越低,自动化测试能力开始成为研发效率的重要组成部分。

为什么AI数据中心会放大这些问题

如果说过去PI与SI已经足够复杂,那么AI数据中心进一步放大了所有挑战。为了突破功耗墙、内存墙以及带宽墙,系统必须引入HBM、PCIe Gen6、高速SerDes、800G Ethernet以及更复杂的供电架构。

然而,更高带宽意味着更高功耗;更高功耗意味着更复杂的供电系统;更复杂的供电系统又会进一步影响高速链路稳定性。因此,PI与SI不再是两个独立问题,而开始形成真正意义上的系统级耦合关系。

图片3.png

结语

AI数据中心的发展正在不断突破功耗、内存与带宽边界。随着GPU功率持续攀升、HBM带宽持续增长以及高速互联不断升级,系统设计挑战也正在从单一模块优化转向系统级协同优化。

对于今天的工程师而言,真正需要解决的问题已经不再是某一个高速接口是否能够正常工作,而是整个系统能否在高功率、高带宽以及高动态负载环境下持续稳定运行。这也正是为什么,PI与SI正在成为AI数据中心时代最关键的底层能力。

关于泰克科技

泰克公司总部位于美国俄勒冈州毕佛顿市,致力提供创新、精确、操作简便的测试、测量和监测解决方案,解决各种问题,释放洞察力,推动创新能力。70多年来,泰克一直走在数字时代前沿。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    18

    文章

    5889

    浏览量

    75291
  • AI
    AI
    +关注

    关注

    91

    文章

    42532

    浏览量

    303445
  • 泰克科技
    +关注

    关注

    2

    文章

    231

    浏览量

    20701
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    优化800G数据中心高速线缆、有源光缆和光纤跳线解决方案

    随着技术的飞速发展,数据中心正在从100G和400G演进到800G时代,对高速数据传输的需求与日俱增。因此,选择高效且可靠的布线解决方案对于800G
    发表于 03-24 14:20

    适用于数据中心AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G网
    发表于 03-25 17:35

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    提供“数据高速通道”。 低延迟与高可靠:通过信号完整性设计与超低功耗控制,减少数据中心能耗的同时,保障大规模AI训练的稳定性。 前瞻布局:1.6T光模块研发已启动,为下一代1.6T
    发表于 08-13 19:01

    数据中心子系统的组成

    断电持续很长时间,仅采用标准IJPS电池是不够的,所以,现在大部分数据中心都采用现场发电。这些发电系统以柴油、天然气或其他碳氢化合物为燃料,可以在现场提供长时间的高质量电源,直至燃料耗尽。如遇超长
    发表于 11-11 10:16

    数据中心市场的十大趋势

    。2.招聘需求数据科学家使用分析技术将大数据转化为有价值和有用的结论。随着云数据中心从信息存储基础设施转变为按需云数据处理中心,对
    发表于 12-31 22:23

    40G数据中心之铜缆布线

    网络的互连,其中使用较多的是高速线缆(DAC,Direct Attach Copper Cable),尤其是无源铜缆(PCC)。无源铜缆因成本低和传输速度快的优点一直被视为数据中心短距离传输的最优
    发表于 11-18 15:00

    未来数据中心与光模块发展假设

    的框架下完成的,但这些大型组织需要端到端控制,才能使基于人工智能和机器学习的应用程序成为其业务差异化因素,唯一有效的方法是呈现在公司数据中心,也促使数据中心光模块向更高速率发展。规模较小数据中
    发表于 08-07 10:27

    数据中心太耗电怎么办

    !》,原文作者:启明 。一、3 年电费消耗,可再建造一个数据中心!1.1 科技驱动,推动数据中心市场持续高速发展国际惯例,先介(bai)绍(du)一(bai)下(ke)“数据中心”:
    发表于 06-30 06:27

    数据中心是什么

    数据中心是什么:数据中心是全球协作的特定设备网络,用来在因特网络基础设施上传递、加速、展示、计算、存储数据信息。数据中心大部分电子元件都是由低直流电源驱动运行的。
    发表于 07-12 07:10

    什么是数据中心

    数据中心是企业用来容纳其关键业务应用程序和信息的物理设施。随着它们的发展,重要的是要长期考虑如何保持它们的可靠性和安全性。什么是数据中心数据中心通常被称为单个事物,但实际上它们由许多技...
    发表于 09-15 06:46

    高速数据中心解决方案

    随着业务转型发展带来的信息化系统建设,云应用程序正在快速发展。单体应用程序正在让位于分布式服务,推动了数据中心基础设施网络流量的增加,流量的持续增长也推动着
    的头像 发表于 10-20 17:08 2034次阅读
    <b class='flag-5'>高速</b>率<b class='flag-5'>数据中心</b>解决方案

    千亿数据中心市场,正在AI而改变!

    图源:stock.adobe.com 在全球范围内,数据科学和人工智能(AI正在影响着现代数据中心的设计和发展。随着每天数据量的激增,传统
    的头像 发表于 04-19 14:30 2214次阅读
    千亿<b class='flag-5'>数据中心</b>市场,<b class='flag-5'>正在</b>因<b class='flag-5'>AI</b>而改变!

    苹果正在研发全新数据中心AI芯片

    苹果正在秘密研发一款全新的数据中心AI芯片,这一项目在公司内部被称为“ACDC”,并且已经经过了数年的精心筹备。据华尔街日报的知情人士透露,这款芯片的设计目标是为了优化苹果数据中心服务
    的头像 发表于 05-08 09:40 1121次阅读

    Cadence颠覆AI数据中心设计

    日前举办的英伟达 GTC 2025 开发者大会汇聚了众多行业精英,共同探讨人工智能的未来。而人工智能正在重塑全球数据中心的格局。据预测,未来将有 1 万亿美元用于 AI 驱动的数据中心
    的头像 发表于 03-21 15:43 1433次阅读

    曦智科技探讨AI数据中心大扩展策略

    在OFC 2026期间,曦智科技接受了Semiconductor Engineering的专访,探讨了AI数据中心大扩展策略——纵向扩展(Scale-up)、横向扩展(Scale-out)和跨
    的头像 发表于 04-21 16:34 523次阅读
    曦智科技探讨<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b><b class='flag-5'>三</b>大扩展策略