0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

弥合带宽缺口,高性能AI推理如何受益于GDDR7?

海阔天空的专栏 来源:厂商供稿 作者:Nidish Kamath 2026-03-18 09:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Nidish_Kamath_Headshot.jpg

作者:Rambus半导体IP产品管理总监Nidish Kamath

当前AI领域的发展格局正由大型语言模型(LLMs)的迅猛增长所主导。虽然云端对于这些超大规模模型的训练依然至关重要,但一个显著的转变正在发生:AI推理正从集中式数据中心向网络边缘和终端设备迁移。这一趋势涵盖了从5G基础设施到汽车、安防摄像头和手机等终端设备在内的广泛领域。

在数字化转型持续加速的高增长地区,这种迁移趋势尤为显著。根据IDC数据显示,2024年下半年,中国边缘云市场规模达到73.9亿元人民币。在边缘侧完成轻量化模型训练和AI推理已成为行业关注的焦点,正驱动这一细分市场实现快速增长。

边缘计算的优势显而易见。本地化数据处理能提供用户期待的实时响应。而最大限度的减少数据传输不仅能减轻网络负荷,还能通过敏感数据的本地化存储来提升安全性。随着先进处理单元广泛集成到日常设备中,我们正见证边缘应用的爆发式增长,其功能已远超基础任务范畴。如今这些应用涵盖语音识别、网络监控、天气预报,甚至机器人技术与AI医疗设备,也对边缘硬件的处理能力提出了更高且更严苛的要求。

不断演进的市场格局催生出具有不同内存需求的细分市场。云托管应用需要绝对最高级别的内存带宽,通常超过每秒1TB,传统上采用HBM和DDR技术提供支持。网络边缘(如5G基础设施)则需要在300-500 GB/s的高性能与成本效益之间寻求精妙平衡。终端设备则更注重成本控制,虽仅需50-100 GB/s的带宽,但对带宽增长的需求同样迫切。而这一贯穿所有细分领域的共同特征是:内存带宽的需求正在全面持续攀升。

然而,这一需求也暴露了现代系统设计中的一个关键弱点:处理能力与内存带宽之间正出现日益严重的脱节。在过去两年中,AI模型规模惊人地增长了410倍,而同期内存带宽仅提升约一倍。这种巨大反差导致显著的“内存鸿沟"——内存子系统正日益成为制约AI性能的瓶颈,限制了先进处理器的潜力发挥。

为此,业界正日益转向专用处理器以提升效率。尽管GPU依然表现强劲,但针对特定应用构建专用硬件,可以通过精确匹配处理器与内存的预期工作负载,来实现更高效的内存利用。另一种解决方案则超越了处理器本身,通过采用2.5D架构、3D堆叠或芯粒(Chiplets)等新兴技术,使整个系统获得卓越的处理能力。然而,尽管架构变革层出不穷,核心挑战依然存在:即如何选择一个既能平衡性能,又具备商业可行性的内存标准。

面对爆发式的边缘 AI 应用,选择合适的内存解决方案面临着艰难的"三难困境"。高带宽内存(HBM)虽能提供海量带宽,却伴随着高昂的系统成本和2.5D/3D堆叠设计的复杂性。低功耗双列直插内存(LPDDR)在标准封装中兼具能效与高容量优势,但单设备带宽较低。边缘AI系统正处于两难境地:它们需要在带宽、容量、成本和外形尺寸之间寻求平衡。

JEDEC GDDR7标准正是为解决这一特定挑战而量身打造。该标准实现了性能的巨大飞跃,将每比特带宽从GDDR6的24 Gbps提升至36 Gbps。这使得32位设备的总带宽达到144 GB/s。凭借规格中48 Gbps的上限,总带宽还能进一步提升。采用2-4个GDDR7设备的内存子系统,即可实现边缘AI目标带宽——300-500 GB/s。

这一性能飞跃得益于信号传输技术的根本性变革。GDDR7从传统的NRZ(2位)信号传输方式,升级为创新的PAM3(3位或三进制)信号传输技术。通过这一创新技术,结合两位专用纠错位,GDDR7控制器和物理层芯片能在与GDDR6相同的链路预算下实现更高数据速率。对于系统设计者而言,这不仅让性能升级变得更可控,也更具成本效益。

为直观展现这些技术指标的实际影响,我们可以考察一个真实的商业设计场景。假设一个典型的边缘AI应用目标是实现500 GB/s的内存带宽:若采用GDDR7,仅需四颗 32Gbps的封装即可达标。与LPDDR5X(速率为 9.6Gbps)相比,GDDR7占用的电路板面积更小;而与HBM4(速率为 8.0Gbps)相比,其总系统成本更低。在这个案例中,基于GDDR7的系统在LPDDR与HBM这两种设计方案之间找到了一个理想的平衡点。

与 GDDR6 的双通道设计相比,GDDR7 具备四个独立通道。这种设计提供了更细的执行颗粒度,对于 AI 推理应用至关重要,它能实现更灵活的数据组织方式,并显著提升整体系统效率。此外,该标准还整合了关键的RAS(可靠性、可用性、可维护性)特性,例如片上纠错码(On-die ECC),这对于构建稳健可靠的边缘部署至关重要。随着行业采用这一新标准,可靠的IP合作伙伴对于确保芯片的成功实现将变得至关重要。

作为在高性能内存和互连解决方案领域的领先企业,Rambus具备独特优势来应对这些挑战。Rambus GDDR7控制器IP支持JEDEC规定的全部标准特性,已在客户量产中通过高达40 Gbps的芯片验证。该方案同时具备全行(all-bank)和单行(per-bank)刷新模式以降低功耗。同时,该IP对x16及x8合盖模式(Clamshell mode)的支持,为边缘侧设备提供了更多样化的实现选择。

Rambus GDDR7控制器以软IP核形式交付,能够与第三方GDDR7物理层(PHY)实现无缝协作。该功能为客户提供了“开箱即用”的完整子系统,极大简化了SoC的集成工作。在向客户SoC团队交付过程中,Rambus会对每个客户的内存控制器配置及第三方物理层文件进行全面回归测试。此外,Rambus还提供专家级技术支持和定制化服务等增值方案,助力客户加速产品上市进程。

人工智能和生成式AI时代,内存带宽缺口仍将是一个挑战。作为内存技术的行业先行者,Rambus将继续与行业合作伙伴紧密协作,提供关键的内存与互连技术,为从云端到边缘的AI产业进步注入强劲动力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40941

    浏览量

    302521
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    是德科技推出全新AI推理仿真平台

    是德科技(NYSE: KEYS)近日推出KAI推理构建器(Keysight AI Inference Builder),这款仿真与分析平台旨在大规模验证针对推理进行优化的AI基础设施。
    的头像 发表于 03-20 17:27 802次阅读
    是德科技推出全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>仿真平台

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    、内存革命:48GB/96GB LPDDR4X 背后的带宽博弈 很多开发者容易陷入唯算力论的误区,但在实际部署大模型时,内存容量和带宽往往是真正的性能瓶颈。OrangePi AI St
    发表于 03-10 14:19

    如何在边缘AI应用场景中实现高性能、低功耗推理(上)

    送回EndPoint设备。这种方法需要巨大的带宽才能将海量数据传输到云端。边缘设备越来越多地使用AI推理技术,以实现快速实时响应并提高数据隐私和安全性,同时避免与云连接产生的延迟
    的头像 发表于 03-03 14:18 6574次阅读
    如何在边缘<b class='flag-5'>AI</b>应用场景中实现<b class='flag-5'>高性能</b>、低功耗<b class='flag-5'>推理</b>(上)

    是德科技推出全新GDDR7发射端一致性测试解决方案

    是德科技(NYSE: KEYS )宣布推出全新GDDR7发射端一致性解决方案,该方案可加速图形与人工智能(AI)应用领域遵循JEDEC标准的验证进程。
    的头像 发表于 03-02 11:05 512次阅读
    是德科技推出全新<b class='flag-5'>GDDR7</b>发射端一致性测试解决方案

    如何在边缘AI应用场景中实现高性能、低功耗推理(上)

    。这种方法需要巨大的带宽才能将海量数据传输到云端。 边缘设备越来越多地使用AI推理技术,以实现快速实时响应并提高数据隐私和安全性,同时避免与云连接产生的延迟和成本。这也降低了功耗,使其适用于电池供电的IoT应用。因此,边缘
    的头像 发表于 02-27 07:48 1w次阅读
    如何在边缘<b class='flag-5'>AI</b>应用场景中实现<b class='flag-5'>高性能</b>、低功耗<b class='flag-5'>推理</b>(上)

    新品 | AI Pyramid AI Pyramid-Pro,面向本地推理与智能交互的高性能AI PC

    AIPyramid是一款金字塔形状的高性能AIPC,专为本地AI推理与边缘智能应用而生。内置AxeraAX8850SoC,集成八核Cortex-A55处理器与24TOPS@INT8NPU,轻松应对
    的头像 发表于 02-06 17:24 3877次阅读
    新品 | <b class='flag-5'>AI</b> Pyramid <b class='flag-5'>AI</b> Pyramid-Pro,面向本地<b class='flag-5'>推理</b>与智能交互的<b class='flag-5'>高性能</b><b class='flag-5'>AI</b> PC

    使用NORDIC AI的好处

    不依赖持续联网,整体系统可靠性更高。[Edge AI 概述; Nordic Edge AI 技术页] 覆盖从“小 MCU”到“高性能 SoC”的完整产品线 Neuton 模型 :超小模型(平均
    发表于 01-31 23:16

    昆仑芯R200 AI加速卡技术规格解析

    昆仑芯R200加速卡基于7nm XPU-R架构,在150W功耗下提供256 TOPS INT8算力,侧重高性能推理。配备最高32GB GDDR6内存(512GB/s
    的头像 发表于 12-14 13:12 1866次阅读
    昆仑芯R200 <b class='flag-5'>AI</b>加速卡技术规格解析

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    和探索;人类级别的理解能力;常识推理;现实世界的知识整合。 3、测试时计算 测试时计算(TTC)是指在模型推理阶段利用额外的计算资源来提升泛化性能。 4、具身智能与渗透式AI 1)具身
    发表于 09-18 15:31

    华为亮相2025金融AI推理应用落地与发展论坛

    近日,2025金融AI推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团CEO曹冲出席本次论坛并发表致辞。论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布AI
    的头像 发表于 08-15 09:45 1373次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    合作案例,成为AI数据中心升级的关键推动者。 一、技术实力:AI光模块的研发与量产先锋 睿海光电作为全球AI光模块的领先品牌,专注为数据中心、超算中心及智算中心提供
    发表于 08-13 19:01

    AI推理芯片赛道猛将,200亿市值AI芯片企业赴港IPO

    7月30日,AI芯片龙头企业云天励飞正式向港交所递交招股说明书。   云天励飞成立于2014年8月,2023年4月在上交所科创板挂牌,截至8月1日的市值为216亿元。专注
    的头像 发表于 08-04 09:22 4896次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>芯片赛道猛将,200亿市值<b class='flag-5'>AI</b>芯片企业赴港IPO

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造了高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案实现了网络全流量深度解析能力与AI智能推理
    发表于 07-16 15:29

    传音控股POVA 7 Ultra 5G搭载联发科天玑8350 AI芯片登场 高性能+AI

     5G、POVA 7 及系列首款曲面屏机型 POVA Curve 5G 五款机型,融未来感极简美学设计,进阶 AI 能力与高性能硬件一体,为新生代用户提供沉浸式游戏体验与全天候娱乐享
    的头像 发表于 06-24 16:13 2525次阅读

    英伟达预计向中国客户交付 “第三代” 阉割芯片

    基于 GB202 GPU,采用 GDDR7 内存,最大带宽可达 800Gbps,适合小规模集群推理和小模型后训练;B40/B30 芯片则保留了与 H20 相同的 NVLink 互联功能,最大
    的头像 发表于 06-21 00:03 4096次阅读