0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

缓解AI推理算力焦虑,高带宽GDDR6成杀手锏?

Rambus 蓝铂世科技 来源:芯东西 2023-06-02 15:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

芯东西 5 月 22 日报道,生成式 AI 的日益火爆,正对数据中心内存性能提出更加苛刻的要求。无论是云端 AI 训练还是向网络边缘转移的 AI 推理,都需要高带宽、低时延的内存。迈向高性能 GDDR6 内存接口已是大势所趋。

近日,推出业界领先 24Gb/s GDDR6 PHY 的美国半导体 IP 和芯片供应商 Rambus,其两位高管与芯东西等媒体进行线上交流,分享了 Rambus 在 GDDR6 领域的技术创新及行业发展趋势。

"ChatGPT 等 AIGC 应用与我们公司的产品组合是非常契合的。"Rambus 大中华区总经理苏雷说,Rambus China 立足于中国市场,愿意更多、更紧密地支持中国公司在 ChatGPT 产业的发展,为他们保驾护航,"Rambus 面对中国客户的需求,有最好的技术、最快的响应和最好的技术支持来服务中国市场。"

据 Rambus IP 核产品营销高级总监 Frank Ferro 分享,AI 推理应用对带宽的需求通常在 200 到 500Gb/s 的范围之间波动,每一个 GDDR6 设备的带宽都可以达到 96Gb/s,因此通过将 4-5 个 GDDR6 设备组合在一起,就能轻松满足 500Gb/s 及以下的带宽需求。

他谈道,如果用到一个 HBM3 设备,基本上会把这个带宽需求的数字翻倍,能够达到接近 800Gb/s 的带宽,而这超过了 AI 推理本身所需要的 400 到 500Gb/s 带宽,会使成本增加 3~4 倍。在这种条件下,HBM 并非一个经济高效的选择,GDDR6 则是一个更好的替代。

他建议按需选择 HBM 或是 GDDR6 内存,对于对高带宽和低延迟有很高要求的 AI 训练场景,HBM 可能是更好的选择;对于需要更大容量、更高带宽的 AI 推理场景,GDDR6 会是更合适的选择。

高性能内存和互连方案,支持下一代数据中心发展

Rambus 大中华区总经理苏雷谈道,Rambus 主要业务包含基础专利授权、芯片 IP 授权和内存接口芯片。其中芯片 IP 又主要分为接口 IP 和安全 IP。其技术和产品面向数据密集型市场,包括数据中心、5G物联网 IoT、汽车等细分市场,后续还将推出 CXL 家族各产品组合芯片。

b3cf8354-fbd7-11ed-90ce-dac502259ad0.jpg

面向数据中心,Rambus 非常注重产品和方案的易用性,通过一站式的解决方案以及完善的服务机制,使产品方案变得更易在客户端集成使用。Rambus 陆续推出了各内存子系统、接口子系统,提供业界领先、可靠的数据传输。其 GDDR6 接口子系统率先实现高达 24Gb/s 的内存接口数据速率,并能为每个 GDDR6 内存设备提供最高达到 96Gb/s 的带宽。

Rambus 的内存接口芯片产品不断提高数据中心内存模块的速度和容量,同时它拥有非常丰富而全面的安全 IP 产品线,对用于静态数据以及动态数据安全保护都有着专门安全的产品方案。

总体来说,Rambus 通过领先的高性能内存和互联解决方案以及硬件级安全,支持下一代数据中心的发展。其产品应用领域聚焦于服务器主内存、人工智能和网络加速器、智能网卡、网络存储、网络交换机以及内存扩展和池化等。

b3f79e98-fbd7-11ed-90ce-dac502259ad0.jpg

内存是未来 AI 性能的关键

Rambus IP 核产品营销高级总监 Frank Ferro 着重分享了迄今市场推动高性能需求的主要驱动力,以及未来如何更好满足 AI 性能需求。

数据需求依旧呈现上涨趋势。ChatGPT 等 AI 相关应用快速发展,对内存带宽需求旺盛,因此市面上越来越多公司开始专注于开发自己个性化、定制化的处理器产品,以更好地满足神经网络以及专属应用的需求。

Frank Ferro 强调说,尽管算力增长非常显著,但带宽的进步与之并不匹配,即现有高算力的基础之上,很多的 GPU 资源其实并没有得到充分的占用和利用,这造成了现在的困境。

AI 训练环节需要录入大量数据进行分析,需要消耗大量算力。AI 推理环节对算力的需求会大幅下降,但对成本和功耗更加敏感。Frank Ferro 谈道,一个重要趋势是 AI 推理越来越多地向边缘设备上进行集成和转移。在这个变化过程中,拥有更高带宽、更低时延特性的 GDDR6 方案,能够帮助边缘端更好地处理数据。

对带宽需求进一步的增加,驱动了像 Rambus 这样的公司不断地在去打造更加新一代的产品,不断地提高内存带宽以及接口带宽的相关速度。

GDDR6 能够提供 AI 推理所需的内存性能

Rambus 有着丰富的接口 IP 产品组合,同时也提供像 DDR、LPDDR 以及 HBM 等产品,并非常关注 SerDes 产品的开发,主要聚焦于 PCIe 和 CXL 接口,会开发配套的 PHY 及控制器。Rambus 的 HBM 产品拥有领先的市占率,同时其 HBM3 产品已经能够提供高达 8.4Gbps/s 的数据传输速率。

b43677c6-fbd7-11ed-90ce-dac502259ad0.jpg

其全新 GDDR6 PHY 及控制器的配套产品已达到业界领先的 24Gb/s 的数据传输速率,可为 AI 推理等应用场景带来巨大性能优势和收益。此外,该产品在功耗管理方面优势明显,并实现了 PHY 以及控制器的完整集成,即客户收到产品后,可以直接对其子系统进行定制化应用。

b4563b92-fbd7-11ed-90ce-dac502259ad0.jpg

如图是 GDDR6 内存接口系统,Rambus 提供的是中间标蓝的两个重要环节,也就是完整的子系统。Rambus 会根据客户具体应用场景和实际的诉求对子系统来进行优化,并将其作为完整的子系统来交付给客户。

clamshell 模式指每个信道可支持两个 GDDR6 的设备。换句话说,在 clamshell 模式之下,整个容量是直接翻倍乘以 2 的。值得一提的是,GDDR6 现已支持先进的 FinFET 工艺节点环境。

此外,Rambus 也会针对 PCB 以及封装提供相关的参考设计,同时内部有信号完整度和边缘完整性方面的专家,来帮助客户完成整个设计工作。

市面上很多 GPU 加速器都已经用到 GDDR6。由于在成本和性能之间达到不错的平衡,GDDR6 成为在 AI 应用场景下比较合理的产品和选择。而 Rambus 拥有领先的 SI/PI 专业知识,可以进行早期的协同设计和开发,确保 GDDR6 产品的性能表现,也能更好地去缩短产品的上市时间。

结语:在带宽、成本、方案复杂性之间实现平衡

随着 AI 应用趋于盛行,苏雷谈道,下游厂商首先关注高带宽,并开始关注方案的成本和复杂性,"GDDR 技术是在带宽、成本和方案复杂性的各因素之间提供了一个非常完美的折中技术方案。" 他预计到 2025 年或 2026 年市场上会出现使用 GDDR6 IP 的芯片。

进入全新的 GDDR6 时代,相关产品已开始采用 16 位的双读写通道。双读写通道加起来是 32 位的数据宽度,而 GDDR6 内存有 8 个双读写通道,总共可实现 256 位的数据传输宽度,所以能够显著提高数据传输的速度和效率,系统层效率和功耗管理也能得到进一步的优化。

除了适用于 AI 推理场景外,Frank Ferro 说,GDDR6 也会在图形领域和一些网络应用场景中起到重要作用,能够大幅降低网络边缘设备对 DDR 数量的需求。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53562

    浏览量

    459368
  • 控制器
    +关注

    关注

    114

    文章

    17650

    浏览量

    190312
  • AI
    AI
    +关注

    关注

    89

    文章

    38181

    浏览量

    296949

原文标题:【媒体报道】缓解 AI 推理算力焦虑,高带宽 GDDR6 成杀手锏?

文章出处:【微信号:Rambus 蓝铂世科技,微信公众号:Rambus 蓝铂世科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI推理的存储,看好SRAM?

    电子发烧友网报道(文/黄晶晶)近几年,生成式AI引领行业变革,AI训练率先崛起,带动带宽内存HBM一飞冲天。但我们知道AI
    的头像 发表于 03-03 08:51 2435次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存储,看好SRAM?

    积木+3D堆叠!GPNPU架构创新,应对AI推理需求

    电子发烧友网报道(文/李弯弯)2025年,人工智能正式迈入应用推理时代。大模型从实验室走向千行百业,推理需求呈指数级爆发。然而,高昂的推理成本与有限的算供给之间的矛盾日益凸显,成为制
    的头像 发表于 12-11 08:57 3554次阅读

    2025昇腾AI技术研讨会·杭州站盛大开启!小眼睛科技诚邀您共同见证AI+FPGA赋能昇腾新生态!

    ”合二为一,打造边缘实时、低功耗、算法快速迭代场景下的“杀手锏”组合,推出“训练在云端、推理在边缘、算法可热插拔”的端到端异构加速平台。近期,由华为技术有限公司&华强半
    的头像 发表于 12-11 08:03 134次阅读
    2025昇腾<b class='flag-5'>AI</b>技术研讨会·杭州站盛大开启!小眼睛科技诚邀您共同见证<b class='flag-5'>AI</b>+FPGA赋能昇腾新生态!

    抢滩AI MCU增量市场,君正新品有何杀手锏破局关键

    为何AI MCU成为君正主要发的增量市场?在边缘AI MCU赋能AI设备的需求当中,算和算法是当下芯片设计的两大挑战,北京君正如何解决这
    的头像 发表于 11-05 09:17 1.4w次阅读
    抢滩<b class='flag-5'>AI</b> MCU增量市场,君正新品有何<b class='flag-5'>杀手锏</b><b class='flag-5'>成</b>破局关键

    AI推理需求爆发!通首秀重磅产品,国产GPU的自主牌怎么打?

    10月29日,在安博会的2025智能算应用及产业发展论坛上,超聚变数字技术有限公司深圳解决方案总监丁元钊表示,原来我们预计2026年是AI推理爆发元年,2025年DeepSeek-R1,V3模型
    的头像 发表于 10-30 00:46 1.3w次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆发!<b class='flag-5'>高</b>通首秀重磅产品,国产GPU的自主牌怎么打?

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断演进和物联网应用的持续拓展,腾视科技的AI
    的头像 发表于 09-19 15:25 437次阅读
    什么是<b class='flag-5'>AI</b>算<b class='flag-5'>力</b>模组?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    建立的基础: ①算支柱②数据支柱③计算支柱 1)算AI有关的因素: ①晶体管数量②晶体管速度③芯片架构④芯片面积⑤制造工艺⑥芯片内部扩展⑦内存
    发表于 09-18 15:31

    商汤大装置跻身中国大模型推理算厂商第一梯队

    近日,IDC发布首个《2025中国大模型推理算市场分析报告》。
    的头像 发表于 08-14 09:29 4759次阅读

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

    缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,实现吞吐、低时延的推理体验,降低每Token推理
    发表于 08-13 09:45 3651次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    、资源分配的最优策略建议,减少资源浪费,提升整体网络效率。 客户实证:AI推理引擎的精准力量某大型政务云平台遭遇核心业务运行缓慢问题,初步怀疑网络带宽不足。在利用信而泰xnSight网络应用性能管理系统
    发表于 07-16 15:29

    瑞之辰传感器:从“卡脖子”到“杀手锏”的技术突围

    压力传感器的国产化替代,将这一“卡脖子”难题逐步转变为自身的技术“杀手锏”。破解“卡脖子”的技术密码当动力电池安全监测需要精度达1%FS的微型压力传感器时,当工业自动化
    的头像 发表于 07-01 17:06 1747次阅读
    瑞之辰传感器:从“卡脖子”到“<b class='flag-5'>杀手锏</b>”的技术突围

    革命:RoCE实测推理时延比InfiniBand低30%的底层逻辑

    AI 训练与推理中的网络效率瓶颈,助力数据中心在带宽、低延迟、高可靠性的需求下实现算资源的最优配置。
    的头像 发表于 05-28 14:08 1755次阅读
    算<b class='flag-5'>力</b>革命:RoCE实测<b class='flag-5'>推理</b>时延比InfiniBand低30%的底层逻辑

    RAKsmart服务器如何重塑AI并发算格局

    AI大模型参数量突破万亿级、实时推理需求激增的当下,传统服务器架构的并发处理能力已逼近物理极限。RAKsmart通过“硬件重构+软件定义”的双引擎创新,推出新一代AI服务器解决方案。下面,A
    的头像 发表于 04-03 10:37 695次阅读

    DeepSeek推动AI需求:800G光模块的关键作用

    类型和功耗选项,是数据中心向800G带宽扩展的理想选择。 市场前景广阔: 随着AI需求的不断增长,尤其是在超大规模数据中心和AI集群的建设中,对
    发表于 03-25 12:00

    国产推理服务器如何选择?深度解析选型指南与华颉科技实战案例

    人工智能技术的爆发催生了对推理算的迫切需求,而进口服务器的成本与技术依赖性,推动了国产推理服务器的快速发展。据IDC预测,到2025年,中国AI
    的头像 发表于 03-24 17:11 945次阅读
    国产<b class='flag-5'>推理</b>服务器如何选择?深度解析选型指南与华颉科技实战案例