0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

被带宽限制的AI性能,怎么样才能让人工智能提供更好的性能?

工程师邓生 来源:雷锋网 作者: 吴优 2020-12-16 15:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在目前广泛应用于AI的内存方案中,包括片上存储、HBM和GDDR。

作者 | 吴优

人工智能经过几十年的发展,在数据爆炸时代正处于良性循环,大量的数据用于制造和训练神经网络,而后利用神经网络筛选并理解这些数据。

不过,我们仍然对于更好的人工智能有巨大需求,据Open AI的一份报告显示,从2012到2019年,人工智能训练集增长将近30万倍,每3.43个月翻一番,比摩尔定律快25000倍,在摩尔定律将近失效的今天,那么怎么样才能让人工智能提供更好的性能?

内存带宽限制人工智能模型本身

早在两年前,业内就有人提出,在计算能力和数据量足够的年代里,内存带宽才是人工智能发展的瓶颈。

德克萨斯高级计算中心(TACC)研究科学家曾在其2016年的报告《HPC系统中的内存带宽和系统平衡》中比较过去25年某些HPC服务器的浮点计算情况,结果显示内存、网络延迟和带宽大幅度落后于处理器性能,其中内存带宽大约每十年落后浮点计算4.5倍。

“一个非常有趣的现象是,内存对人工智能的限制一部分体现在人工智能模型本身,以及用来训练这些模型的数据量规模急剧增长。”Rambus 大中华区总经理苏雷在Rambus 2020中国设计峰会上说到。

根据苏雷的介绍,这种限制在人工智能传统训练模型和并行训练模型上均有体现。

传统神经网络训练通常只使用一个AI/ML引擎,即将神经网络模型和训练数据全都嵌入一颗芯片中,训练的数据在芯片中迭代循环,通过不断更新模型实现对数据的分类、识别和处理,这一场景下其性能直接取决于计算引擎和缓存速度、内存带宽。

为提高数据训练时间,具体多个AI/ML引擎的神经网络得以出现,这种方法是神经网络模型的完整副本同时嵌入多个芯片中,神经网络模型所需的训练工作量被均分到每一颗芯片中,多个芯片引擎并行处理训练集,进而提高训练时间。

并行方案的每一个训练步骤可分为两个阶段,每个阶段受到的带宽限制不尽相同。

在第一阶段,每个训练的并行引擎将通过它们的训练结果更新其模型副本,因此并行训练的每个芯片在运行完每一次训练迭代后,都会有不同的训练更新,因此这一阶段数据传输到芯片的速度直接取决于内存带宽的大小。

在第二阶段,即规约阶段(Reduction),需要每个引擎与所有其它引擎交互更新信息,让芯片彼此了解其它芯片的更新并接受来着其他芯片的更新,得以更新自己的模型,恢复模型间的同步,再次拥有相同的模型副本。显然,这一阶段的性能主要取决于芯片间链路带宽的限制。

HBM 2和GDDR 6,更多的内存选择

“为缩小内存带宽和高性能浮点计算之间的差距等问题,我们有新的系统架构和面向特定领域的硅,或者将更多的数据直接放在芯片上,以获得更高的带宽,更好的功率和更低的延迟,但是数据总是越来越大,需要更多的内存,所以依然需要在片外存储器和链路性能上取得突破。”Raymond Su表示。

在目前广泛应用于AI的内存方案中,片上存储(On-Chip Memory)就是Raymond Su所言的拥有最高带宽和功率效率但容量有限的方案,其他两种方案分别是HBM和GDDR,即DRAM解决方案。

HBM是一种基于3D堆栈工艺的高性能DRAM。第一代HBM诞生于2013年,最新一代HBM标准已经演进到HBM2E,能够支持12个DRAM的堆栈,内存容量高达每堆栈24GB,当传输速率达到每管脚3.6Gbps时,HBM2E可以实现每堆栈461GB/s的内存带宽。

由于HBM2E堆栈需要通过高达1700多条数据“线”的接口连接到相关处理器,远远超过标准PCB能够支持的范围,因此使用硅中介层作为连接内存堆栈和处理器的中介,在硅中介层中完成精细的数据走线,获得HBM接口所需数量的数据线数。

HBM2E通过堆叠技术实现高带宽和高容量,但由于硅中介层的使用,成本偏高。

GDDR是双倍数据传输率存储器,采用传统的方法将标准PCB和测试的DRAMs与SoC连接在一起,具有较高的带宽和较好的能耗效率,其缺点在于更难保证信号完整性和电源完整性。

比较256GB/s下HBM2和GDDR6,HBM2E的接口宽而慢,GDDR6的接口窄而快。HBM2占有面积优势和能耗优势,但GDDR6具有成本和方案工程上的实现优势。

HBM2与GDDR6内存解决方案的高带宽已经显而易见,不过想要真正落实到实现高性能人工智能的应用上,还需要IP供应商的支持,在HBM2和GDDR6内存解决方案的IP供应中,Rambus就扮演重要角色。

根据Rambus资深应用工程师曹汪洋在Rambus 2020中国设计峰会上的介绍,Rambus的HMB2E接口解决方案(PHY和控制器)专为AI/ML、HPC的高性能和低延迟而设计。Rambus HBM Gen2 PHY 完全符合JEDEC HBM2E标准,支持每个数据引脚高达3.6Gbps 的数据速率,总带宽因此达到461 GB/s。该接口具有8个独立信道,每个信道包含128位,总数据宽度为 1024 位,支持2、4、8 或 12个DRAM的堆栈高度。

Rambus GDDR6 PHY每个引脚的速度高达16 Gbps,可用于TSMC 7nm工艺,GDDR6接口支持2个信道,每个信道有16位,总数据宽度为32位。另外,Rambus GDDR6 PHY 每个引脚的速度高达16 Gbps,最高可提供 64 GB/s 的带宽。

在Rambus 2020中国设计峰会的交流环节,苏雷向雷锋网表示: “Rambus 是全球HBM IP技术的引领者,且在市场份额上排名第一,全球范围内拥有50多个成功案例,Rambus最新的Rambus HBM2E的方案可以实现全球最高的4Gpbs速率,GDDR6方案可以实现18Gbps速率,位于业界顶尖水平,这能够帮助客户的方案设计提供足够裕量空间,保证整个系统的稳定性,目前燧原已将选择了Rambus作为其下一代AI训练芯片的合作伙伴。”

高带宽之后,信号完整性也是挑战

在上述文章中提到,HBM和GDDR是可以为AI/ML提供高带宽,其中速率更高的GDDR6面临着信号完整性和电源完整性的挑战。

据雷锋网了解,信道中不同类型的损耗是影响信号完整性的主要因素,具体又可以分为插入损耗、反射和串扰,插入损耗产于介电损耗或金属电阻表面粗糙程度,主要通过较好的PCB和封装设计来控制。信号反射源于阻抗,最终会导致眼图闭合和信号丢失。串扰由于两个信号之间的电容和电感耦合引起的,由于从信号中消除串扰的电路很复杂,因此串扰是GDDR6 DRAM信号完整性最具挑战性的问题。

针对信号完整性问题,苏雷表示:“ 要确保信号的完整性,就需要从发送端到接收端进行的完整系统建模,需要采用协同设计的方案。Rambus 的GDDR6 PHY解决方案可以稳定在18Gbps并确保传输眼图清晰,走在业界最前列。在高速的传输下,还需要对电路板上的封装设计进行建模,使用比如DFE和反转等技术,可以提高性能让眼图更好的打开 。”

当然除了信号完整性和电源完成性,DRAM数据速率的增长还导致更多其他的问题,“我们需要做的还是兼顾能耗的制约,不断找寻和提升内存带宽的方法,为AI/ML更高的性能。”苏雷说道。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 带宽
    +关注

    关注

    3

    文章

    1058

    浏览量

    43690
  • AI
    AI
    +关注

    关注

    91

    文章

    42158

    浏览量

    303143
  • 人工智能
    +关注

    关注

    1821

    文章

    50542

    浏览量

    267870
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI Ceph 分布式存储教程资料大模型学习资料2026

    的系统工程。通过深度剖析 AI 分布式存储的实战技术,我们构建了一条通往 AGI(通用人工智能)的高速数据公路。在这场科技竞赛中,只有掌握了高性能存储这一关键基建,才能让算力引擎全速运
    发表于 05-01 17:35

    嵌入式人工智能课程(华清远见)

    嵌入式 AI 编译器优化:华清远见课程,解锁极致端侧性能 随着人工智能从云端全面向边缘侧和终端侧下沉,“万物智联”的时代已经悄然到来。然而,在这股浪潮背后,隐藏着一个巨大的技术鸿沟:在算力受限
    发表于 04-16 18:47

    双脉冲测试:差分探头带宽限制按键,该开还是该关?

    才能让测试数据更精准,避免误判。 先给大家一个直观结论:普通场景、干扰大,或者只需要基础参数,就打开带宽限制;测试高频高速器件,或者要精准分析波形细节,就果断关闭。 下面结合实际测试场景,和大家说清楚背后的
    的头像 发表于 03-03 08:58 230次阅读
    双脉冲测试:差分探头<b class='flag-5'>带宽限制</b>按键,该开还是该关?

    浅谈人工智能(2)

    接前文《浅谈人工智能(1)》。 (5)什么是弱人工智能、强人工智能以及超人工智能? 弱人工智能(Weak
    的头像 发表于 02-22 08:24 452次阅读
    浅谈<b class='flag-5'>人工智能</b>(2)

    傲琪人工合成石墨片: 破解智能手机散热困境的创新解决方案

    近年来,智能手机行业面临着一个日益严峻的挑战:设备性能不断提升,但散热技术却跟不上处理器功率增长的步伐。消费者对轻薄机身的追求,更加限制了传统散热方案的应用空间。 某主流手机厂商的最新旗舰机型研发
    发表于 09-13 14:06

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    应用。 为什么选择 Neuton 作为开发人员,在产品中使用边缘人工智能的两个最大障碍是: ML 模型对于您所选微控制器的内存来说太大。 创建自定义 ML 模型本质上是一个手动过程,需要高度的数据科学知识才能
    发表于 08-31 20:54

    AI 芯片浪潮下,职场晋升新契机?

    单元)、FPGA(现场可编程门阵列)、ASIC(专用集成电路)以及神经拟态芯片等几大类。在职称评审体系中,这些细分领域对应着不同的专业方向。以东莞市工程系列人工智能专业职称评审为例,其人工智能硬件专业
    发表于 08-19 08:58

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:23

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(NLP)、深度
    发表于 07-16 15:29

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能
    发表于 07-14 11:23

    AI芯片:加速人工智能计算的专用硬件引擎

    人工智能AI)的快速发展离不开高性能计算硬件的支持,而传统CPU由于架构限制,难以高效处理AI任务中的大规模并行计算需求。因此,专为
    的头像 发表于 07-09 15:59 2099次阅读

    CES Asia 2025蓄势待发,聚焦低空经济与AI,引领未来产业新变革

    医学影像和数据,为医生提供诊断参考,提高医疗服务的质量和效率。 为了更好地推动低空经济与人工智能的发展,CES Asia 2025 特别打造了两大核心主题论坛集群。全球顶尖专家、学者将在论坛上
    发表于 07-09 10:29

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10