0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是AI芯片“存储墙”的解决方案?

SSDFans 来源:yxw 2019-06-18 15:12 次阅读

最近刚刚看了唐杉博士的《AI芯片的“冷”与“热”》,第一句就是“ 参加过去年硅谷的AI Hardware Summit的朋友,普遍反映这次在北京的会议没有那么火了”。记得,自己在2016年威海参加中国体系结构年会的时候,孙所也说了一句调侃的话:“现在的AI很火,大家都往那边去,没有人太关心体系结构了,我要告诉那些追AI热点的,它都死了三回了!” 的确,作为从小学马列的中国人,我们最熟悉螺旋式上升的概念。对于计算和I/O来讲,和中国经济调控一样,都是“ 水多了加面,面多了加水”螺旋式上升。

Google在2017年发布了TPU V1之后,现在已经有越来越多的AI startup的芯片出现,大家基本上都是用标准的Resnet50,Googlenetv3 等网络为benchmark, 一次一次地刷新性能和功耗比,个人觉得很有可能在一天,AI芯片的性能和功耗比在特定的imagenet的任务上超过人脑,现在AI在准确率和性能上都超过了。对于AI的芯片来讲,有一个指标也是大家讨论比较多的。Roofline model

Y轴是P,代表算力,用来FLOP/s来表示,现在新出的AI ASIC往往在FLOP/s并不发力,因为从功耗比的角度上,算力肯定不是越高越好,而且大家都很难高过老黄的核弹。

代表了一个特定的计算平台的peak performance,就是最大算力。

就是特定的计算平台的I内存/O带宽,这个和该计算平台使用的DDR类型有关。

X轴是I,代表计算强度,就是在一个Byte上的计算量。因为对于一个特定的平台,我可以知道它的最大算力和带宽,我们就可以知道它的最大的计算强度。

因此,和图上显示的一样,在点(Imax,),这个计算平台达到了完美。在它的左边,说明memory受限,在它的右边说明计算受限。

因为对于每一次访存都是32位的Float Point,因此整个内存的占用就是 260MB左右,而计算量是724MFLOPs,因此Alexnet的计算强度就是724/260=2.7 operation/byte。

对于一个特定的平台,比如老黄家的新的GTX2080Ti 系列来讲:

对于计算性能,先不管老黄加各种Tensor Core,RTcore,从CUDA Core本身来讲,他是100TLOP/s,

它的内存带宽如下:

因此,作为2080Ti, 它的Imax就是166Operation/Byte.

可能到这个,就可以看出,对于Alex的2.7 来讲,远远没有达到2080ti的计算强度,主要是受限于内存带宽了。

在Google的TPU中,有一个图经常被大家引用。

大家基本上可以看到,google的Imax差不多在1000左右,基本上没有什么网络可以完全用满TPU的peak performance。

怎么办,内存带宽的解决方案就是HBM,HBM2, HBM3不断加大带宽。记得在2017年的CNCC上,谢源教授讲,他在2010年左右提出了HBM的概念,他很快就看到了AMD,Nvidia以及Xilinx和Intel都在芯片上使用了HBM,证明了这条道路的正确性。他认为目前应该在AI芯片上摆脱这种”水多了加面,面多了加水“,in-memory 计算应该是下一个方向。

这个就引出了在Memory+会议上来自平头哥的段立德博士的topic,”Processing Near or In memory for deep learning".

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    447

    文章

    47838

    浏览量

    409384
  • 存储
    +关注

    关注

    12

    文章

    3863

    浏览量

    84691
  • AI
    AI
    +关注

    关注

    87

    文章

    26485

    浏览量

    264130
收藏 人收藏

    评论

    相关推荐

    risc-v多核芯片AI方面的应用

    应用中的成本。 最后,RISC-V多核芯片不仅可以应用于AI边缘计算领域,还可以扩展到其他领域,如数据中心、云计算、自动驾驶、机器人等,为这些领域提供高效、灵活和安全的解决方案。 总的来说,RISC-V
    发表于 04-28 09:20

    得一微电子:AI时代重新定义存储主控芯片

    布局,其PCIe Gen4 YS9303主控新品蓄势待发。作为国内领先的存储控制芯片解决方案提供商,得一微正积极拥抱生成式AI带来的智能终端设备的创新浪潮。  
    的头像 发表于 03-29 00:15 2527次阅读
    得一微电子:<b class='flag-5'>AI</b>时代重新定义<b class='flag-5'>存储</b>主控<b class='flag-5'>芯片</b>

    Supermicro推出适用于AI存储的机柜级全方位解决方案 加速高性能AI训练和推理的数据存取

    【2024年2月1日,美国圣何塞讯】Supermicro, Inc.(纳斯达克股票代码:SMCI)作为AI、云端、存储和5G/边缘领域的全方位IT解决方案制造商,推出适用于人工智能(AI
    的头像 发表于 02-01 17:56 348次阅读

    AMD以技术赋能生成式AI算力解决方案

    如今,AI是一个非常热门的话题,人工智能也是AMD未来发展的重中之重,AMD正把AI贯穿所有产品线,从数据中心的大规模训练与推理解决方案,到面向消费者的PC及游戏体验,到嵌入式智能终端。针对
    的头像 发表于 12-12 11:24 525次阅读

    Art.Galaxy酷芯AI工具链解决方案

    Art. Galaxy 是酷芯微电子为 AR 系列视觉 AI SoC 打造的 AI 解决方案,它包含运行在 ARM Cortex-A 系列处理器、CEVA DSP、NPU 等多个硬件处理单元
    的头像 发表于 12-05 11:23 297次阅读
    Art.Galaxy酷芯<b class='flag-5'>AI</b>工具链<b class='flag-5'>解决方案</b>

    中科曙光推出AI大模型存储解决方案

    11月29日,“数智创新 AI未来”2023中国数据与存储峰会在北京举办。曙光存储受邀发表主题演讲,详述面向AI大模型的数据存储
    的头像 发表于 11-30 10:58 394次阅读

    存储芯片减产,AI芯片暴增!

    、去库存,但市场行情是否筑底众说纷纭,整体产业回暖的迹象亦不明显。 然而,在生成式AI对算力需求的带动下,2023年初以来高带宽内存(HBM)在整个存储芯片产业中可谓“这边风景独好”。目前,三星、SK海力士、美光等存储芯片大厂均
    的头像 发表于 09-08 10:36 492次阅读

    Brocade存储扩展解决方案常见问题

    电子发烧友网站提供《Brocade存储扩展解决方案常见问题.pdf》资料免费下载
    发表于 08-29 11:22 0次下载
    Brocade<b class='flag-5'>存储</b>扩展<b class='flag-5'>解决方案</b>常见问题

    存储网络业务连续性解决方案

    电子发烧友网站提供《存储网络业务连续性解决方案.pdf》资料免费下载
    发表于 08-28 10:06 0次下载
    <b class='flag-5'>存储</b>网络业务连续性<b class='flag-5'>解决方案</b>

    存储解决方案选型指南

    电子发烧友网站提供《存储解决方案选型指南.pdf》资料免费下载
    发表于 08-23 14:28 0次下载
    <b class='flag-5'>存储</b><b class='flag-5'>解决方案</b>选型指南

    ai芯片存储芯片的区别

    ai芯片存储芯片的区别 人工智能(AI)技术在当今的数字时代中扮演着重要角色,而AI芯片
    的头像 发表于 08-09 11:38 2501次阅读

    智慧有数 浪潮信息发布生成式AI存储解决方案

    与管理瓶颈,浪潮信息在"数智未来"AIGC数据应用创新论坛上,正式发布面向生成式AI存储解决方案,该方案以极致融合、极致性能、极致节能,和热温冷冰四级数据全生命周期管理,助力开启生成
    的头像 发表于 07-11 09:46 262次阅读

    智慧有数,浪潮信息发布生成式AI存储解决方案

    与管理瓶颈,7月6日,浪潮信息在“数智未来”AIGC数据应用创新论坛上,正式发布面向生成式AI存储解决方案,该方案以极致融合、极致性能、极致节能,和热温冷冰四级数据全生命周期管理,助
    的头像 发表于 07-07 20:45 273次阅读

    【前沿技术】全栈式AI驱动型EDA解决方案Synopsys.ai

    来源:《半导体芯科技》杂志 新思科技隆重推出业界首款全栈式AI驱动型EDA解决方案Synopsys.ai,覆盖了先进数字与模拟芯片的设计、验证、测试和制造环节。基于此,开发者第一次能够
    的头像 发表于 06-02 17:35 401次阅读

    虹科方案 | 视频和广播专业人士的存储和存档解决方案

    2023虹科方案视频和广播专业人士的存储和存档解决方案视频制作数据存储数据归档虹科HK&Overland-Tandberg为所有视频和广播工作流阶段提供全面的数字媒体
    的头像 发表于 05-11 10:34 351次阅读
    虹科<b class='flag-5'>方案</b> | 视频和广播专业人士的<b class='flag-5'>存储</b>和存档<b class='flag-5'>解决方案</b>