0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

不只是GPU,内存厂商们的AI野望

E4Life 来源:电子发烧友网 作者:周凯扬 2023-09-01 00:18 次阅读

电子发烧友网报道(文/周凯扬)在诸多云服务厂商或互联网厂商一头扎进GPU的疯抢潮后,不少公司也发现了限制AI大模型性能或是成本消耗的除了GPU以外,还有内存。内存墙作为横亘在AI计算和HPC更进一步的阻碍之一,在计算量井喷的今天,已经变得愈发难以忽视。所以,在今年的HotChips大会上,内存厂商们也竞相展示自己的内存技术在AI计算上的优势。

三星

三星作为最早一批开始跟进存内计算的公司,早在两年前的HotChips33上,就展示了HBM2-PIM的技术Aquabolt-XL。三星在去年底展示了用PIM内存和96个AMD Instinct MI100 GPU组建的大规模计算系统,并宣称这一配置将AI训练的速度提高了近2.5倍。

而今年的HotChips上,三星也着重点明了PIM和PNM技术在生成式AI这类热门应用上的优势。三星认为在ChatGPT、GPT-3之类的应用中,主要瓶颈出现在生成阶段的线性层上,这是因为GPU受到了内存限制且整个过程是线性顺序进行的。

在三星对GPT的分析中,其主要由概括和生成两大负载组成,其中概括考验的是计算单元的性能,而生成则考验的是内存的性能。而生成占据了绝大多数的运算次数和耗时,其中占据了60%到80%延迟的GEMV(矩阵向量操作)也就成了三星试图用PIM和PNM攻克的目标。

根据三星的说法,像GPT这类Transformer架构的模型,都可以将多头注意力(MHA)和前馈神经网络(FFN)完全交给PIM或PNM,完全利用他们的所有带宽,从而减少在推理上所花费的时间和能耗。三星也在单个AMD MI100-PIM的GPU上进行了试验,得出运行GPT模型时,在HBM-PIM的辅助下,能效是GPU搭配传统HBM的两倍,性能同样提升至两倍以上。

wKgZomTwaRqAN2Y0AAEQ1l7kLeE723.jpg
LPDDR-PIM概念 / 三星

除了HBM-PIM外,这次三星还展示了最新的LPPDR-PIM概念。除了云端生成式AI需要存内计算的辅助外,诸如智能手机这样的端侧生成式AI概念也被炒起来,所以LPPDR-PIM这样的存内计算技术,可以进一步保证续航的同时,也不会出现为了带宽内存使用超量的情况。

SK海力士

另一大韩国内存巨头SK海力士也没有闲着,在本次HotChips大会上,他们展示了自己的AiM存内加速器方案。相较三星而言,他们为生成式AI的推理负载准备的是基于GDDR6的存内计算方案。

GDDR6-AiM采用了1y的制造工艺,具备512GB/s内部带宽的同时,也具备32GB/s的外部带宽。且GDDR6-AiM具备频率高达1GHz的处理单元,算力可达512GFLOPS。GDDR6-AiM的出现,为存内进行GEMV计算提供了端到端的加速方案,比如乘法累加和激活函数等操作都可以在内存bank内同时进行,单条指令实现全bank操作提供更高的计算效率。

同时,SK海力士也已经考虑到了AiM的扩展性问题,比如单个AiM卡中集成了8个AiM封装,也就是8GB的容量和256个处理单元。但这类扩展方案最大的问题还是在软件映射、硬件架构和接口上,这也是绝大多数集成存内计算的新式内存面临的问题。

wKgaomTwaSaAfbrEAAGKrRvOuwQ093.jpg
AiM系统扩展性验证Demo / SK海力士


而SK海力士已经给出了这方面的解决方案,比如专门针对AiM的Tiling、基于AiM架构的控制器、路由和ALU等等。他们还展示了在两个FPGA上结合GDDR6-AiM的Demo,以及用于LLM推理的软件栈。与此同时,他们也还在探索AiM的下一代设计,比如如何实现更高的内存容量,用于应对更加庞大的模型。

写在最后

无论是三星还是SK海力士都已经在存内计算领域耕耘多年,此次AI热来势汹汹,也令他们研发速度进一步提快。毕竟如今能够解决大模型训练与推理的耗时与TCO的硬件持续大卖,如果存内计算产品商业化量产落地进展顺利,且确实能为AI计算带来助力的话,很可能会小幅提振如今略微萎缩的内存市场。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4418

    浏览量

    126705
收藏 人收藏

    评论

    相关推荐

    超越中韩?日本押注全固态电池:不只是能量密度翻倍

    的翻盘技术都是全固态电池(ASSB)。 目前,日本汽车产业链在电池技术方面仅有松下一家是全球前十大动力电池厂商,并且只是排在第四位。在动力电池领域,中企主攻、日韩防守的局势已经成为过去,现在国产动力电池厂商宁德时代和
    的头像 发表于 10-31 00:47 2097次阅读

    新型的FPGA器件将支持多样化AI/ML创新进程

    作者:郭道正 职务:Achronix半导体中国区总经理 近日举办的GTC大会把人工智能/机器学习(AI/ML)领域中的算力比拼又带到了一个新的高度,这不只是说明了通用图形处理器(GPGPU)时代
    的头像 发表于 04-02 15:25 142次阅读
    新型的FPGA器件将支持多样化<b class='flag-5'>AI</b>/ML创新进程

    国产GPUAI大模型领域的应用案例一览

    电子发烧友网报道(文/李弯弯)近一年多时间,随着大模型的发展,GPUAI领域的重要性再次凸显。虽然相比英伟达等国际大厂,国产GPU起步较晚、声势较小。不过近几年,国内不少GPU
    的头像 发表于 04-01 09:28 2429次阅读
    国产<b class='flag-5'>GPU</b>在<b class='flag-5'>AI</b>大模型领域的应用案例一览

    Achronix新推出一款用于AI/ML计算或者大模型的B200芯片

    近日举办的GTC大会把人工智能/机器学习(AI/ML)领域中的算力比拼又带到了一个新的高度,这不只是说明了通用图形处理器(GPGPU)时代的来临
    的头像 发表于 03-28 15:48 297次阅读
    Achronix新推出一款用于<b class='flag-5'>AI</b>/ML计算或者大模型的B200芯片

    GPU交期缓解,AI服务器厂商营收暴涨

    电子发烧友网报道(文/周凯扬)AIGC在应用软件掀起的这股热潮背后,却隐藏着AI服务器组件缺货的难题。在云服务厂商和互联网厂商大肆采购AI GPU
    的头像 发表于 02-20 00:17 2268次阅读
    <b class='flag-5'>GPU</b>交期缓解,<b class='flag-5'>AI</b>服务器<b class='flag-5'>厂商</b>营收暴涨

    电容搞搞”振“,PDN有帮衬

    起起伏伏的不只是人生,还有PDN阻抗……
    的头像 发表于 12-14 14:57 237次阅读
    电容搞搞”振“,PDN有帮衬

    车规级 UWB,不只是作为智能门禁

    电子发烧友网报道(文/周凯扬)得益于比 Wi-Fi 和 RFID 更精准的定位特性,UWB过去被视为无线传感器网络中最优的定位技术。但随着蓝牙、Wi-Fi 等替代产品在成本和性能上带来激烈的竞争,UWB 仍在消费市场尤其是移动设备市场寻找出路。然而在汽车市场,UWB 反而有了进入爆发期的迹象,诸如宝马、奥迪、蔚来、小鹏等品牌都开始引入 UWB 智能车钥匙,然而UWB 在汽车上却不仅仅只有智能车钥匙这一个应用场景。   NXP   作为车规级 UWB 芯片的先驱
    的头像 发表于 12-11 01:11 2757次阅读

    魅族21——不只是“魅族白”,更是“白月光”

    12月5日上午10点,魅族正式开售魅族21,首销一秒破亿。其白色面板的设计不无功劳。魅族将这种纯净的白色命名为“魅族白”,这一命名不仅体现了魅族对于白色面板手机的重视和传承,更赋予了这款手机独特的艺术气质和个性化魅力。 “魅族白”的设计理念源于对简约美学的追求。魅族21采用了全新的Aicy 灵动环设计和1.74mm真·四边等窄设计,使得这款手机在视觉效果上更加出色。纯净的白色面板与金属机身的完美结合,让整个手机看起来犹如一件艺术品,给人
    的头像 发表于 12-08 10:37 218次阅读

    ASIC和GPU,谁才是AI计算的最优解?

    电子发烧友网报道(文/周凯扬)随着AI计算开始有着风头盖过通用计算开始,不少芯片厂商都将其视为下一轮技术革新。CPU、GPU、FPGA和ASIC纷纷投入到这轮AI革命中来,但斩获的战果
    的头像 发表于 12-03 08:31 1436次阅读
    ASIC和<b class='flag-5'>GPU</b>,谁才是<b class='flag-5'>AI</b>计算的最优解?

    AIGPU席卷至MCU,内存的重要性与算力等同

    针对AI进行优化的内存。   高性能AI芯片需要超高带宽内存   无论是英伟达最新的服务器GPU,还是一众初创公司推出的
    的头像 发表于 11-29 01:04 1383次阅读
    <b class='flag-5'>AI</b>从<b class='flag-5'>GPU</b>席卷至MCU,<b class='flag-5'>内存</b>的重要性与算力等同

    CPU、GPU内存知识科普

    本文内容包括CPU、内存GPU知识,本期重点更新GPU和CPU部分知识。比如:GPU更新包括架构演进,最新产品A100、选型策略、架构分析、散热和规格分类等。
    的头像 发表于 11-13 11:47 889次阅读
    CPU、<b class='flag-5'>GPU</b>和<b class='flag-5'>内存</b>知识科普

    02 7.点亮的不只是LED - 第3节

    嵌入式数据函数代码
    充八万
    发布于 :2023年08月30日 17:37:58

    02 7.点亮的不只是LED - 第2节 #硬声创作季

    嵌入式数据函数代码
    充八万
    发布于 :2023年08月30日 17:37:08

    02 7.点亮的不只是LED - 第1节 #硬声创作季

    嵌入式数据函数代码
    充八万
    发布于 :2023年08月30日 17:36:18

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练,AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70
    发表于 08-04 07:25