0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT模型推动存储厂商加速PIM进程

lPCU_elecfans 来源:电子发烧友网 2023-04-10 10:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

存内计算这个概念从被提出开始,就选定了AI作为主要应用领域,但苦于当时的需求并不算高,技术也还在完善成熟中,我们更多是在一些学术论坛和行业会议上见到存储厂商和AI芯片厂商对其高谈阔论。

可谁知道2023年我们迎来了消费级存储市场的萎靡,却又在ChatGPT的应援之下带火了高带宽内存。这不,三星、SK海力士等厂商纷纷迎来了HBM订单和单价的疯涨,也使得他们打算加速推进PIM的开发进度。

SK海力士的AiM方案

SK海力士在近期提出了他们的首个PIM方案,AiM。AiM是一个基于GDDR6的存内计算方案,专门为了加速内存负载密集的机器学习应用而设计。而GDDR6作为当下GPU产品的主要显存形式之一,提供了足够的带宽,但并没有提供额外的计算能力,更别说卸载CPU、GPU的运算任务了。

fe404ae4-d72a-11ed-bfe3-dac502259ad0.png

AiM存内加速器方案 / SK海力士

而在机器学习应用中,SK海力士的AiM方案可以卸载96%的计算任务,交由DRAM的存内计算单元来完成,实现了超高的内存bank并行度,显著减少了CPU与内存之间的数据移动,而且相比HBM,GDDR6明显是一个成本更低的方案。

正是因为有了这些优势,AiM可以说是专为GPT类应用打造的,SK海力士也给出了在GPT模型下的性能评估。对于GPT-2和GPT-3乃至现在的GPT-4来说,都属于内存负载密集型的应用,所以也更容易遇到内存墙的问题。

SK海力士AiM的另一大优势在于他们已经实现了全套软件栈,包括设备驱动、runtime库、框架和应用等,也支持AiM软件仿真器,支持用户自行开发AI应用,而无需硬件评估板。

三星的PIM进程

其实其他厂商也早有在PIM上布局,尤其是三星。早在2021年初推出HBM2E后,三星就已经开始规划如何充分利用这些高带宽内存的性能,其中之一就是PIM。与SK海力士不同的是,三星打造的首个PIM为HBM-PIM,在内存核心中了集成了名为可编程计算单元的AI引擎,用于处理一部分的逻辑功能。

同年的HotChips大会上,三星展示了将其HBM-PIM集成到Xilinx的Alveo AI加速器系统中。根据三星提供的数据,该方案提供了2.5倍的系统性能提升,同时将功耗降低了60%。从三星半导体的PIM技术展示也来看,他们也计划将这一技术应用到GDDR和LPDDR中,不过这几年间的主要技术公开展示都集中在HBM-PIM上。

除了这种将PIM集成到商用AI加速器的方案以外,三星也同时推出了直接将PIM集成到DRAM模块中的方案AXDIMM,通过直接在DRAM模块中对多组内存芯片进行并行运算,减少了CPU和DRAM之间的大量数据移动。

三星称在基于AI的推荐应用中,AXDIMM可以使得整体系统能效提高40%,不过对于GPT这种生成式AI类的应用能够带来多少提升我们就不得而知了,毕竟三星的PIM方案推出时大部分AI应用还停留在图片分类、文字翻译和语音识别上。

小结

从这些PIM产品的布局来看,集成式的方案或许对AI加速器厂商来说更有吸引力,不管这些计算单元是CPU、GPU、FPGA还是ASIC芯片。但无论是三星还是SK海力士,这些方案落地到产品上都需要一定的时间,所以我们可能得等到下一代产品中,才能看到存内计算的存在。

但不得不说,对于已有布局存内计算的存储厂商来说,这无疑是一大利好。过去这种和负责计算的逻辑芯片抢活干的设计无疑是自砸招牌,但现在看来却已经成了一种趋势,这类存储厂商对于市场波动的抵抗力也会更强一些。只不过目前看来这类PIM技术目前还是优先针对功耗相对较高的内存,未来要想在移动市场有所成就,还得看这些存储厂商后续会推出怎样的LPDDR-PIM方案。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3874

    浏览量

    52341
  • pim
    pim
    +关注

    关注

    0

    文章

    77

    浏览量

    21505
  • GPT
    GPT
    +关注

    关注

    0

    文章

    376

    浏览量

    17018

原文标题:GPT模型推动存储厂商加速PIM进程

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    存储芯片厂商上市热潮来了!

    电子发烧友网报道(文/黄晶晶)2025年下半年,存储芯片、封测等产业链企业的上市进程明显加速。不仅有跨界、还有行业巨头IPO,以及存储厂商
    的头像 发表于 10-27 09:07 7701次阅读
    <b class='flag-5'>存储</b>芯片<b class='flag-5'>厂商</b>上市热潮来了!

    GPT-5震撼发布:AI领域的重大飞跃

    跃升重新定义了人工智能的能力边界。OpenAI首席执行官山姆·奥特曼在发布会上直言:“这不仅是模型的升级,更是通往通用人工智能(AGI)的关键里程碑。”     GPT-5:集成模型,能力跃升  
    的头像 发表于 08-09 07:44 1w次阅读
    <b class='flag-5'>GPT</b>-5震撼发布:AI领域的重大飞跃

    EB GPT PIT1跑飞的原因?如何解决?

    您好,我使用的是K314 172PIN的芯片,目前在基于EB做GPT的PIT中断,我最初使用的是6.0.0最初版本的RTD,使用官方的demo工程是使用的PIT0,通过EB生成代码,在使用官方
    发表于 05-09 12:16

    AI Ceph 分布式存储教程资料大模型学习资料2026

    在人工智能的浪潮中,算力、算法与数据被誉为三驾马车。然而,随着大模型(LLM)参数量突破万亿级别,数据集规模膨胀至 PB 乃至 EB 级别,传统的存储架构已难以支撑这场算力竞赛的“粮草”需求
    发表于 05-01 17:35

    请教RTD GPT 配置问题

    ) RTD版本如下图: 我在我的项目中包含一个 GPT。我希望它从 0 到 5000 计数并重新开始。我面临的问题是似乎没有办法配置这个上限。这是一个 16 位计数器,SDK 配置器似乎不喜欢
    发表于 04-15 08:32

    东风汽车旗下多个品牌加速推进国际化进程

    东风“出海”加速中!近日,东风汽车在全球市场持续发力,旗下多个品牌接连出海,以多元产品矩阵和差异化战略,加速推进国际化进程
    的头像 发表于 04-08 15:18 535次阅读

    飞凌嵌入式ElfBoard-进程的相关信息之父进程和子进程

    个变量pid,用于存储当前进程进程ID。pid_t ppid;定义一个变量ppid,用于存储进程
    发表于 03-12 17:12

    上海交大发布国产光学大模型Optics GPT

    电子发烧友网综合报道 1月25日,上海交通大学正式推出光学领域垂直大语言模型——Optics GPT(光学大模型),这是一款完全自主研发的国产模型。该
    的头像 发表于 01-26 09:59 2332次阅读
    上海交大发布国产光学大<b class='flag-5'>模型</b>Optics <b class='flag-5'>GPT</b>

    进程通信

    进程通信是指进程之间的信息交换。PV操作是低级通信方式,髙级通信方式是指以较高的效率传输大量数据的通信方式。高级通信方法主要有以下三个类。   共享存储   在通信的进程之间
    发表于 01-15 06:16

    GPT-5.1发布 OpenAI开始拼情商

    OpenAI正式上线了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有网友实测发现OpenAI新发布的GPT-5.1大
    的头像 发表于 11-13 15:49 893次阅读

    NVIDIA 利用全新开源模型与仿真库加速机器人研发进程

    。   借助全新的 NVIDIA Cosmos 世界基础模型,开发者可以生成多样化数据,从而大规模加速物理 AI 模型的训练。   来自斯 坦福大学、苏黎世
    的头像 发表于 09-30 09:52 3272次阅读
    NVIDIA 利用全新开源<b class='flag-5'>模型</b>与仿真库<b class='flag-5'>加速</b>机器人研发<b class='flag-5'>进程</b>

    NVMe高速传输之摆脱XDMA设计30: NVMe 设备模型设计

    为 NVMe 设备模型配置空间类,在类中提供读写功能函数方便调用。 NVMe 设备模型的工作通过 TLP 接收进程、 Admin 提交队列进程、 Admin 完成队列
    发表于 09-29 09:31

    成都汇阳投资关于大模型白热化,应用加速分化

           大模型加速多模态研发 ,闭源模型逐步逆袭开源 多模态技术路线尚未收敛 , 国内外大模型厂商持续刷新 SOAT。 图片领域
    的头像 发表于 09-09 09:30 1160次阅读

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

      自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b
    的头像 发表于 08-15 20:34 2606次阅读
    NVIDIA从云到边缘<b class='flag-5'>加速</b>OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,实现150万TPS推理

    CET中电技术新加坡子公司正式运营!加速全球化进程

    2025年7月8日CET中电技术新加坡子公司正式运营加速全球化进程July8,2025
    的头像 发表于 07-09 17:04 1345次阅读
    CET中电技术新加坡子公司正式运营!<b class='flag-5'>加速</b>全球化<b class='flag-5'>进程</b>