0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当前主流的大模型对于底层推理芯片提出了哪些挑战

后摩智能 来源:后摩智能 2024-09-24 16:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着大模型时代的到来,AI算力逐渐变成重要的战略资源,对现有AI芯片也提出了前所未有的挑战:大算力的需求、高吞吐量与低延时、高效内存管理、能耗等等。

存算一体架构是可能有效解决当前芯片瓶颈的路径之一,通过将数据存储与处理单元集成,显著减少了数据在芯片内部的传输,降低延迟和能耗,提高计算速度。

此外,针对大模型的特定需求,芯片设计也在不断创新,以更好地支持并行处理和高效率的数据流动。这些技术发展不仅对推动人工智能领域的进步至关重要,也为芯片设计和制造业带来了新的机遇和挑战。

Q1►当前主流的大模型对于底层推理芯片提出了哪些挑战?

1、算力需求:由于大模型计算量的提升,对算力的需求也飞速增长。考虑到芯片光罩面积的限制,一方面需要通过电路优化提升算力密度,另一方面需要通过先进集成等手段突破芯片面积的限制。

2、高吞吐量与低延时:大模型推理分为prefill和decoding两个阶段,两阶段的推理延迟分别影响用户得到首个token的延迟(time to first token,TTFT)和生成阶段逐token的输出延迟(time per output token,TPOT),优化两个阶段的延迟可以提升用户在使用推理服务时的体验。由于prefill阶段需要在单次推理处理完整的prompt输入,是计算密集的,所以prefill阶段需要通过提升芯片的算力来降低延迟。另一方面,decoding阶段中,每个请求只处理一个token,是访存密集的,因此需要提升芯片的访存带宽来降低延迟。

3、高效内存管理:在提供大模型推理服务时,不同用户的请求到达时间,prompt长度,以及生成长度均不相同,所以在动态batching时不同请求间的KV Cache长度往往不同,从而导致KV Cache的碎片化问题。因此,诸如vLLM等优化KV Cache的碎片化问题的内存管理方案被提出,从而显著提升GPU上的内存利用率。

4、能耗:对于每个sequence的生成,decoding阶段每次只处理单个token,从而导致在生成的过程中需要反复搬运权重到片上缓存,产生高访存能耗。

5、可编程性与灵活性:随着深度学习和人工智能领域快速发展,新的算法和模型不断涌现。芯片应具有一定的可编程性和灵活性,以适应这些变化,不仅仅针对当前的算法进行优化。

Q2►大模型时代的需求,存算一体芯片会是更优解吗?

1、存算一体的优势与大模型需求的契合点:CIM(Computing in Memory)具备高计算密度、高计算能效的优势,适合大模型Prefill阶段的处理。在同样芯片面积限制下,有望提供超过当前GPU的算力。另外,对图片、视频等领域生成模型,算力的需求将进一步上升,CIM高算力密度的优势可以进一步发挥。

2、方向一:近存路线:基于DRAM的近存计算架构能够处理decoding阶段访存密集的矩阵向量乘法操作。通过在DRAM的bank附近放置处理单元,它们可以减少搬运权重的能耗,并且通过近bank处理单元的并行计算提升访存带宽,从而获得推理加速。但是由于DRAM的工艺限制,近存处理单元的算力较弱,无法高效处理prefill阶段的计算密集算子,因此往往需要与GPU配合工作,完成整个推理流程。

3、方向二:近存+存算路线:CIM+PIM的混合异构方案,可以同时满足Prefill高算力和Decode高存储带宽和容量的需求,实现优势互补,超过当前的同构方案。

未来,随着技术进步和创新设计的不断涌现,芯片技术将进一步突破现有极限,实现更低的能耗和更高的计算性能。存算一体技术也将为芯片行业提供更多创新发展路径。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49772

    浏览量

    261714
  • 存算一体
    +关注

    关注

    1

    文章

    114

    浏览量

    4975
  • 大模型
    +关注

    关注

    2

    文章

    3460

    浏览量

    4975

原文标题:存算十问|(十):面向大模型时代,存算一体是更优解吗?

文章出处:【微信号:后摩智能,微信公众号:后摩智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    什么是AI模型推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 860次阅读

    请问如何在RK3588上使用npu,用onnx模型推理

    请问如何在瑞芯微 RK3588上使用npu,用onnx模型推理。官网上介绍说要把ONNX模型转换成RKNN模型。但是我并不想这么干,请问有什么办法吗?
    发表于 08-09 00:51

    模型推理显存和计算量估计方法研究

    上进行了实验。实验结果表明,所提出的估计方法具有较高的准确性和实用性。 五、结论 本文针对大模型推理的显存和计算量估计问题,提出了基于模型
    发表于 07-03 19:43

    百度文心大模型X1 Turbo获得信通院当前模型最高评级证书

    百度在520居然还领了个证?是它, 信通院当前模型最高评级证书 ! 在5月20日的百度AI Day 上,中国信通院公布了大模型推理能力评估结果—— 百度文心大
    的头像 发表于 05-21 18:19 1117次阅读
    百度文心大<b class='flag-5'>模型</b>X1 Turbo获得信通院<b class='flag-5'>当前</b>大<b class='flag-5'>模型</b>最高评级证书

    谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎​

    电子发烧友网报道(文 / 李弯弯)日前,谷歌在 Cloud Next 大会上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。据悉,该芯片预计于今年晚些时候面向 Google
    的头像 发表于 04-12 00:57 3249次阅读

    详解 LLM 推理模型的现状

    2025年,如何提升大型语言模型(LLM)的推理能力成了最热门的话题之一,大量优化推理能力的新策略开始出现,包括扩展推理时间计算、运用强化学习、开展监督微调和进行提炼等。本文将深入探讨
    的头像 发表于 04-03 12:09 1268次阅读
    详解 LLM <b class='flag-5'>推理模型</b>的现状

    模型原生操作系统:机遇、挑战与展望 CCCF精选

    本文立足人工智能时代用户、应用和系统的需求,分析“外挂式模型”演进路径下的操作系统发展困局,提出通过“模型-系统-芯片”的全栈协同设计来构建模型
    的头像 发表于 03-14 17:46 941次阅读
    <b class='flag-5'>模型</b>原生操作系统:机遇、<b class='flag-5'>挑战</b>与展望  CCCF精选

    为什么无法在运行时C++推理中读取OpenVINO™模型

    使用模型优化器 2021.1 版OpenVINO™转换模型 使用 Runtime 2022.3 版本在 C++ 推理实现 ( core.read_model()) 中读取模型Open
    发表于 03-05 06:17

    AI大模型在汽车应用中的推理、降本与可解释性研究

    佐思汽研发布《2024-2025年AI大模型及其在汽车领域的应用研究报告》。 推理能力成为大模型性能提升的驱动引擎 2024下半年以来,国内外大模型公司纷纷推出
    的头像 发表于 02-18 15:02 1852次阅读
    AI大<b class='flag-5'>模型</b>在汽车应用中的<b class='flag-5'>推理</b>、降本与可解释性研究

    黑芝麻智能芯片加速DeepSeek模型推理

    近日,黑芝麻智能宣布,其武当C1200家族芯片已成功完成DeepSeek模型推理的部署,而A2000芯片也将全面支持基于DeepSeek的多模态大
    的头像 发表于 02-14 15:04 815次阅读

    字节豆包大模型团队提出稀疏模型架构

    字节跳动豆包大模型Foundation团队近期研发出UltraMem,一种创新的稀疏模型架构,旨在解决推理过程中的访存问题,同时确保模型效果不受影响。
    的头像 发表于 02-13 15:25 1029次阅读

    摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

    近日,摩尔线程智能科技(北京)有限责任公司在其官方渠道发布了一则重要消息,宣布公司已经成功实现了对DeepSeek蒸馏模型推理服务的部署。这一技术突破,标志着摩尔线程在人工智能领域迈出了坚实的一步
    的头像 发表于 02-06 13:49 1191次阅读

    中国电提出模型推理加速新范式Falcon

    近日,中国电信翼支付针对大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through
    的头像 发表于 01-15 13:49 1475次阅读
    中国电<b class='flag-5'>提出</b>大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>加速新范式Falcon

    Neuchips展示大模型推理ASIC芯片

    。新的芯片解决方案Raptor使企业能够以现有解决方案的一小部分成本部署大型语言模型(LLM)推理。 Neuchips CEO Ken Lau表示:“我们很高兴在CES 2024上向业界展示我们
    的头像 发表于 01-06 17:30 1294次阅读

    智谱GLM-Zero深度推理模型预览版正式上线

    近日,智谱公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上线。这款模型是智谱首个基于扩展强化学习技术训练的推理模型,标志着智谱在AI推理领域
    的头像 发表于 01-02 10:55 812次阅读