0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

推理芯片的最大挑战

芯片半导体 来源:半导体行业观察 2023-09-27 17:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在不到一年的时间里,生成式人工智能通过 OpenAI 的 ChatGPT(一种基于 Transformer 的流行算法)获得了全球声誉和使用。基于 Transformer 的算法可以学习对象不同元素(例如句子或问题)之间的复杂交互,并将其转换为类似人类的对话。

在 Transformer 和其他大型语言模型 (LLM) 的引领下,软件算法取得了快速进展,而负责执行它们的处理硬件却被抛在了后面。即使是最先进的算法处理器也不具备在一两秒的时间范围内详细阐述最新 ChatGPT 查询所需的性能。

为了弥补性能不足,领先的半导体公司构建了由大量最好的硬件处理器组成的系统。在此过程中,他们权衡了功耗、带宽/延迟和成本。该方法适用于算法训练,但不适用于部署在边缘设备上的推理。

功耗挑战

虽然训练通常基于生成大量数据的 fp32 或 fp64 浮点算法,但它不需要严格的延迟。功耗高,成本承受能力高。

相当不同的是推理过程。推理通常在 fp8 算法上执行,该算法仍会产生大量数据,但需要关键的延迟、低能耗和低成本。

模型训练的解决方案来自于计算场。它们运行数天,使用大量电力,产生大量热量,并且获取、安装、操作和维护成本高昂。更糟糕的是推理过程,碰壁并阻碍了 GenAI 在边缘设备上的扩散。

边缘生成人工智能推理的最新技术

成功的 GenAI 推理硬件加速器必须满足五个属性:

petaflops 范围内的高处理能力和高效率(超过 50%)

低延迟,可在几秒钟内提供查询响应

能耗限制在 50W/Petaflops 或以下

成本实惠,与边缘应用兼容

现场可编程性可适应软件更新或升级,以避免工厂进行硬件改造

大多数现有的硬件加速器可以满足部分要求,但不能满足全部要求。老牌CPU是最差的选择,因为执行速度令人无法接受;GPU 在高功耗和延迟不足的情况下提供相当快的速度(因此是训练的选择);FPGA 在性能和延迟方面做出了妥协。

完美的设备将是定制/可编程片上系统 (SoC),旨在执行基于变压器的算法以及其他类型算法的发展。它应该支持合适的内存容量来存储法学硕士中嵌入的大量数据,并且应该可编程以适应现场升级。

有两个障碍阻碍了这一目标的实现:内存墙和 CMOS 器件的高能耗。

内存墙

人们在半导体发展历史的早期就观察到,处理器性能的进步被内存访问的缺乏进步所抵消。

随着时间的推移,两者之间的差距不断扩大,迫使处理器等待内存传送数据的时间越来越长。结果是处理器效率从完全 100% 利用率下降(图 1)。

cfdca4b0-5d15-11ee-939d-92fbcf53809c.jpg

为了缓解效率的下降,业界设计了一种多级分层内存结构,采用更快、更昂贵的内存技术,靠近处理器进行多级缓存,从而最大限度地减少较慢主内存甚至较慢外部内存的流量(图 2)。

cfeeab24-5d15-11ee-939d-92fbcf53809c.jpg

CMOS IC 的能耗

与直觉相反,CMOS IC 的功耗主要由数据移动而非数据处理决定。根据马克·霍洛维茨教授领导的斯坦福大学研究(表 1),内存访问的功耗比基本数字逻辑计算消耗的能量高出几个数量级。

cffaca26-5d15-11ee-939d-92fbcf53809c.jpg

加法器和乘法器的功耗从使用整数运算时的不到一皮焦耳到处理浮点运算时的几皮焦耳。相比之下,在 DRAM 中访问数据时,访问高速缓存中的数据所花费的能量会跃升一个数量级,达到 20-100 皮焦耳,并且会跃升三个数量级,达到超过 1,000 皮焦耳。

GenAI 加速器是以数据移动为主导的设计的典型例子。

内存墙和能耗对延迟和效率的影响

生成式人工智能处理中的内存墙和能耗的影响正变得难以控制。

几年之内,为 ChatGPT 提供支持的基础模型 GPT 从 2019 年的 GPT-2 发展到 2020 年的 GPT-3,再到 2022 年的 GPT-3.5,再到目前的 GPT-4。每一代模型的大小和参数(weights, tokens和states)的数量都增加了几个数量级。

GPT-2 包含 15 亿个参数,GPT-3 模型包含 1750 亿个参数,最新的 GPT-4 模型将参数规模推至约 1.7 万亿个参数(尚未发布官方数字)。

这些参数的庞大数量不仅迫使内存容量达到 TB 范围,而且在训练/推理过程中同时高速访问它们也会将内存带宽推至数百 GB/秒(如果不是 TB/秒)。为了进一步加剧这种情况,移动它们会消耗大量的能量。

昂贵的硬件闲置

内存和处理器之间令人畏惧的数据传输带宽以及显着的功耗压倒了处理器的效率。最近的分析表明,在尖端硬件上运行 GPT-4 的效率下降至 3% 左右。为运行这些算法而设计的昂贵硬件在 97% 的时间内处于闲置状态。

执行效率越低,执行相同任务所需的硬件就越多。例如,假设 1 Petaflops(1,000 Teraflops)的要求可以由两个供应商满足。供应商(A 和 B)提供不同的处理效率,分别为 5% 和 50%(表 2)。

那么供应商 A 只能提供 50 Teraflops 的有效处理能力,而不是理论处理能力。供应商 B 将提供 500 Teraflops。为了提供 1 petaflop 的有效计算能力,供应商 A 需要 20 个处理器,但供应商 B 只需 2 个。

d00f487a-5d15-11ee-939d-92fbcf53809c.jpg

例如,一家硅谷初创公司计划在其超级计算机数据中心使用 22,000 个 Nvidia H100 GPU。粗略计算,22,000 个 H100 GPU 的售价为 8 亿美元——这是其最新融资的大部分。该数字不包括其余基础设施的成本、房地产、能源成本以及本地硬件总拥有成本 (TCO) 中的所有其他因素。

系统复杂性对延迟和效率的影响

另一个例子,基于当前最先进的 GenAI 训练加速器,将有助于说明这种担忧。硅谷初创公司的 GPT-4 配置将需要 22,000 个 Nvidia H100 GPU 副本以八位字节的形式部署在HGX H100 或 DGX H100 系统,总共产生 2,750 个系统。

考虑到 GPT-4 包括 96 个解码器,将它们映射到多个芯片上可能会减轻对延迟的影响。由于 GPT 结构允许顺序处理,因此为总共 96 个芯片为每个芯片分配一个解码器可能是一种合理的设置。

该配置可转换为 12 个 HGX/DGX H100 系统,不仅对单芯片之间、电路板之间和系统之间移动数据带来的延迟提出挑战。使用增量变压器可以显着降低处理复杂性,但它需要状态的处理和存储,这反过来又增加了要处理的数据量。

底线是,前面提到的 3% 的实施效率是不现实的。当加上系统实现的影响以及相关的较长延迟时,实际应用程序中的实际效率将显着下降。

综合来看,GPT-3.5所需的数据量远不及GPT-4。从商业角度来看,使用类似 GPT-3 的复杂性比 GPT-4 更具吸引力。另一方面是 GPT-4 更准确,如果可以解决硬件挑战,它会成为首选。

最佳猜测成本分析

让我们重点关注能够处理大量查询的系统的实施成本,例如类似 Google 的每秒 100,000 个查询的量。

使用当前最先进的硬件,可以合理地假设总拥有成本(包括购置成本、系统运营和维护成本)约为 1 万亿美元。据记录,这大约相当于世界第八大经济体意大利 2021 年国内生产总值 (GDP) 的一半。

ChatGPT 对每次查询成本的影响使其在商业上具有挑战性。摩根士丹利估计,2022 年 Google 搜索查询(3.3 万亿次查询)的每次查询成本为 0.2 英镑(被视为基准)。同一分析表明,ChatGPT-3 上的每次查询成本在 3 到 14 欧元之间,比基准高 15-70 倍。

半导体行业正在积极寻找应对成本/查询挑战的解决方案。尽管所有尝试都受到欢迎,但解决方案必须来自新颖的芯片架构,该架构将打破内存墙并大幅降低功耗。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20162

    浏览量

    247747
  • 人工智能
    +关注

    关注

    1813

    文章

    49786

    浏览量

    261934
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11269

原文标题:推理芯片的最大挑战

文章出处:【微信号:TenOne_TSMC,微信公众号:芯片半导体】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高通挑战英伟达,发布768GB内存AI推理芯片,“出征”AI数据中心

    亿美元的数据中心市场中抢占一席之地。 就在10月28日,高通面向数据中心连发两款AI芯片,AI200 和 AI250 芯片,打造下一代 AI 推理优化解决方案。这一举措不仅标志着高通在AI基础设施领域的拓展,也被业内视为其对英伟
    的头像 发表于 10-29 10:36 3180次阅读
    高通<b class='flag-5'>挑战</b>英伟达,发布768GB内存AI<b class='flag-5'>推理</b><b class='flag-5'>芯片</b>,“出征”AI数据中心

    高通挑战英伟达!发布768GB内存AI推理芯片,“出征”AI数据中心

    亿美元的数据中心市场中抢占一席之地。   就在10月28日,高通面向数据中心连发两款AI芯片,AI200 和 AI250 芯片,打造下一代 AI 推理优化解决方案。这一举措不仅标志着高通在AI基础设施领域的拓展,也被业内视为其对
    的头像 发表于 10-29 09:14 6105次阅读
    高通<b class='flag-5'>挑战</b>英伟达!发布768GB内存AI<b class='flag-5'>推理</b><b class='flag-5'>芯片</b>,“出征”AI数据中心

    AI推理的存储,看好SRAM?

    看到了其前景并提前布局。AI推理也使得存储HBM不再是唯一热门,更多存储芯片与AI推理芯片结合,拥有了市场机会。   已经有不少AI推理
    的头像 发表于 03-03 08:51 2457次阅读
    AI<b class='flag-5'>推理</b>的存储,看好SRAM?

    云天励飞AI推理芯片如何赋能千行百业

    11月26日,云天会客厅第二期生态沙龙暨深商联高科技高成长创新营走进上市公司活动圆满举办。来自深圳科技领域的多位企业负责人齐聚云天励飞,共同探讨AI推理时代的技术变革、产业机遇与落地挑战
    的头像 发表于 12-03 13:58 317次阅读

    欧洲之光!5nm,3200 TFLOPS AI推理芯片即将量产

    电子发烧友网综合报道 今年10月,欧洲芯片公司VSORA(总部位于法国巴黎)宣布开始生产其AI推理芯片Jotunn8,这也令VSORA成为欧洲唯一一家推出高性能AI推理
    的头像 发表于 11-29 13:52 4956次阅读
    欧洲之光!5nm,3200 TFLOPS AI<b class='flag-5'>推理</b><b class='flag-5'>芯片</b>即将量产

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    当今社会,AI已经发展很迅速了,但是你了解AI的发展历程吗?本章作者将为我们打开AI的发展历程以及需求和挑战的面纱。 从2017年开始生成式AI开创了新的时代,经历了三次热潮和两次低谷。 生成式
    发表于 09-12 16:07

    AI推理芯片赛道猛将,200亿市值AI芯片企业赴港IPO

    7月30日,AI芯片龙头企业云天励飞正式向港交所递交招股说明书。   云天励飞成立于2014年8月,于2023年4月在上交所科创板挂牌,截至8月1日的市值为216亿元。专注于AI推理芯片的研发
    的头像 发表于 08-04 09:22 4142次阅读
    AI<b class='flag-5'>推理</b><b class='flag-5'>芯片</b>赛道猛将,200亿市值AI<b class='flag-5'>芯片</b>企业赴港IPO

    Aux-Think打破视觉语言导航任务的常规推理范式

    视觉语言导航(VLN)任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理任务,探索其在导航策略学习中的作用,并首次揭示了VLN中的“推理崩塌”现象。研究发现
    的头像 发表于 07-08 10:00 451次阅读
    Aux-Think打破视觉语言导航任务的常规<b class='flag-5'>推理</b>范式

    大模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型的推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这一问题,本文将探讨大模型推理显存和计算量的估计
    发表于 07-03 19:43

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命

    “思维模型”的大量计算需求,例如大型语言模型和专家混合模型。Ironwood 可扩展至多达 9216 个芯片,提供 42.5 Exaflops 的计算能力,使其比世界上最大的超级计算机更强大。 一
    的头像 发表于 04-12 11:10 3044次阅读
    谷歌第七代TPU Ironwood深度解读:AI<b class='flag-5'>推理</b>时代的硬件革命

    谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎​

    Cloud 客户开放,将提供 256 芯片集群以及 9,216 芯片集群两种配置选项。   在核心亮点层面,Ironwood 堪称谷歌首款专门为 AI 推理精心设计的 TPU 芯片
    的头像 发表于 04-12 00:57 3279次阅读

    使用OpenVINO™进行推理时的内存泄漏怎么解决?

    使用 OpenVINO™ 进行推理时,内存会随着时间的推移而增加,并导致程序崩溃。
    发表于 03-06 08:29

    黑芝麻智能芯片加速DeepSeek模型推理

    近日,黑芝麻智能宣布,其武当C1200家族芯片已成功完成DeepSeek模型推理的部署,而A2000芯片也将全面支持基于DeepSeek的多模态大模型推理。这一消息标志着黑芝麻智能在推
    的头像 发表于 02-14 15:04 818次阅读

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1380次阅读
    使用NVIDIA<b class='flag-5'>推理</b>平台提高AI<b class='flag-5'>推理</b>性能

    Neuchips展示大模型推理ASIC芯片

    。新的芯片解决方案Raptor使企业能够以现有解决方案的一小部分成本部署大型语言模型(LLM)推理。 Neuchips CEO Ken Lau表示:“我们很高兴在CES 2024上向业界展示我们
    的头像 发表于 01-06 17:30 1301次阅读