0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型将会推动手机内存和AI加速器革新?

jf_BPGiaoE5 来源:半导体行业观察 2023-07-19 09:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能已经成为半导体行业过去几年最重要的新推动力。而去年以ChatGPT为代表的大模型更是进一步点燃了人工智能以及相关的芯片市场,ChatGPT背后的大模型正在成为下一代人工智能的代表并可望进一步推进新的应用诞生。

说起大模型,一般我们想到的往往是在云端服务器上运行模型。然而,事实上大模型已经在走入终端设备。一方面,目前已经有相当多的工作证明了大模型经过适当处理事实上可以运行在终端设备上(而不局限于运行在云端服务器);另一方面,大模型运行在终端设备上也会给用户带来很大的价值。因此,我们认为在未来几年内,大模型将会越来越多地运行在终端设备上,而这也会推动相关芯片技术和行业的进一步发展。

智能汽车是大模型运行在终端的第一个重要市场。从应用角度来看,大模型运行在智能汽车的首要推动力就是大模型确实能给智能驾驶相关的任务带来客观的性能提升。去年,以BEVformer为代表的端到端鸟瞰摄像头大模型可以说是大模型在智能汽车领域的第一个里程碑,它把多个摄像头的视频流直接输入使用transformer模块的大模型做计算,最后的性能比之前使用传统卷积神经网络(CNN)模型的结果好了接近10个点,这个可谓是革命性的变化。而在上个月召开的CVPR上,商汤科技发布的UniAD大模型更是使用单个视觉大模型在经过统一训练后去适配多个不同的下游任务,最后在多个任务中都大大超越了现有最好的模型:例如,多目标跟踪准确率超越了20%,车道线预测准确率提升 30%,预测运动位移和规划的误差则分别降低了 38% 和 28%。

目前,汽车企业(尤其是造车新势力)已经在积极拥抱这些智能汽车的大模型,BEVformer(以及相关的模型)已经被不少车企使用,我们预计下一代大模型也将会在未来几年逐渐进入智能驾驶。如果从应用角度考虑,智能汽车上的大模型必须要在终端设备上运行,因为智能汽车对于模型运行的可靠性和延迟要求非常高,在云端运行大模型并且使用网络把结果传送到终端无法满足智能汽车的需求。

wKgaomS3QkCAStKFAAOzw2nWy1w295.jpg

商汤科技提出的UniAD大模型架构,使用统一模型去适配多个任务

除了智能汽车之外,手机也是大模型进入终端的另一个重要市场。以ChatGPT为代表的语言类大模型事实上已经成为了下一代用户交互的重要组成部分,因此在手机上使用大语言模型将会能把这样的新用户交互体验带入手机操作系统中。而在手机设备终端直接运行大语言模型的主要好处在于能够在保护用户隐私的情况下给用户带来个性化的体验(例如归纳和某个用户的聊天记录等等)。目前,开源社区已经可以把Llama大语言模型能够运行在安卓手机CPU,回答一个问题大约需要5-10秒的时间,我们认为未来的潜力巨大。

智能汽车芯片加速大模型:算力与功耗成为关键

目前,人工智能已经在智能汽车的辅助驾驶应用中得到了广泛应用,因此大多数智能汽车上使用的芯片也有对于人工智能的支持,例如加入人工智能加速器等。然而,这些人工智能加速器主要考虑的加速对象模型仍然是上一代以卷积神经网络为代表的模型,这些模型往往参数量比较小,对于算力的需求也比较低。

为了适配下一代大模型,智能汽车芯片会有相应的改动。下一代大模型对于智能汽车芯片的要求主要包括:

1 大算力:由于智能汽车上的相关感知和规划任务都必须在实时完成,因此相关芯片必须能够提供足够的算力来支持这样的计算
2 低功耗:智能汽车上的计算功耗仍然有限制,考虑到散热等因素,芯片不可能做到像GPU一样有几百瓦的功耗
3 合理的成本:智能汽车上的芯片不能像GPU一样成本高达数千美元。因此,智能汽车上的大模型加速芯片主要考虑的就是如何在功耗和成本的限制下,实现尽可能高的算力。

我们可以从目前最成功的大模型加速芯片(即GPU)出发去推测支持大模型智能汽车芯片的具体架构,考虑GPU上有哪些设计思路需要进一步发扬光大,另外有哪些应该考虑重新设计。

首先,GPU上有海量的矩阵计算单元,这些计算单元是GPU算力的核心支撑(与之相对的,CPU上缺乏这些海量的矩阵计算单元因此算力无论如何不可能高上去),这些计算单元在智能汽车芯片上同样也是必须的;但是由于智能汽车芯片上的计算不用考虑GPU上对于数据流和算子通用性的支持,因此智能汽车芯片上无需做GPU上这样的大量stream core,因此从控制逻辑的角度可以做简化以减少芯片面积成本。

第二,GPU能成功运行大模型的另一个关键在于有超高速的内存接口和海量的内存,因为目前大模型的参数量动辄千亿级,这些模型必须有相应的内存支持。这一点在智能车芯片上同样需要,只是智能汽车芯片未必能使用GPU上的HBM这样的超高端(同时也是高成本)内存,而是会考虑和架构协同设计来尽可能地利用LPDDR这样的接口的带宽。

第三,GPU有很好的规模化和分布式计算能力,当模型无法在一个GPU上装下时,GPU可以方便地把模型分割成多个子模型在多个GPU上做计算。智能车芯片也可以考虑这样的架构,从而确保汽车可以在使用周期内满足日新月异的模型的需求。

综合上述考虑,我们推测针对大模型的智能车芯片架构中,可能会有多个人工智能加速器同时运行,每个加速器都有简单的设计(例如一个简单的控制核配合大量计算单元),搭配大内存和高速内存接口,并且加速器之间通过高速互联互相通信从而可以以本地分布计算的方法来加速大模型。从这个角度,我们认为智能驾驶芯片中的内存和内存接口将会扮演决定性的角色,而另一方面,这样的架构也非常适合使用chiplet的方式来实现每个加速器并且使用高级封装技术(包括2.5D和3D封装)来完成多个加速器的整合,换句话说大模型在智能汽车的应用将会进一步推动下一代内存接口和高级封装技术的普及和演进。

大模型将会推动手机内存和AI加速器革新

如前所述,大模型进入手机将会把下一代用户交互范式带入手机。我们认为,大模型进入手机将会是一个渐进的过程:例如,目前的大语言模型,即使是小版本的Llama 70亿参数的模型,也没法完全装入手机的内存中,而必须部分放在手机的闪存中运行,这就导致了运行速度比较慢。在未来的几年中,我们认为手机上面的大语言模型会首先从更小的版本(例如10亿参数以下的模型)开始进入应用,然后再逐渐增大参数量。

从这个角度来看,手机上运行大模型仍然会加速推动手机芯片在相关领域的发展,尤其是内存和AI加速器领域——毕竟目前主流运行在手机上的模型参数量都小于10M,大语言模型的参数量大了两个数量级,而且未来模型参数量会快速增大。这一方面将会推动手机内存以及接口技术以更快的速度进化——为了满足大模型的需求,未来我们可望会看到手机内存芯片容量增长更快,而且手机内存接口带宽也会加快发展速度,因为目前来看内存实际上是大模型的瓶颈。

除了内存之外,手机芯片上的人工智能加速器也会为了大模型而做出相关的改变。目前手机芯片上的人工智能加速器(例如各种NPU IP)几乎已经是标配,但是这些加速器的设计基本上是针对上一代卷积神经网络设计,因此在设计上并不完全针对大模型。为了适配大模型,人工智能加速器首先必须能有更大的内存访问带宽并减少内存访问延迟,这一方面需要人工智能加速器的接口上做出一些改变(例如分配更多的pin给内存接口),另一方面需要片上数据互联做出相应的改变来满足人工智能加速器访存的需求。

除此之外,在加速器内部逻辑设计上,我们认为可能会更加激进地推进低精度量化计算(例如4bit甚至2bit)和稀疏计算,目前的学术界研究表明大语言模型有较大的机会可以做这样的低精度量化/稀疏化,而如果能量化到例如4bit的话,就会大大减小相关计算单元需要的芯片面积,同时也能减小模型在内存中需要的空间(例如4bit量化精度相对于之前的标准8bit精度就会内存需求减半),这预计也会是未来针对手机端人工智能加速器的设计方向。

根据上述分析,我们预计从市场角度手机内存芯片将会借着手机大模型的东风变得更重要,预计会在未来看到相比之前更快的发展,包括大容量内存以及高速内存接口。另一方面,手机端人工智能加速器IP也会迎来新的需求和发展,我们预计相关市场会变得更加热闹一些。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 半导体
    +关注

    关注

    339

    文章

    31292

    浏览量

    266839
  • 人工智能
    +关注

    关注

    1821

    文章

    50376

    浏览量

    267082
  • 智能汽车
    +关注

    关注

    30

    文章

    3341

    浏览量

    109692
  • 卷积神经网络

    关注

    4

    文章

    375

    浏览量

    12930
  • ChatGPT
    +关注

    关注

    31

    文章

    1602

    浏览量

    10404

原文标题:大模型走向终端,芯片怎么办?

文章出处:【微信号:光刻人的世界,微信公众号:光刻人的世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何使用 powerquad 加速器中的一些功能以及 CMSIS 原始实现中的一些功能?

    )。 如何使用 powerquad 加速器中的一些功能以及 CMSIS 原始实现中的一些功能。 Example: I do not want to call arm_mat_trans_q15 powerquad
    发表于 04-03 06:37

    技嘉与趋境科技联合部署AMaaS平台 推动本地大模型应用加速落地

    在生成式AI加速走向实际应用的当下,大模型部署正从“可体验”迈向“可落地、可管理、可应用”。作为技嘉面向本地AI场景打造的重要产品,AI T
    的头像 发表于 03-12 15:11 217次阅读
    技嘉与趋境科技联合部署AMaaS平台 <b class='flag-5'>推动</b>本地大<b class='flag-5'>模型</b>应用<b class='flag-5'>加速</b>落地

    后摩智能M50芯片亮相联想集团首届创新加速器开放日

    2月5日,联想集团在京举办首届创新加速器开放日暨“新商业创新生态路演”,本次活动聚焦于AI算力、核心部件及软硬件应用等领域的技术及产品。作为联想创投旗下企业,后摩智能集中展示了如何通过端边大模型
    的头像 发表于 02-09 15:59 687次阅读

    使用NORDIC AI的好处

    ; 自定义 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的专用 AI 加速器,对 TensorFlow Lite 模型可实现最高约 1
    发表于 01-31 23:16

    边缘计算中的AI加速器类型与应用

    人工智能正在推动对更快速、更智能、更高效计算的需求。然而,随着每秒产生海量数据,将所有数据发送至云端处理已变得不切实际。这正是边缘计算中AI加速器变得不可或缺的原因。这种专用硬件能够直接在边缘设备上
    的头像 发表于 11-06 13:42 1040次阅读
    边缘计算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>类型与应用

    亚马逊云科技第三期创业加速器圆满收官 助力初创释放Agentic AI潜力 加速全球化进程

    北京——2025年10月28日 ,亚马逊云科技第三期创业加速器项目圆满收官。35家入营企业齐聚一堂,分享了各自的业务发展情况,以及参与本期加速器的收获及体验。第三期创业加速器持续聚焦AI
    的头像 发表于 10-29 15:18 1084次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    航裕电源以大电流技术为国内外超导加速器项目提供优质方案

    航裕电源:以大电流技术,护航尖端科技 大科学装置建设热潮中,超导加速器作为探索微观世界、推动前沿科研的 “国之重”,对供电系统的稳定性、精度及功率提出极致要求。航裕电源以31.5kA、80kA万安
    的头像 发表于 10-12 15:02 1787次阅读

    vivo携手Google Cloud推动智能手机迈入AI新时代

    在人们期待更智能、更前瞻手机的时代,vivo 携手 Google Cloud,迅速推出更安全、更前沿的 AI 功能,共同加速创新,推动智能手机
    的头像 发表于 09-23 16:54 1759次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    两方面的问题:①Transformer 模型需要向NVM器件写入大量数据。②传统内存加速器的时序单指令多数据流通通道实现这些操作的成本很高。 因此设计一种既能有效存储模型参数,又能让动
    发表于 09-12 17:30

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型训练的深度突破到推理部署的实时响应,为大模型
    的头像 发表于 08-26 19:18 3365次阅读
    英特尔Gaudi 2E <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>为DeepSeek-V3.1提供<b class='flag-5'>加速</b>支持

    创客总部加入MathWorks加速器计划

    全球领先的数学计算软件开发商 MathWorks 日前宣布,创客总部已加入 MathWorks 加速器计划。作为中关村科创孵化,创客总部致力于为人工智能创业企业、高校院所技术精英搭建推动与实体经济
    的头像 发表于 08-22 10:00 1385次阅读

    Andes晶心科技推出新一代深度学习加速器

    高效能、低功耗 32/64 位 RISC-V 处理核与 AI 加速解决方案的领导供货商—Andes晶心科技(Andes Technology)今日正式发表最新深度学习加速器 Ande
    的头像 发表于 08-20 17:43 3149次阅读

    粒子加速器 —— 科技前沿的核心装置

    粒子加速器全称“荷电粒子加速器”,是一种利用电磁场在高真空环境中对带电粒子(如电子、质子、离子)进行加速和控制,使其获得高能量的特种装置。粒子加速器技术现已发展成为集高能物理、核物理、
    的头像 发表于 06-19 12:05 4213次阅读
    粒子<b class='flag-5'>加速器</b> —— 科技前沿的核心装置

    基于双向块浮点量化的大语言模型高效加速器设计

    本文提出双向块浮点(BBFP)量化格式及基于其的LLMs加速器BBAL,通过双向移位与重叠位设计显著降低量化误差,提升非线性计算效率,实现精度、吞吐量和能效的显著优化,相关成果被国际顶级会议 DAC 2025 接收。
    的头像 发表于 05-14 13:40 2538次阅读
    基于双向块浮点量化的大语言<b class='flag-5'>模型</b>高效<b class='flag-5'>加速器</b>设计