0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存算一体芯片如何支持Transformer等不同模型?

后摩智能 来源:后摩智能 2024-01-05 14:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

后摩智能致力于打造通用人工智能芯片,自主研发的存算一体芯片在支持各类模型方面表现突出,包括YOLO系列网络、BEV系列网络、点云系列网络等。这一系列芯片不仅在性能上有着显著的优势,而且特别针对目前自动驾驶领域的算法进行了专门的优化。近期,后摩智能刚完成新一款技术验证芯片的量产测试,属于国内首款基于存算一体架构的7nm车规级技术验证芯片,专为Transformer 等车端大模型设计。

当前,自动驾驶等领域中,Transformer模型的应用逐渐占据主导地位。这一架构的优势在于其能够更好地捕捉长距离依赖关系,有助于提高模型对复杂场景的理解和处理能力。面对Transformer在自动驾驶中的日益增长的需求,一个关键的问题浮现出来:存算一体芯片是否能够高效部署Transformer模型?

Q1存算一体芯片能高效部署Transformer吗?

Transformer架构是一种强大的神经网络架构,能够实现高效的序列建模和复杂的任务处理,它的核心组成部分包括多层感知机(MLP)和多头注意力(MHA)。MLP是一种前馈神经网络结构,由多个层次的神经元组成,每一层都与上一层的所有神经元相连。

这些神经元通过权重进行连接。MLP在Transformer中负责对输入特征进行变换和映射,帮助网络捕捉不同层次的抽象特征;MHA允许网络在不同位置对输入序列的不同部分进行关注,从而提高模型的并行性和全局信息的捕捉能力。MHA的基本思想是通过多个注意力头(Attention Head)并行处理输入序列,每个头都学习关注输入的不同方面。

这种并行性有助于有效地处理长序列,并使网络更具扩展性和泛化能力。在部署Transformer时,AI芯片的任务就是高效执行网络中的MLP和MHA结构。这需要AI芯片能对其中所有算子都有很高的并行执行能力。

Q2多层感知机如何高效部署在存算一体芯片上?

全连接层的本质是执行两个矩阵(输入特征矩阵和权重矩阵)的矩阵乘法。我们将其中权重存放在存算单元上。将输入的特征送入存算单元,由存算单元中的计算单元直接完成乘累加操作,输出乘累加结果。由于存算单元的计算密度很高,执行这种全连接层的并行度很高,因此效率很高。另一方面,权重被保持在存算单元上,不发生移动,从而大幅降低了搬移权重所带来的能耗开销。

多头注意力是Transformer模型的一个关键组成部分,它有点像大脑的多个小模块,每个模块都负责关注输入数据的不同方面。这个结构之所以特别,是因为它包含了多个小“头”,每个“头”都在关注输入数据的不同部分。

在处理输入数据时,每个“头”都有三个关键矩阵,分别是查询(Q)、键(K)、和值(V)。通过一系列数学运算,多头注意力可以捕捉到输入序列中不同位置之间的关系。

关系计算:首先,我们让查询(Q)和键(K)进行一种特殊的数学操作,就像在查找输入数据中不同部分之间的联系。这为模型提供了对输入序列中不同位置的关注程度。

重要性映射:接着,我们通过一个函数(softmax)把刚才计算的结果映射到0到1之间,就好像在给不同位置分配注意力的“权重”,表示它们的相对重要性。

信息整合:最后,我们把刚才得到的归一化的结果与值(V)进行另一次数学操作,这样就得到了最终输出。这一步把被注意到的值通过权重相加,得到多头注意力的最终输出。

虽然这里提到的数学操作和全连接层有点相似,但在多头注意力中,查询、键、和值这三个矩阵是动态生成的。这就意味着在执行数学操作时,需要灵活的加载数据到存算单元上,这一过程的效率对于处理器性能非常关键。

为了解决这个问题,后摩智能设计了高效的存算单元数据加载硬件。这可以极大地提高存算单元中数据的替换效率,确保在多头注意力的计算中,动态产生的矩阵K、V能够快速而高效地加载到存算单元中。这种巧妙的设计使得存算一体芯片能够在执行多头注意力结构时取得最佳性能,为Transformer模型的高效运行提供了强有力的支持。

除了计算密集型的全连接层和矩阵乘法之外,后摩智能的芯片还拥有大量的向量算力和标量算力来处理其它算子,例如softmax和layernorm算子。为了充分利用这些算力资源,后摩智能采用了先进的编译优化算法。这一算法的设计使得存算单元、向量单元和标量单元能够被同时调度,实现并行执行不同的计算任务。这种并行计算的优势不仅仅体现在同一算子的多个实例之间,更在于不同算子之间的并发执行。通过同时处理各个算子,后摩智能的芯片在运行Transformer时能够达到最高的效率,极大地提升了整个计算过程的速度和效能。

综合而言,后摩智能芯片以其先进的设计理念和高效的存算一体架构,成功解决了对Transformer算法的高效支持问题。通过优化全连接层、矩阵乘法和动态加载、向量和标量运算等关键环节,后摩智能为Transformer运行的高效性和性能提供了强大的支持,为自动驾驶等领域的发展注入了新的动力。未来,后摩智能的存算一体架构芯片也将随着算法与硬件的演进,不断迭代,满足万物智能时代对算力的澎湃需求。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能芯片

    关注

    1

    文章

    122

    浏览量

    30807
  • 后摩智能
    +关注

    关注

    0

    文章

    44

    浏览量

    1592

原文标题:存算十问|(九):存算一体芯片如何支持Transformer等不同模型?

文章出处:【微信号:后摩智能,微信公众号:后摩智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一体AI芯片公司九天睿芯完成超亿元B轮融资

    全球领先的一体AI芯片公司九天睿芯(英文:Reexen Technology)近日宣布,公司已完成B轮融资,规模超亿元人民币。
    的头像 发表于 10-10 11:41 706次阅读

    后摩尔定律时代,3D-CIM+RISC-V打造国产一体新范式

    力、能效与带宽瓶颈成为行业前行的关键阻碍,而美西方的技术禁运更让中国芯片产业面临严峻挑战。   在这大背景下,
    发表于 09-17 09:31 5322次阅读
    后摩尔定律时代,3D-CIM+RISC-V打造国产<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>新范式

    文看懂“一体

    今天这篇文章,我们来聊个最近几年很火的概念——一体。为什么会提出“
    的头像 发表于 08-18 12:15 934次阅读
    <b class='flag-5'>一</b>文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>”

    一体技术加持!后摩智能 160TOPS 端边大模型AI芯片正式发布

    ,同步推出力擎™系列M.2卡、力谋®系列加速卡及计算盒子硬件组合,形成覆盖移动终端与边缘场景的完整产品矩阵。这系列动作标志着后摩智能在一体
    的头像 发表于 07-30 07:57 7623次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>技术加持!后摩智能 160TOPS 端边大<b class='flag-5'>模型</b>AI<b class='flag-5'>芯片</b>正式发布

    2025端侧AI芯片爆发:一体、非Transformer架构谁主浮沉?边缘计算如何选型?

    各位技术大牛好!最近WAIC 2025上端侧AI芯片密集发布,彻底打破传统力困局。各位大佬在实际项目中都是如何选型的呢?
    发表于 07-28 14:40

    缓解高性能一体芯片IR-drop问题的软硬件协同设计

    在高性能计算与AI芯片领域,基于SRAM的一体(Processing-In-Memory, PIM)架构因兼具计算密度、能效和精度优势成为主流方案。随着
    的头像 发表于 07-11 15:11 870次阅读
    缓解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b><b class='flag-5'>芯片</b>IR-drop问题的软硬件协同设计

    国际首创新突破!中国团队以一体排序架构攻克智能硬件加速难题

    2025 年 6 月 25 日,北京大学团队在智能计算硬件方面取得领先突破,国际上首次实现了基于一体技术的高效排序硬件架构 (A fast and reconfigurable
    的头像 发表于 07-02 16:50 544次阅读
    国际首创新突破!中国团队以<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>排序架构攻克智能硬件加速难题

    苹芯科技 N300 一体 NPU,开启端侧 AI 新征程

    随着端侧人工智能技术的爆发式增长,智能设备对本地力与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存墙”问题成为制约端侧AI性能突破的关键掣肘。在这背景下,
    的头像 发表于 05-06 17:01 862次阅读
    苹芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b> NPU,开启端侧 AI 新征程

    澎峰科技DeepSeek智一体机助力中小企业AI转型

    澎峰科技推出的智先锋 Deep Fusion DF系列大模型一体机是专为中小企业、事业单位以及对数据安全有极高要求的部门(财务、人力、研发、销售)设计的高性能大
    的头像 发表于 02-28 11:07 1193次阅读
    澎峰科技DeepSeek智<b class='flag-5'>算</b><b class='flag-5'>一体</b>机助力中小企业AI转型

    济南市中区一体化智中心上线DeepSeek

    济南市中未来产业发展有限公司(简称“市中产发”)联合华为、北京昇腾和清昴智能基于市中区一体化智中心(国家大学科技园节点)昇腾力部署D
    的头像 发表于 02-19 10:38 1165次阅读

    梯度科技推出DeepSeek智一体

    近日,梯度科技搭载DeepSeek大模型的智一体机正式发布。该产品基于“国产服务器+国产GPU+自主算法”核心架构,搭载梯度科技人工智能应用开发平台,形成了软硬一体解决方案。
    的头像 发表于 02-17 09:53 1309次阅读

    澎峰科技发布DeepSeek智一体

    人工智能普惠化迎来里程碑式突破!澎峰科技发布业内“首款”万元级别DeepSeek智一体机,本地运行671B满血模型
    的头像 发表于 02-15 16:29 1846次阅读

    宁畅推出DeepSeek大模型一体

    为加速人工智能大模型技术在企业级场景中的规模化落地,宁畅正式发布DeepSeek大模型一体机解决方案。作为款面向企业的“开箱即用”智能
    的头像 发表于 02-15 14:51 1952次阅读

    后摩漫界M30芯片成功适配DeepSeek-R1系列模型

    DeepSeek-R1-Distill-Qwen系列模型,包括1.5B、7B、14B。这成果不仅证明了
    的头像 发表于 02-08 10:42 1559次阅读

    一体行业2024年回顾与2025年展望

    2024年,大模型技术的迅猛发展成为人工智能领域的核心驱动力,其对硬件力和存储效率的极致需求,促使一体技术在全球范围内迎来前所未有的关
    的头像 发表于 01-23 11:24 1679次阅读