0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI/ML应用和处理器的架构探索

星星科技指导员 来源:嵌入式计算设计 作者:嵌入式计算设计 2022-07-08 17:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

行业背景

人工智能AI) 应用程序考虑了计算、存储、内存、管道、通信接口、软件和控制。此外,人工智能应用程序处理可以分布在处理器内的多核、PCIe 主干上的多个处理器板、分布在以太网网络中的计算机、高性能计算机或跨数据中心的系统中。此外,人工智能处理器还具有巨大的内存大小要求、访问时间限制、模拟和数字分布以及硬件-软件分区。

问题

人工智能应用的架构探索很复杂,涉及多项研究。首先,我们可以针对单个问题,例如内存访问,或者可以查看完整的处理器或系统。大多数设计都是从内存访问开始的。有很多选择——SRAMDRAM、本地与分布式存储、内存计算以及缓存反向传播系数与丢弃。

第二个评估部门是总线或网络拓扑。虚拟原型可以具有用于处理器内部的片上网络、TileLink 或 AMBA AXI 总线、用于连接多处理器板和机箱的 PCIe 或以太网,以及用于访问数据中心的 Wifi/5G/Internet 路由器。

使用虚拟原型的第三项研究是计算。这可以建模为处理器内核、多处理器、加速器、FPGA、Multi-Accumulate 和模拟处理。最后一部分是传感器、网络、数学运算、DMA、自定义逻辑、仲裁器、调度器和控制功能的接口

此外,人工智能处理器和系统的架构探索具有挑战性,因为它将数据密集型任务图应用于硬件的全部功能。

模型构建

在 Mirabilis,我们使用 VisualSim 对 AI 应用程序进行架构探索。VisualSim 的用户在具有大量 AI 硬件和软件建模组件的图形离散事件仿真平台中非常快速地组装虚拟原型。该原型可用于进行时间、吞吐量、功耗和服务质量的权衡。提供超过 20 种 AI 处理器和嵌入式系统模板,以加速开发新的 AI 应用程序。

为 AI 系统的权衡而生成的报告包括响应时间、吞吐量、缓冲区占用率、平均功率、能耗和资源效率。

ADAS模型构建

首先,让我们考虑自动驾驶 (ADAS) 应用程序,这是图 1 中的一种人工智能部署形式。ADAS 应用程序与计算机或电子控制单元 (ECU) 和网络上的许多应用程序共存。 ADAS 任务的正确运行还依赖于现有系统的传感器和执行器。

poYBAGLH8vGAa_RSAAI0sk_genQ618.png

图 1. 汽车设计中 AI 应用程序的逻辑到物理架构

早期的架构权衡可以测试和评估假设以快速识别瓶颈,并优化规范以满足时序、吞吐量、功率和功能要求。在图 1 中,您将看到体系结构模型需要硬件、网络、应用程序任务、传感器、衰减器和流量激励来获得对整个系统操作的可见性。图 2 显示了映射到物理架构的 ADAS 逻辑架构的实现。

架构模型的一个很好的特性是能够分离设计的所有部分,这样就可以研究单个操作的性能。在图 2 中,您会注意到现有任务被单独列出,网络与 ECU、传感器生成和 ADAS 逻辑任务组织。ADAS 任务图中的每个功能都映射到一个 ECU。

pYYBAGLH8vyABhJdAAKozTfxomM207.png

图 2. ADAS 映射到 ECU 网络的汽车系统系统模型

ADAS分析

当模拟图2中的ADAS模型时,可以得到各种报告。在图 3 中,显示了完成 ADAS 任务的延迟以及电池为此任务耗散的相关热量。其他感兴趣的图可以是测量的功率、网络吞吐量、电池消耗、CPU 利用率和缓冲区占用。

poYBAGLH8wWAMvWTAAMtxKUt3Gk534.png

图 3. ADAS 架构模型的分析报告

处理器模型构建

AI 处理器和系统的设计人员针对应用程序类型、训练与推理、成本点、功耗和尺寸限制进行实验。例如,设计人员可以将子网络分配到流水线阶段,权衡深度神经网络 (DNN) 与传统机器学习算法,测量 GPU、TPU、AI 处理器、FPGA 和传统处理器上的算法性能,评估融合计算和内存的好处在芯片上计算类似于人脑功能的模拟技术对功率的影响,并构建具有针对单个应用程序的部分功能集的 SoC。

从 PowerPoint 到新 AI 处理器的第一个原型的时间非常短,第一个生产样品不能有任何瓶颈或错误。因此,建模成为强制性的。

图 4 显示了 Google 张量处理器的内部视图。框图已转换为图 5 中的架构模型。处理器通过 PCIe 接口接收来自主机的请求。MM、TG2、TG3 和 TG4 是来自独立主机的不同请求流。权重存储在片外 DDR3 中并被调用到权重 FIFO。到达的请求在统一本地缓冲区中存储和更新,并发送到矩阵多单元进行处理。当请求通过 AI 管道处理完毕后,将其返回到统一缓冲区以响应主机。

pYYBAGLH8w6AUY5cAAH5cVXHPd0055.png

图 4. 来自 Google 的 TPU-1

pYYBAGLH8xeAES5nAAH9blh3v80920.png

图5. AI 硬件架构的 VisualSim 模型顶视图

处理器模型分析

在图 6 中,您可以查看片外 DDR3 中的延迟和反向传播权重管理。延迟是从主机发送请求到接收响应的时间。您将看到 TG3 和 TG4 能够分别保持低延迟,直到 200 us 和 350 us。MM 和 TG2 在模拟的早期就开始缓冲。由于这组流量配置文件存在大量缓冲并且延迟增加,因此当前的 TPU 配置不足以处理负载和处理。TG3 和 TG4 的更高优先级有助于维持更长的运营时间。

poYBAGLH8yGAb-mYAAHT-36YM8g888.png

图 6. 架构探索权衡的统计数据

汽车设计施工

poYBAGLH8yqAeDErAADu_tWXouM594.png

图 7. 带有 CAN 总线、传感器和 ECU 的汽车网络

当今的汽车设计包含许多需要大量机器学习和推理的安全和自动驾驶功能。可用的时间表将决定处理是在 ECU 完成还是发送到数据中心。例如,可以在本地进行制动决策,同时可以将空调温度的变化发送到远程处理。两者都需要一些基于输入传感器和摄像头的人工智能。

图 7 是包含 ECU、CAN-FD、以太网和网关的网络框图。

pYYBAGLH8zKABDcwAAOrtsXCqXU994.png

图 8. 自动驾驶和 E/E 架构的 VisualSim 模型

图 8 捕获了图 7 的一部分,它将 CAN-FD 网络与包含多个 ARM 内核和一个 GPU 的高性能 Nvidia DrivePX 集成。以太网/TSN/AVB 和网关已从模型中移除以简化视图。在此模型中,重点是了解 SoC 的内部行为。该应用程序是由车辆上的摄像头传感器触发的 MPEG 视频捕获、处理和渲染。

汽车设计分析

图 9 显示了 AMBA 总线和 DDR3 内存的统计数据。您可以看到跨多个主服务器的工作负载分布。可以评估应用程序管道的瓶颈,确定最高周期时间的任务、内存使用情况以及每个单独任务的延迟。

poYBAGLH8zuADCzoAAKvaLBwix8310.png

图 9. 总线和内存活动报告

用例和流量模式应用于作为硬件、RTOS 和网络组合的架构模型。周期性流量配置文件用于对雷达、激光雷达和摄像头进行建模,而用例可以是自动驾驶、聊天机器人、搜索、学习、推理、大数据处理、图像识别和疾病检测。用例和流量可以根据输入速率、数据大小、处理时间、优先级、依赖性、先决条件、反向传播循环、系数、任务图和内存访问而变化。通过改变属性在系统模型上模拟用例。这会生成各种统计数据和图表,包括缓存命中率、流水线利用率、拒绝的请求数、每条指令或任务的瓦特数、吞吐量、缓冲区占用率和状态图。

poYBAGLH8teAdkAAAACYtpBw9Uc115.png

图 10. 实时测量 AI 处理器的功耗

图 10 显示了系统和芯片的功耗。除了散热、电池充电消耗率和电池生命周期变化外,该模型还可以捕捉动态功率变化。该模型绘制了每个设备的状态活动、相关的瞬时峰值和系统的平均功率。获得有关功耗的早期反馈有助于热和机械团队设计外壳和冷却方法。大多数机箱对每个板都有最大功率限制。这种早期的功耗信息可用于执行架构与性能的权衡,从而寻找降低功耗的方法。

进一步的探索场景

以下是一些突出使用 AI 架构模型和分析的附加示例。

1. 360度激光扫描仪、立体摄像头、鱼眼摄像头、毫米波雷达、声纳或激光雷达的自动驾驶系统,通过网关连接到多个IEEE802.1Q网络上的20个ECU。该原型用于测试 OEM 硬件配置的功能包,以确定硬件和网络要求。主动安全行动的响应时间是主要标准。

2. 用于学习和推理任务的人工智能处理器是使用由 32 个内核、32 个加速器、4 个 HBM2.0、8 个 DDR5、多个 DMA 和完整缓存一致性构建的片上网络骨干定义的。该模型使用 RISC-V、ARM Z1 和专有内核的变体进行了试验。实现的目标是链路上的 40Gbps,同时保持较低的路由器频率并重新训练网络路由。

3. 需要一个 32 层的深度神经网络,将内存从 40GB 降低到 7GB 以下。数据吞吐量和响应时间没有改变。该模型设置有用于处理和反向传播的内存访问行为的功能流程图。对于不同的数据大小和任务图,该模型确定了数据的丢弃量以及各种片外 DRAM 大小和 SSD 存储选项。任务图随任意数量的图和几个输入和输出而变化。

4. 使用ARM处理器和AXI总线进行低成本AI处理的通用SoC。目标是获得最低的每瓦功率,从而最大限度地提高内存带宽。乘法累加函数被卸载到向量指令,加密到 IP 核,以及自定义算法到加速器。构建该模型的明确目的是评估不同的高速缓存存储器层次结构以提高命中率和总线拓扑以减少延迟。

5. 模数 AI 处理器需要对功耗进行彻底分析,并对所达到的吞吐量进行准确分析。在该模型中,非线性控制在离散事件模拟器中建模为一系列线性函数,以加快模拟时间。在这种情况下,对功能进行了测试以检查行为并衡量真正的节能效果。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储器
    +关注

    关注

    39

    文章

    7714

    浏览量

    170846
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106792
  • soc
    soc
    +关注

    关注

    38

    文章

    4514

    浏览量

    227596
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DNR6521x_VC1:革新音频体验的AI降噪处理器

    在当今数字时代,高质量的音频处理需求日益增长。无论是直播、游戏、会议还是专业录音,都需要清晰、纯净的声音体验。DNR6521x_VC1作为一款基于XMOS处理器架构AI深度降噪
    的头像 发表于 10-15 16:59 1275次阅读
    DNR6521x_VC1:革新音频体验的<b class='flag-5'>AI</b>降噪<b class='flag-5'>处理器</b>

    DNR65211-VC1单通道AI深度降噪处理器技术解析

    一、产品概述DNR65211-VC1是飞腾云音频推出的高性能AI音频处理方案,基于XMOS处理器架构设计,专为直播/会议/户外等场景提供智能化音频解决方案。该产品集成双
    的头像 发表于 10-08 15:32 344次阅读
    DNR65211-VC1单通道<b class='flag-5'>AI</b>深度降噪<b class='flag-5'>处理器</b>技术解析

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    建立的基础: ①算力支柱②数据支柱③计算支柱 1)算力 与AI算力有关的因素: ①晶体管数量②晶体管速度③芯片架构④芯片面积⑤制造工艺⑥芯片内部扩展⑦内存带宽、存储容量等⑧处理器利用率⑨芯片之间的互连
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    是一种快速反应能力,是直接的感知;灵感是一种通过思考和探索获得的创造性想法,是一种创意。 AI怎么模拟直觉与灵感呢?四、AI代替人类的假说 这可能吗? 用机器来生成假说: 1、直接生成 生成式
    发表于 09-17 11:45

    AI芯片:科技探索与AGI愿景》—— 深入硬件核心的AGI指南

    AI芯片:科技探索与AGI愿景》一书如同一张详尽的“藏宝图”,为读者指明了通往下一代人工智能的硬件之路。作者没有停留在空洞的概念层面,而是直击核心,从冯·诺依曼架构的“内存墙”瓶颈切入,清晰阐述了
    发表于 09-17 09:29

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    1.1RISC-VISA 扩展 1.2 向量协处理器 1.3 与各级存储耦合的NPU 1.4 针对Transformer 模型的架构优化 SwiftTron是一款专用的开源AI加速
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    AI芯片:科技探索与AGI愿景》这本书是张臣雄所著,由人民邮电出版社出版,它与《AI芯片:前沿技术与创新未来》一书是姊妹篇,由此可见作者在AI芯片领域的功力和造诣。 作者毕业于上海交
    发表于 09-05 15:10

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    RISC-V架构AI加速、量子AI芯片、光电组合AI芯片等。 随着大模型面临收益递减、资源浪费等困境,书中接着将目光投向 “后Tran
    发表于 07-28 13:54

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    数据中挖掘有价值信息,这也让我意识到架构设计对模型性能起着根本性作用,是 AI 具备强大能力的 “骨骼” 支撑。 二、流水线并行 书中关于流水线并行的内容,展现了提升计算效率的巧妙思路。简单流水线并行虽
    发表于 07-20 15:07

    龙芯处理器支持WINDOWS吗?

    龙芯处理器目前不支持原生运行Windows操作系统,主要原因如下: 架构差异 龙芯架构:龙芯早期基于MIPS架构,后续转向自主研发的LoongArch指令集(与x86/ARM不兼容
    发表于 06-05 14:24

    技术分享 | 如何在2k0300(LoongArch架构处理器上跑通qt开发流程

    技术分享 | 如何在2k0300开发板(LoongArch架构处理器上跑通qt开发流程
    的头像 发表于 05-20 11:05 652次阅读
    技术分享 | 如何在2k0300(LoongArch<b class='flag-5'>架构</b>)<b class='flag-5'>处理器</b>上跑通qt开发流程

    Cadence推出Tensilica NeuroEdge 130 AI处理器

    Vision DSP 系列的成熟架构,能够在不影响性能的情况下,将面积缩减超过 30%,并将动态功耗和能耗降低超过 20%。此外,该处理器还利用相同的软件、AI 编译、库和框架,加
    的头像 发表于 05-17 09:38 1051次阅读

    光子 AI 处理器的核心原理及突破性进展

    电子发烧友网(文 / 李弯弯)光子 AI 处理器,作为一种借助光子执行信息处理与人工智能(AI)计算的新型硬件设备,正逐渐崭露头角。与传统基于晶体管的电子
    的头像 发表于 04-19 00:40 3634次阅读

    在线研讨会 @4/10 ASTRA™赋能边缘 AI探索 Synaptics SL &amp;amp; SR 处理器的无限可能

    边缘AI探索SynapticsSL&SR处理器的无限可能”主题研讨会。介绍SynapticsASTRA系列AI处理器,包括SL和SR系列,
    的头像 发表于 04-02 16:34 851次阅读
    在线研讨会 @4/10 ASTRA™赋能边缘 <b class='flag-5'>AI</b>:<b class='flag-5'>探索</b> Synaptics SL &amp;amp; SR <b class='flag-5'>处理器</b>的无限可能

    端侧 AI 音频处理器:集成音频处理AI 计算能力的创新芯片

    对人工智能应用日益增长的需求。   集成音频处理AI 计算能力 端侧 AI 音频处理器的组成结构通常较为复杂,常采用多核异构架构,将不同
    的头像 发表于 02-16 00:13 3059次阅读