0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于处理器架构探索的混合创新

星星科技指导员 来源:嵌入式计算设计 作者:Deepak Shankar 2022-11-21 16:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

架构探索一直是产品设计的圣杯。它有可能彻底改变产品工程。研究和用例评估表明,在架构探索期间,可以实现 80% 的系统优化和几乎 100% 的性能/功耗权衡。

不幸的是,架构探索未能起飞,除了在公司投入大量资源和时间的利基口袋。架构探索一直被高度误解,并且已经推出了声称架构探索的产品,但它们是现有产品(如指令集模拟器、软件时序分析和硬件验证)的包装器。使用一组类库突出显示语言不足以建立方法、轻松创建模型、根据基准进行验证以及性能系统优化。

架构探索的主要障碍是缺乏高端内核、互连、缓存和存储器的架构模型。有限的模型范围往往适用于架构探索不会增加重要价值的低端处理器,周期精确的模型每秒最多运行 1,000 条指令,需要很长时间来安装、学习和组装,并且在 IP 交付后发布。这些模型需要数周时间才能运行一个基准测试,并且对于比较验证非常有用。此外,它们不能跨核心、SoC、系统和软件进行扩展。

架构模型对于 IP 提供商和 EDA 供应商来说往往优先级较低,因为他们必须提供 RTL 和软件工具,如编译器、调试器和验证 IP。此外,为大规模分发创建架构模型需要特殊的技能,因为该过程会针对每个核心类型重新开始。组装需要很长时间,需要多种资源,并且运行速度极慢。每个新的处理器内核都有如此多的变化 - 缓存的读/写宽度,多线程,ISA版本,可变管道阶段,指令调度到执行单元的调度逻辑和指令缓冲区。

具有随机性的传统架构模型,被组装大型系统和数据中心的公司使用。这些模型将模拟不同类型的请求和任务的延迟和功耗。

另一个主要问题是验证过程。对于新处理器,用于验证模型准确性的基准数据有限。对于功耗、缓存命中未命中率和内存吞吐量,此问题更为严重。当然,FPGA 板可以通过使用具有更新的缓存、互连和内存设置的旧版本内核来减轻部分负载。测试新内核正确性的最佳方法是仔细检查每个可能的方案,包括并发执行,为缓存层次结构和 DMA 运行较旧的跟踪,并生成确保绝对覆盖的方案。

Mirabilis Design最近采取的一种方法是在具有图形开发环境的离散事件模拟器上提供混合处理器架构库。这类架构模型消除了早期方法的所有问题。这是一个常见的生成器,它使用电子表格来定义核心配置。内部定序器通过消除不影响流程正确性、性能和功耗的逻辑来优化仿真性能,并提供灵活的选项列表来定义不同的流水线变体。这种方法的优点在于可以快速构建新的甚至不存在的内核。

这种方法具有多种好处,包括:

单个库模块可以将微控制器建模为高性能处理器。

处理器库具有研究单个集群、多核集群组、片上系统和完整系统(如 ECU、雷达或超级计算机)的仿真性能。

此方法提供了一个大型供应商核心库。

混合内核与随机内核不同,具有运行软件跟踪的能力。

扩展库具有所有连接和方法,使生成的内核与缓存、动态系统缓存、TileLink、AMBA AXI、NoC、DDR、LPDDR、GDDR、DMA 和网桥完全集成。

这些使用混合处理器的型号可用于选择时钟速度、缓冲区大小、宽度和容量,同时提供拓扑、路由、信号大小和设备连接。在电源方面,系统模型可以确定最佳电源状态集和最佳电源管理算法。在这个早期阶段分析功率可以深入了解配电、电池容量、充电系统和热要求。混合模型的准确性支持软件性能调整以及调度程序和仲裁程序的选择。

需要为性能生成所需的指标包括延迟、吞吐量、缓冲区占用、命中率、管道停止、MIPS 和周期/指令。对平均和即时功率、能量耗散、每个任务和设备的功率以及能量管理算法的影响进行真正的功率分析指标。高级分析将涵盖功能正确性、发生故障时的行为和服务质量。

要在混合处理器中定义的属性包括对执行单元和延迟周期的 ISA 分配、浮点和整数单元数、每个群集的核心数、顺序和无序的分布以及大/小内核的数量。缓存配置可以涵盖包含/排除、容量、关联性、库计数、暂存器的使用以及各种替换和写入策略。对于互连,吞吐量要求、缓冲区占用、最有效的仲裁算法以及传输突发/闪烁大小。在内存中,该模型可以测量带宽、延迟和跟踪、顺序和随机地址的打开/关闭页。

在 SoC 级别,可以使用 DMA 与 TCP 传输、张量操作探索和拆分锁定安排。必须测试系统是否跨集群的任务分区、内存控制器调度、路由器数量和设备连接。随着系统越来越接近客户部署,可以扩展相同的型号以集成多个处理器集成,最大限度地减少芯片到芯片的开销,将应用程序分发到处理器以及存储策略。

架构师可以从供应商列表中进行选择,也可以在几天内创建一个新供应商。一旦处理器内核实例化,用户可以连接其他半导体IP以形成完整的SoC。在短时间内,用户可以拥有一个多核多集群、基于 NoC 的 SoC,其中包含 GPU、TPU/AI 加速器、存储器、显示器控制器、以太网和其他接口。为了仿真此模型,IO由泊松分布和数据范围生成的数据流触发,处理器执行软件跟踪以执行仿真。多个 SoC 可以通过相干的 PCIe 或 CXL 组合,也可以与高速以太网网络或可靠的 OpenVPX 背板连接。

新的混合处理器对加载/存储行为具有指令感知功能,按顺序/无序执行,支持多指令获取和调度,支持每个管道阶段的不同属性,支持阶段之间的流控制、任务问题的队列、跳转管道阶段、管道和缓存之间的缓冲、可变读写宽度以及抢占支持。混合方法可以扩展到 20 个执行单元,类型分别为整数、浮点数、矢量、分支、加载和存储。同时,每个执行单元的流水线级数可以可变,最多可以定义 20 个。

混合处理器的所有这些新功能都支持使用缓存地址执行软件跟踪。为了准备在此处理器型号上执行的软件,全自动系统会生成用于负载存储的指令序列、指令高速缓存地址和数据高速缓存地址。架构模型与流量和软件执行的结合提供了一个有效的平台来测试内核、缓存、互连和内存的准确性。该测试涵盖了端到端设计的延迟和功耗,还测量了缓存命中率和内存吞吐量。这种新的基准测试方法向用户灌输了信心,并确保了高质量的权衡分析。

新的混合处理器可供使用 ARMRISC-V 内核开发定制 SoC 的系统公司、集成多个非异构主站、加速器、GPU 和其他处理单元的半导体公司以及实施新应用程序和高级 AI/ML 工作负载的 AI 公司使用。在所有市场中,系统和半导体的竞争都非常激烈,新产品的时间表正在缩短。由于半导体短缺,公司必须更长时间地使用现有的SoC,确定新的应用,并支持现有设备上的更多功能。进行广泛的体系结构覆盖将提供实际性能和容量的详细视图,从而为将产品集成到其环境中的客户提供有价值的见解。

混合处理器

的一个重要附带好处是能够运行软件并获得目标配置上软件性能的准确视图。当今的 SoC 配置非常复杂,在 FPGA 上运行它会导致您错过一致性、数据分配、跨集群的工作负载分布以及数据路径和缓存之间的复杂通信。软件团队可及早了解在多核架构上并发运行一组软件任务时的时序和功耗。

同样,每个内核都提供缓存层次结构组织和与项目连接的变体,例如回写、宽度、块大小、预取条件、库、关联性、专用与系统等。然后是来自DDR,LPDDR,GDDR,HBM和商用内存控制器中不同类型的调度程序的存储器。最后,不同的互连选项:特定于供应商的片上网络、极小的 NoC、AMBA 变体和 Tilelink。为此,添加 DMA、网桥、中断、动态共享缓存单元、IO、以太网、CAN/CAN-FD 和 PCIe 以获得完整的要求。

混合处理器是电子设计行业的一项重大创新。它为架构师提供了更多功能,并使团队能够在开发之前可视化系统行为。由于分析速度很快,因此可以实现真正的架构覆盖,并且可以涵盖性能、功耗、服务质量、效率、可靠性和功能正确性。通过添加软件性能分析和调优,所有系统团队都可以在同一环境中参与。随着设计人员参与新应用、小型工艺技术和不断增长的电源要求,混合处理器是未来的趋势。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微控制器
    +关注

    关注

    48

    文章

    8250

    浏览量

    162391
  • 处理器
    +关注

    关注

    68

    文章

    20148

    浏览量

    247146
  • 编译器
    +关注

    关注

    1

    文章

    1669

    浏览量

    51082
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    蜂鸟E203协处理器EAI指令及接口

    处理器扩展,因此Custom指令也称为EAI指令。 EAI指令编码 32位的EAI指令编码格式如下: 1)opcode段:使用RISC-V架构中定义的Custom-1到4的指令组 2
    发表于 10-24 07:23

    基于E203 NICE协处理器扩展指令

    1、实现功能 基于官方提供的demo nice的硬件代码,设计一个基于e203 nice协处理的加法器。 2NICE协处理器理论学习 nice协处理器的作用主要是用于控制通路的管理
    发表于 10-21 14:35

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    1.1RISC-VISA 扩展 1.2 向量协处理器 1.3 与各级存储耦合的NPU 1.4 针对Transformer 模型的架构优化 SwiftTron是一款专用的开源AI加速用于
    发表于 09-12 17:30

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    存在资源利用率不高的问题,但它是基础探索,让 我看到将模型分段处理以实现流水线作业的初步尝试。 而 GPipe 方法的改进,通过微批次处理减少并行气泡,如同给流水线 “疏通血管”,让计算设备的闲置
    发表于 07-20 15:07

    T113-i芯片技术解析:高性能嵌入式处理器创新设计

    性能与功耗之间实现了出色的平衡。  核心架构 T113-i采用异构多核设计,搭载双核ARM Cortex-A7主处理器,主频可达1.2GHz,处理能力达到4000DMIPS。同时配备一个ARM Cortex-M4协
    的头像 发表于 07-17 14:15 851次阅读

    龙芯处理器支持WINDOWS吗?

    龙芯处理器目前不支持原生运行Windows操作系统,主要原因如下: 架构差异 龙芯架构:龙芯早期基于MIPS架构,后续转向自主研发的LoongArch指令集(与x86/ARM不兼容
    发表于 06-05 14:24

    Analog Devices Inc. ADSP1802 SHARC®处理器数据手册

    是32位/40位浮点处理器,优化用于高性能音频应用。该器件具有大型片上RAM、多个消除I/O瓶颈的内部总线以及创新的数字应用接口(DAI)。
    的头像 发表于 05-29 14:36 796次阅读
    Analog Devices Inc. ADSP1802 SHARC®<b class='flag-5'>处理器</b>数据手册

    HPM5E31IGN单核 32 位 RISC-V 处理器

    处理器,凭借其卓越的性能和创新的设计理念,为工业控制、物联网和消费电子等领域提供了全新的解决方案。HPM5E31IGN采用精简指令集(RISC)设计,指令集架构完全开源,避免了传统ARM架构
    发表于 05-29 09:23

    技术分享 | 如何在2k0300(LoongArch架构处理器上跑通qt开发流程

    技术分享 | 如何在2k0300开发板(LoongArch架构处理器上跑通qt开发流程
    的头像 发表于 05-20 11:05 656次阅读
    技术分享 | 如何在2k0300(LoongArch<b class='flag-5'>架构</b>)<b class='flag-5'>处理器</b>上跑通qt开发流程

    ADSP1802 SHARC处理器技术手册

    ADSP1802 是一款数字信号处理器 (DSP),具有 Analog Devices, Inc. 超级哈佛架构单芯片计算机 (SHARC) 的 S PackageADSP1802 是一个 32 位
    的头像 发表于 05-12 14:51 1110次阅读
    ADSP1802 SHARC<b class='flag-5'>处理器</b>技术手册

    端侧 AI 音频处理器:集成音频处理与 AI 计算能力的创新芯片

    对人工智能应用日益增长的需求。   集成音频处理与 AI 计算能力 端侧 AI 音频处理器的组成结构通常较为复杂,常采用多核异构架构,将不同类型的处理器核心组合在一起,从而高效
    的头像 发表于 02-16 00:13 3062次阅读

    海光处理器有哪些型号

    海光处理器是基于X86架构研发的国产处理器,拥有自主知识产权,并针对不同市场需求推出了多个系列和型号。以下是海光处理器的主要型号及其分类: 1、产品系列分类 海光
    的头像 发表于 02-13 14:44 2.5w次阅读

    低功耗处理器的优势分析

    就考虑到能耗问题,通过优化架构、工艺和软件来降低功耗的处理器。它们通常采用先进的制造工艺,如FinFET或GAAFET技术,以及高效的电源管理技术,以实现在保持性能的同时减少能耗。 低功耗处理器的优势 1. 节能和环保 减少能源
    的头像 发表于 02-07 09:14 1789次阅读

    量子处理器是什么_量子处理器原理

    量子处理器(QPU)是量子计算机的核心部件,它利用量子力学原理进行高速数学和逻辑运算、存储及处理量子信息。以下是对量子处理器的详细介绍:
    的头像 发表于 01-27 11:53 1776次阅读

    EE-236:将混合信号前端器件与Blackfin处理器结合使用的实时解决方案

    电子发烧友网站提供《EE-236:将混合信号前端器件与Blackfin处理器结合使用的实时解决方案.pdf》资料免费下载
    发表于 01-07 13:51 0次下载
    EE-236:将<b class='flag-5'>混合</b>信号前端器件与Blackfin<b class='flag-5'>处理器</b>结合使用的实时解决方案