0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

神经处理器GPNPU支持ML的SoC架构

sakobpqhz 来源:算力基建 作者:算力基建 2022-12-20 11:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Performance, Power, Area(PPA)是半导体行业中常用的衡量标准。这三个指标对开发的所有电子产品都产生了巨大的影响。影响的程度当然取决于具体的电子产品以及目标终端市场和应用。因此,PPA权衡决策由产品公司在为各自的终端产品选择各种芯片(以及ASIC的IP)时做出。

另一个重要的考虑因素是在不需要重新设计的情况下确保产品的寿命。换句话说,就是让自己的产品适应不断变化的市场和产品需求。虽然产品公司在重新设计之前会采用辅助方法来延长产品的使用寿命,但直接提供future proofing的解决方案是首选的方法。例如,在需求快速变化的市场积极增长时期,FPGA在面向未来的通信基础设施产品中发挥了关键作用。当然,替代路径可能比FPGA路径提供更好的PPA收益。但是FPGA路径通过避免重新设计帮助产品公司节省了大量的时间和金钱,并确保他们能够保持或增长他们的市场份额。

还有一个考虑因素是,开发产品的路径可以提供方便和速度。这直接转化为上市时间,进而转化为市场份额和盈利能力。最后,客户可以轻松地在产品上开发应用软件。

01市场情况

人工智能AI)驱动的、支持机器学习(ML)的产品和应用正在快速增长,并带来巨大的市场增长机会。新的ML模型正在快速引入,现有的模型也在增强。市场机会范围从数据中心到边缘人工智能产品和应用。许多针对这些市场的产品无法在PPA和产品/应用程序开发的易用性之间进行权衡。

如果有一种方法可以提供PPA优化、future proofing、便于产品和应用程序开发,所有这些都集中到一个产品中会怎么样呢?它是一个统一的体系结构,简化SoC硬件设计和编程的混合处理器IP。可以解决ML推理、预处理和后处理的一体化问题。

02新型混合SoC处理器

最近,Quadric宣布了第一个通用神经处理器(GPNPU)系列,这是一种半导体知识产权(IP)产品,融合了神经处理加速器和数字信号处理器(DSP)。IP使用一个统一的体系结构,解决ML性能特征和DSP功能,具有完全的C++可编程性。本文将从一个典型的支持ML的SoC架构的组件、其局限性、Quadric产品、优点和可用性等方面展开介绍。

03典型的支持ML的SoC架构的组件

支持ML架构的关键组件包括神经处理单元(NPU)、数字信号处理(DSP)单元和实时中央处理单元(CPU)。NPU用于运行当今最流行的ML网络的图形层,并且在已知的推理工作负载上表现非常好。DSP用于有效地执行语音和图像处理,并涉及复杂的数学运算。实时CPU用于协调NPU、DSP和存储ML模型权重的内存之间的ML工作负载。通常,只有CPU可直接供软件开发人员用于代码开发。NPU和DSP只能通过预定义的应用程序编程接口(API)访问。

04典型架构的局限性

如上所述,典型的加速器NPU不是完全可编程的处理器。虽然它们非常高效地运行已知的图形层,但它们不能随着ML模型的发展而运行新的层。如果需要通过API不可用的ML操作符,则需要将其添加到CPU上,因为知道它的性能会很差。该架构不适合新ML模型和ML操作符的future proofing。充其量,可以通过在实时CPU上实现新的ML操作符来呈现性能较低的解决方案。

另一个限制是,程序员必须在NPU、DSP和实时CPU上划分代码,然后调整交互以满足期望的性能目标。典型的架构还可能导致在NPU核和CPU核之间拆分矩阵操作。由于需要在内核之间交换大数据块,因此此操作会导致推断延迟和功耗问题。

来自不同IP供应商的多个IP核迫使开发者依赖于多个设计和生产力工具链。必须使用多个工具链通常会延长开发时间,并使调试具有挑战性。

05Quadric方法的好处

Quadric的Chimera GPNPU家族为ML推理和相关的传统C++图像、视频、雷达和其他信号处理创建了统一的单核体系结构。这允许将神经网络和C++代码合并到单个软件代码流中。内存带宽通过单一的统一编译堆栈进行优化,并使功耗显著减小。编程单核系统也比处理异构多核系统容易得多。标量、向量和矩阵计算只需要一个工具链。

统一的Chimera GPNPU架构的其他好处包括,由于不必在NPU、DSP和CPU之间移动激活数据,从而节省了面积和功耗。统一的核心架构大大简化了硬件集成,使性能优化任务更加容易。

分析内存使用情况以确定最佳片外带宽的系统设计任务也得到了简化。这也直接导致了功率最小化。

d067e60e-8013-11ed-8abf-dac502259ad0.png

06应用程序开发

Chimera软件开发工具包(SDK)允许通过两步编译过程将来自通用ML训练工具集的图代码与客户的C++代码合并。这导致可以在统一的Chimera单处理器核心上运行的单一代码流。目前广泛使用的ML训练工具集有TensorFlow、PyTorch、ONNX和Caffe。实现的SoC的用户将拥有对Chimera所有核心资源的完全访问权,以实现应用程序编程的最大灵活性。整个系统也可以从单个调试控制台进行调试。

d083b488-8013-11ed-8abf-dac502259ad0.png

07在不损失性能的情况下

实现future proofing

Chimera GPNPU架构擅长处理卷积层,这是卷积神经网络(CNNs)的核心。Chimera GPNPU可以运行任何ML操作符。通过使用Chimera计算库(CCL) API编写C++内核并使用Chimera SDK编译该内核,可以添加自定义ML操作符。自定义运算符的性能与本地运算符相同,因为它们利用了Chimera GPNPU的相关核心资源。

SoC开发人员可以在SoC被剥离后很长时间内实现新的神经网络运算符和库。这本身就大大增加了芯片的使用寿命。

软件开发人员可以在产品的整个生命周期中继续优化他们的模型和算法的性能。他们可以添加新的特性和功能,为他们的产品在市场上获得竞争优势。

08Quadric的当前产品

Chimera架构已经在芯片领域得到了快速验证。QB系列GPNPU的整个家族可以在主流的16nm和7nm工艺中使用传统的标准电池流和常用的单端口SRAM实现1GHz的工作。Chimera核心可以针对任何芯片铸造厂和任何工艺技术。

Chimera GPNPU系列的QB系列包括三个核心:

Chimera QB1 -每秒1万亿次机器学习运算(TOPS),每秒64千兆次DSP运算(GOPs); Chimera QB4 - 4 TOPS机器学习,256 GOP DSP;

Chimera QB16–16 TOPS机器学习,1 TOPS DSP;

如果需要,可以将两个或多个Chimera核心配对在一起,以满足更高级别的性能要求。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20378

    浏览量

    255618
  • 半导体
    +关注

    关注

    339

    文章

    31480

    浏览量

    267644
  • soc
    soc
    +关注

    关注

    40

    文章

    4658

    浏览量

    230592

原文标题:一种新的混合SoC处理器—GPNPU

文章出处:【微信号:算力基建,微信公众号:算力基建】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MPC180LMB安全处理器:功能、架构与应用全解析

    MPC180LMB安全处理器:功能、架构与应用全解析 在当今数字化时代,网络安全至关重要,安全处理器在保障数据安全方面发挥着关键作用。Freescale Semiconductor
    的头像 发表于 04-10 11:30 213次阅读

    恩智浦全新i.MX 93W应用处理器重磅发布

    恩智浦半导体宣布推出i.MX 93W应用处理器,进一步扩展其i.MX 93产品系列。这款i.MX 93W片上系统(SoC)专为加速物理AI的部署而设计,是首款将专用AI神经处理器(NP
    的头像 发表于 03-16 09:45 2635次阅读

    SMJ320C80数字信号处理器架构、特性与应用全解析

    SMJ320C80数字信号处理器架构、特性与应用全解析 在当今数字化的时代,数字信号处理器(DSP)在众多领域中发挥着至关重要的作用。SMJ320C80作为一款高性能的单芯片并行处理器
    的头像 发表于 03-06 16:55 1191次阅读

    XC7Z020-2CLG484I 双核异构架构 全能型 SoC

    解决方案,重新定义了嵌入式系统的性能边界与设计自由度。​ 一、核心架构:双核异构融合的技术突破​ XC7Z020-2CLG484I 的核心竞争力源于其独特的 SoC 架构设计,实现了处理器
    发表于 02-28 23:37

    TAS3103A数字音频处理器:特性、架构与应用详解

    TAS3103A数字音频处理器:特性、架构与应用详解 引言 在当今数字化音频处理领域,一款高性能、可配置的音频处理器至关重要。德州仪器(Texas Instruments)的TAS31
    的头像 发表于 02-27 16:25 365次阅读

    【「龙芯之光 自主可控处理器设计解析」阅读体验】--全书概览与概述

    指令集架构避免“卡脖子”问题。 SoC包括中央处理器(CPU)、总线、内存、定时、外围接口等。 CPU在结构上大致分为运算、控制
    发表于 01-18 12:58

    瑞芯微SOC智能视觉AI处理器

    RK3568B2: 一款性能均衡、接口丰富的中高端AIoT应用处理器,是RK3568的优化版本,主打稳定与可靠性。CPU/GPU: 延续RK3568的4核A55 + G52 GPU架构,性能可靠
    发表于 12-19 13:44

    算力积木+3D堆叠!GPNPU架构创新,应对AI推理需求

    落地的关键瓶颈。在此背景下,云天励飞推出其第五代芯片架构——GPNPU(General-Purpose Neural Processing Unit,通用神经网络处理单元),以一场底层
    的头像 发表于 12-11 08:57 8235次阅读

    人脸识别和AES加密协同的SOC设计架构

    这个是我们整体的架构图。我们SOC主要包括了三个模块组,计算核心组,系统外设组,数据外设组。计算核心组包括了RISCV内核,RISCV内核中集成了一个ITCM和DTCM的指令存储和数据存储
    发表于 10-29 08:21

    【VPX650 】青翼凌云科技基于 VPX 系统架构的 VU13P FPGA+ZYNQ SOC 超宽带信号处理平台

    系列 FPGA(XCVU13P)作为主处理器,完成复杂的数 据采集、回放以及数据预处理。采用 1 片 ZYNQ SOC 来完成信号处 理算法。 
    的头像 发表于 10-16 10:48 926次阅读
    【VPX650 】青翼凌云科技基于 VPX 系统<b class='flag-5'>架构</b>的 VU13P FPGA+ZYNQ <b class='flag-5'>SOC</b> 超宽带信号<b class='flag-5'>处理</b>平台

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    下载,没有外部依赖性或特殊运行要求。它们可随时集成到在任何 Arm Cortex-M 系列处理器上运行的任何应用中,如 nRF52、nRF53、nRF54L 和 nRF54H 系列 SoC
    发表于 08-31 20:54

    德州仪器AM68x Jacinto 8处理器技术解析

    Texas Instruments AM68x 64位Jacinto™ 8 TOPS Vision SoC处理器是一款基于Eval Jacinto 7架构的可扩展处理器。该系列面向智能
    的头像 发表于 08-27 15:08 1470次阅读
    德州仪器AM68x Jacinto 8<b class='flag-5'>处理器</b>技术解析

    一文了解Arm神经超级采样 (Arm Neural Super Sampling, Arm NSS) 深入探索架构、训练和推理

    本文将从训练、网络架构到后处理和推理等方面,深入探讨 Arm 神经超级采样 (Arm Neural Super Sampling, Arm NSS) 的工作原理,希望为机器学习 (ML
    的头像 发表于 08-14 16:11 3366次阅读

    龙芯处理器支持WINDOWS吗?

    龙芯处理器目前不支持原生运行Windows操作系统,主要原因如下: 架构差异 龙芯架构:龙芯早期基于MIPS架构,后续转向自主研发的Loo
    发表于 06-05 14:24

    HPM5E31IGN单核 32 位 RISC-V 处理器

    HPM5E31IGN单核 32 位 RISC-V 处理器在当今嵌入式系统领域,RISC-V架构正以开源、灵活和高性价比的优势快速崛起。HPM5E31IGN作为先楫半导体的一款单核32位RISC-V
    发表于 05-29 09:23