0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么Chimera GPNPU如此充满想象力和令人眼花缭乱呢

SSDFans 来源:SSDFans 2023-01-08 15:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

希腊神话中,Chimera是一种巨大的喷火混血动物,由不同的动物部位组成;现在它被用来描述任何想象力丰富、难以置信或令人眼花缭乱的东西。

笔者最近从Quadric那里接触到Chimera GPNPU(通用神经处理器),真是“产品”如其名。

Quadric公司成立于2017年,最初计划基于其新创Chimera GPNPU架构提供推理边缘芯片 (针对物联网“边缘”推理应用的芯片)。

他们的第一块芯片被快速验证,一些早期用户已经在进行试验。但最近,Quadric公司决定将Chimera GPNPU授权为IP,向更广泛的客户群体展示他们的技术。

下图是利用Chimera GPNPU实现面部识别和认证的简化示意图,我们就以此作为切入点看下为什么Chimera GPNPU如此“充满想象力”和“令人眼花缭乱”。

954d2626-8def-11ed-bfe3-dac502259ad0.png

假设所有这些功能都在智能相机SoC中实现,一个摄像机/传感器为左边的第一个功能块提供视频流。这个应用很可能会用于未来几代的门铃摄像头中。

观察两个粉红色的“Face Detect”和“Face Authentication”功能块,它们是通过人工智能/机器学习(AI/ML)推理实现的。

在过去几年中,这种类型的推理发展极为迅速,从学术研究到早期部署,现在几乎成为软件开发中的一个必不可少的元素。

将推理(基于视觉、声音等形式)作为创建应用程序的构建块之一,这种想法我们可以认为是“软件2.0”。

但这实现起来并不容易,SoC传统应对软件2.0挑战的方式如下(a)所示。

95576e88-8def-11ed-bfe3-dac502259ad0.png

从(a)图中可以看到,神经处理器单元(NPU)、矢量数字信号处理器(DSP)和实时中央处理器(CPU)为三个独立的核心。

要实现前面的面部识别和认证流程,使用常规方法,前两个功能块(Resize和Channel unpack)相关的处理将在DSP核心上执行。

然后,DSP生成的数据将被送到NPU核心上运行神经网络“Face Detect”模型;NPU的输出再送给CPU核心,CPU将运行一个“NMS”算法来决定使用哪个算法效果最好。

然后,DSP将使用CPU识别的边界框在图像上执行更多的任务,如“Crop + Gray Scale”和“Resize”。最后,这些数据将送到NPU核心上运行“Face Authenticate”模型。

用上述方法实现后,我们可能会发现没有达到想要的吞吐率。如何找出性能瓶颈在哪里?另外,三个核心之间交换数据产生了多少功耗?

真正的潜在问题是,拥有三个独立的处理器核心会使整个设计过程变得繁琐。

例如,硬件设计人员必须决定要为每个核心分配多少内存,以及在功能块之间需要多大的缓冲区。同时,软件开发人员需要决定如何在内核之间划分算法。这很痛苦,因为程序员不愿意花大量时间考虑所运行目标平台的硬件细节。

另一个问题是ML模型正在迅速发展,谁都不知道未来几年会有怎样的ML模型。

所有这些问题都会导致ML部署无法尽可能快地加速,因为针对这种类型的常规目标平台进行开发,对于编程、调试和性能调优等方面来说,都是一件非常痛苦的事情。

再回到Chimera GPNPU,它由前面图(b)部分的粉色区域表示。

GPNPU将DSP、CPU和NPU的属性结合在单个核心中,作为一个传统的CPU/DSP的组合,它可以运行C/ C++代码,具有完整的32位标量+向量指令集架构(ISA),同时可以用作一个NN图处理器,运行8位推理优化的ML代码。这种方法通过在同一个引擎上运行两种类型的代码,独特地解决了信号传输的挑战。

我们可以认为Chimera GPNPU是经典的冯·诺依曼RISC机和收缩阵列/2D矩阵架构的混合体。

Chimera GPNPU的一个关键优势是它能够适应不断发展和日益复杂的ML网络。现在东西变得越来越复杂,需要在NN的体系结构中做更多的条件控制流,可以是CNN, RNN, DNN等等。

传统的NPU通常是硬连接的加速器,不能条件执行。例如有一个专用加速器,用户不能在第14层的某个地方停下来检查条件或中间结果,然后分支判断并做各种面向控制流的事情。

在这些情况下,必须在NPU和CPU之间来回移动数据,这将对性能和功耗产生冲击。而使用一个Chimera GPNPU,我们可以在NN和控制代码之间在时钟基础上来回切换。

这里还有很多需要讨论,比如Chimera GPNPU在执行卷积层(这是CNN的核心)方面的出色表现,以及它们的TOPS(每秒万亿次操作)评分,都令笔者非常兴奋。这里不再详细阐述,有需要的读者可以咨询Quadric公司。

最后,笔者想快速概述一下Quadric软件开发工具包(SDK),如下所示。

95615308-8def-11ed-bfe3-dac502259ad0.png

归根结底,一切都是由软件驱动的。使用TensorFlow、PyTorch、Caffe等框架生成的经过训练的神经网络图/模型被送入Apache TVM(一个用于CPU、GPU和ML加速器的开源机器学习编译器框架),生成一个Relay输出(Relay是TVM框架的高级中间表示)。

中继表示的转换和优化由Chimera CGC执行,它将转换和优化后的神经网络输出为C++代码。Chimera LLVM C++ Compiler将这些代码与开发人员的C++应用程序代码合并,所有这些输出为一个可执行文件,运行在目标硅/SoC中的Chimera GPNPU上。

注意,Quadric SDK是作为预打包的Docker映像交付的,用户可以下载并在自己的系统上运行。Quadric很快将把这个SDK托管在Amazon Web Services (AWS)上,从而允许用户通过他们的Web浏览器访问它。

让笔者特别感兴趣的是,Quadric的工作人员正在开发一个图形用户界面(GUI),它可以让开发人员拖放包含CPU/DSP代码和NPU模型的管道构建块,将它们拼接在一起,并将所有内容编译成一个ChimeraGPNPU image。这种无代码开发方法将使大量开发人员能够创建含有Chimera GPNPU的芯片。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SoC系统
    +关注

    关注

    0

    文章

    52

    浏览量

    11141
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136216
  • 数字信号处理器

    关注

    5

    文章

    495

    浏览量

    28281
  • NPU
    NPU
    +关注

    关注

    2

    文章

    358

    浏览量

    20824

原文标题:结合CPU、DSP、NPU功能为一体的新型混合处理器——Chimera GPNPU

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    展会直击:无人机眼花缭乱,芯片卡位低空经济大爆发

    展会直击:无人机眼花缭乱,芯片卡位低空经济大爆发   电子发烧友网报道(文/黄晶晶)5月23日第9届世界无人机大会在深圳会展中心隆重开幕。本届大会展示低空智能制造、无人机、eVTOL、人工智能机器人
    的头像 发表于 05-25 02:35 7722次阅读
    展会直击:无人机<b class='flag-5'>眼花缭乱</b>,芯片卡位低空经济大爆发

    湘军,让算变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    UPS电源售价迷雾重重?读懂这几点,让你的每一分钱都花在刀刃上

    导语:正在为数据中心、医疗设备或家庭办公电脑寻找一台可靠的UPS不间断电源?一查价格,从几百到数万,是不是瞬间眼花缭乱?价格差异的背后,究竟隐藏着怎样的秘密?今天,我们就来拨开迷雾,聊聊UPS售价
    的头像 发表于 11-20 10:45 237次阅读
    UPS电源售价迷雾重重?读懂这几点,让你的每一分钱都花在刀刃上

    乐橙星火L10:一把智能锁,拉开了全景时代的帷幕

    有人说,智能锁发展到今天,已经没有太多新鲜感了。指纹识别、密码开锁、刷卡、人脸识别……花样层出不穷,甚至快让人眼花缭乱。但真的去问用户,他们最在意什么?答案其实很简单:安全,安心。能不能在开门
    的头像 发表于 09-19 11:35 535次阅读
    乐橙星火L10:一把智能锁,拉开了全景时代的帷幕

    广州唯创电子WT588F(C013)语音芯片:赋能智能玩具的“声”动未来

    开启充满想象力的声音世界。一、核心优势:强大功能,奠定互动基石WT588F(C013)芯片专为智能玩具的语音需求深度优化,集多项核心功能于一身:高保真语音播放:支持
    的头像 发表于 08-08 08:09 504次阅读
    广州唯创电子WT588F(C013)语音芯片:赋能智能玩具的“声”动未来

    Samtec技术漫谈 | 开放式Pin针区域的多功能应用逻辑

    摘要前言 世界上有着各种各样的连接器,其中的大多数,很多人可能从未见过。它们存在于手机、电脑、洗衣机和汽车等设备中。 这些连接器的功能和设计种类多得令人眼花缭乱。这让工程师感到困惑,也让那些负责购买
    的头像 发表于 07-23 17:36 1765次阅读
    Samtec技术漫谈 | 开放式Pin针区域的多功能应用逻辑

    Momenta MNP记忆领航辅助驾驶系统轻松应对城市复杂路况

    城市通勤是无数司机每天的“必修课”。路口眼花缭乱的红绿灯、随处可见的临时停车、突然闯入视野的行人或车辆,以及夜晚有限的视线和各种意外状况……这些日常驾驶中的琐碎现象,总在不经意间消耗着驾驶者的精力。
    的头像 发表于 07-07 16:33 1056次阅读

    人工智能重塑电子产业链未来

    AI大模型下半场,应用端的想象力爆炸,有望真正改变一个时代的用户行为的“杀手级应用”初现江湖。
    的头像 发表于 06-23 11:37 908次阅读

    e络盟开售恩智浦新型微控制器和 FRDM 开发板

    安富利旗下全球电子元器件产品与解决方案分销商e络盟宣布开售 NXP® Semiconductors (下称: 恩智浦) 的通用型 MCX 系列工业和物联网微控制器,以及新型 FRDM 开发板平台,释放设计工程师的想象力及创造
    的头像 发表于 04-28 10:09 3454次阅读
    e络盟开售恩智浦新型微控制器和 FRDM 开发板

    支持智能家居设备的常见无线通信技术

    市面上已经出现许多智能家居设备,随着其价格越来越亲民,产品的接受度也越来越高。但是,支持设备之间通信和设备与智能手机通信的各种无线技术则令人眼花缭乱。此类技术采用的协议或标准形式,均各具特色
    的头像 发表于 04-18 11:18 1589次阅读
    支持智能家居设备的常见无线通信技术

    防水等级大揭秘:IPX7、IPX8、IP67、IP68、IP69,到底有啥不一样

    您是不是还在为各种电子产品上眼花缭乱的防水标识感到困惑?别担心!精诚工科今天就带您一次性彻底搞懂IPX7、IPX8、IP67、IP68、IP69这些常见的防水等级,让您从此选购防水产品不再懵圈!一
    的头像 发表于 03-03 11:19 2.4w次阅读
    防水等级大揭秘:IPX7、IPX8、IP67、IP68、IP69,到底有啥不一样

    UOS AI:一键解锁未来办公新姿势

    浏览新闻寻找素材,长篇大论眼花缭乱? 选中内容后 「AI随航」 图标自动显现 ,鼠标悬停图标后点击选择相应功能,几秒帮你总结内容,还能选中想要的内容一键续写润色和花式扩写! 老板夸你“效率堪比 AI
    的头像 发表于 02-19 10:54 1139次阅读
    UOS AI:一键解锁未来办公新姿势

    索尼防眩大师商用显示器在直播间的应用优势

    作为直播间设计搭建的重要环节,现有的直播背景墙方案可谓五花八门,让人眼花缭乱!我们特意请来了第一批索尼电影感直播认证服务商“四川星门科技有限公司”的联合创始人宝儿姐,准备了这份直播背景墙指南,来为大家一一揭晓不同直播背景墙方案的优缺点。
    的头像 发表于 02-18 14:36 823次阅读

    了解物联网天线规格书中的细微差别

    可能会放弃,转而使用其他产品。 许多设计人员面临的问题是,天线解决方案似乎多得让人眼花缭乱,选择过程令人望而生畏。那么,如何为你的设计缩小最佳天线的选择范围? 有些决定是比较容易做出的。首先,找到针对你设计的工作频段进行了优化
    的头像 发表于 01-25 17:50 1277次阅读
    了解物联网天线规格书中的细微差别

    自动驾驶宣传铺天盖地,真实体验却寡淡如水?

    自动驾驶作为汽车行业的“第四次革命”,几乎成了各大车企、科技公司和资本追逐的风口。从令人眼花缭乱的宣传标语,到高度刷屏的自动驾驶广告,这场以未来为蓝图的技术竞赛吸引了无数目光。但当消费者真正接触到
    的头像 发表于 12-29 13:45 1395次阅读