0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Imagination性能高达600TOPS的终极AI加速器:耗时两年 会给NVIDIA带来多少挑战?

工程师邓生 来源:雷锋网 作者:包永刚 2020-11-16 09:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

曾经统治手机GPU IP市场的Imagination,历经变动之后,目前在移动GPU IP市场占有率有36%,汽车GPU IP市占率43%。近来,Imagination近期发布的一系列新品不仅是其实力的展现,也足以让同行们增加对这位老对手的关注。

11月13日,Imagination发布了耗时两年研发的最新的第三代神经网络加速器(NNA)产品IMG Series4,其全新的多核架构可提供600 TOPS(每秒万亿次操作)甚至更高的超高性能,主要面向先进驾驶辅助系统(ADAS)和自动驾驶应用。

以低功耗产品见长Imagination推出高性能的终极AI加速器,会给在自动驾驶汽车芯片市场占有领导地位的NVIDIA多大的冲击?

耗时两年打造的终极AI加速器

Imagination在AI火热的2017年推出首代神经网络加速器(NNA)PowerVR 2NX,单核性能从1TOPS到4.1TOPS。紧接着,2018年PowerVR 3NX发布,单核性能从0.6TOPS到10TOPS,多核产品性能从20TOPS到160TOPS。

性能增强的同时,Imagination的NNA主要面向的市场也从2NX时的移动设备和汽车市场,进一步拓展到智能相机监控、消费电子(尤其是数字电视)、低功耗IoT智能设备领域。

时隔两年之后,Imagination才推出第三代NNA产品4NX。4NX系列的单核性能进一步提升,每个单核能以不到1瓦的功耗提供12.5TOPS的性能。相比前两代NNA,新一代产品强调的是全新多核架构,这个新的多核架构支持在多个内核之间对工作负载进行灵活的分配和同步,从而实现更高性能。

Imagination Technologies产品管理部门总监Gilberto Rodriguez介绍:“我们的软件提供了精细的控制能力,并通过对多个工作负载进行批处理、拆分和调度而提高了灵活性,可以在任意数量的内核上使用。Series4可为每个集群配置 2个、4个、6个或者8个内核。1个8内核的集群可以提供100TOPS的算力,配有6个8核集群的解决方案就可以提供600 TOPS的算力。”

据悉,在AI推理方面,Series4 NNA的性能比嵌入式GPU快20倍以上,比嵌入式CPU快1000倍。

至于为什么要推出如此高性能的AI加速器,Gilberto Rodriguez表示,“ADAS和自动驾驶对芯片有很高的算力需求,比如L2+的驾驶员检测或语音/手势控制需要10TOPS的性能,L3-L4级别的自动驾驶有50-100TOPS的性能需求,L5级别的自动驾驶性能需求超过500TOPS。”

“虽然市场上已经有满足自动驾驶需求的AI芯片,但功耗不够理想。所以,我们花两年时间去了解和评估客户需求,基于我们的前两代低功耗的产品,推出了高性能低功耗的4NX系列产品,并且将自动驾驶作为主打市场,也可以应用于数据中心和桌面级GPU。” Imagination Technologies视觉和人工智能部门高级总监Andrew Grant表示。

600TOPS的高性能如何兼顾低功耗?

需要指出的是,4NX系列的8内核集群要实现100TOPS的性能,超过30 TOPS/Watt 的性能功耗比,以及超过12 TOPS/mm^2 的性能密度是要在5nm节点实现。

Gilberto Rodriguez也提到,如果要用多个集群实现更高算力,Imagination可以提供多集群的协同机制,但也需要客户在应用层进行一些设计。

多核灵活架构带来的可扩展性让4NX可以实现高性能,但对于高性能芯片而言,功耗的控制也非常关键,特别是AI芯片。AI芯片需要处理大量的数据,并且数据的搬运耗费的功耗远大于数据处理,因此,高性能AI芯片必须想办法尽量减少数据的搬运,同时降低延迟和节省带宽。

对于延迟的降低,Imagination采用的方法是单核组成2核、4核、6核或8核的多核集群中,所有内核可以相互协作,并行处理一个任务,降低处理延迟,缩短响应时间。当然,集群中和多核既可以共同执行一个批处理任务,也可以分别运行各自不同的网络,也就是各个内核能够独立运行。

核数的增加带来性能提升的同时降低延迟

不同的核独立运行

4NX更大的亮点在于其节省带宽的Tensor Tiling( Imagination’s Tensor Tiling,ITT)技术,这是Imagination正在申请专利的技术,也是4系列中新增的功能。Tensor Tiling技术利用本地数据的依赖性将中间数据保存在片上存储器中,最大限度地减少将数据传输至外部存储器,相比上代产品,将带宽降低多达90%。

具体而言,神经网络的多层以融合内核的形式运行在加速器的硬件流水线里,融合内核之间的特征图(Feature Map)需要通过外部存储进行交换。Tiling技术是充分利用紧耦合的 SRAM 来融合更多的层,更多的层被融合之后,就减少了需要通过外部存储交换的特征图,进而达到提升效率,节省带宽的目的。

还需要说明一下Tensor Tiling技术中的批处理和拆分,批处理是分配适合批处理的大量的小型网络任务到每个独立工作的NNA单核,能够提升并行处理能力。拆分则是任务在多个维度被拆分,所有NNA单核共同执行一个推理任务,减少网络推理延迟的同时,在理想情况下协同并行处理的吞吐量与独立并发处理的相同,非常适合网络层很大的网络。

当然,Tensor Tiling的拆分是通过Imagination提供的编译器来完成,不需要开发者手动完成,并且利用NNA的性能分析工具能够对AI任务进行更好地调度和分配。

那Tensor Tiling在节省带宽的同时能否减少数据的搬移?Gilberto Rodriguez表示,“答案是肯定的。一方面,Tensor Tiling让待处理数据通过内存带宽的传输减少,另一方面,重复利用的神经网络权重给处理器核的传输次数也减少,这让就可以有效减少数据搬运。”

硬件上层的工具链方面,Imagination的离线和在线工具组成的工作流程可以让开发者更快实现部署。

NVIDIA在自动驾驶领域将迎来新对手?

NVIDIA在2015年就推出了车载计算平台,此后持续迭代,目前在自动驾驶芯片市场已经处于优势地位。不过,擅长桌面级GPU的NVIDIA能够提供高性能,但功耗可能对于电池供电的电动汽车不够友好。这也是在对功耗要求比较严格的移动端有优势的Imagination的机会所在。

与NVIDIA有所不同,Imagination是IP提供商,并不会直接提供芯片。因此,Imagination可以与领先的汽车行业颠覆者、一级供应商、整车厂(OEM)和汽车系统级芯片(SoC)厂商合作,推出有竞争力的产品。为了帮助合作伙伴更好进入这一市场更快推出车规级产品,此次推出的NX4还包含IP级别的安全功能且设计流程符合ISO 26262标准。ISO 26262是旨在解决汽车电子产品风险的行业安全标准。

新推出的4系列NNA可以在不影响性能的情况下,安全地进行神经网络推理。硬件安全机制可以保护编译后的网络、网络的执行和数据处理管道。

Andrew Grant透露,已经开始提供授权,并将于2020年12月在市场上全面供应。授权的客户目前已经不止一家。

这就意味着,自动驾驶芯片市场将会迎来更多有竞争力的产品。雷锋网认为,Imagination更强的GPU和NNA产品组合将会帮助更多想要进入这一市场的公司推出更有竞争力的产品。上个月,Imagination发布了最新一代的IMG B系列高性能GPU IP,这款多核架构GPU IP 4个系列内核有33种配置。

更通用的GPU和更专用的AI加速器,显然可以给高性能计算带来更多的选择。有意思的是,NVIDIA目前也拥有性能强劲的GPU和AI加速Tensor Core的组合。

ABI Research预计,到2027年左右,对ADAS的需求将增长两倍,但汽车行业已然将目光投向了更远的全自动驾驶汽车和自动驾驶出租车,从L2和L3级ADAS向L4和L5级全自动驾驶演进的过程中,高性能、低延迟和高能效的结合将是关键所在。

巨大的市场机会之下,两家芯片产品优势类似的公司,会如何竞争?

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109081
  • imagination
    +关注

    关注

    1

    文章

    617

    浏览量

    63092
  • AI加速器
    +关注

    关注

    1

    文章

    73

    浏览量

    9434
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVID
    的头像 发表于 12-01 09:25 487次阅读

    边缘计算中的AI加速器类型与应用

    提升AI应用的性能。在边缘计算中,有多种类型的AI加速器,各自具有不同的优势、局限性和适用场景。AI加速
    的头像 发表于 11-06 13:42 422次阅读
    边缘计算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>类型与应用

    亚马逊云科技第三期创业加速器圆满收官 助力初创释放Agentic AI潜力 加速全球化进程

    北京——202510月28日 ,亚马逊云科技第三期创业加速器项目圆满收官。35家入营企业齐聚一堂,分享了各自的业务发展情况,以及参与本期加速器的收获及体验。第三期创业加速器持续聚焦
    的头像 发表于 10-29 15:18 741次阅读

    BPI-AIM7 RK3588 AINvidia Jetson Nano 生态系统兼容的低功耗 AI 模块

    260 针金手指设计 :机械上与 Jetson Nano 载板 100% 兼容,可重复使用现有硬件投资。 PCIe 3.0 x4高速通道 :支持外部AI加速器(例如TensorRT加速器)。 3.
    发表于 10-11 09:08

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营

    人员将能够在 AI 工厂的构建中轻松部署世界领先的 AI 加速器。作为一款创新解决方案,Cadence Reality Digital Twin Platform 能够在物理实施之前,根据特定服务等级协议对
    的头像 发表于 09-15 15:19 1231次阅读

    荣获大奖项,Imagination新一代GPU引领端侧AI新时代

    “2025半导体市场创新表现奖”评选也正式揭晓,Imagination分别荣获“年度AI市场领军企业奖”与“年度优秀AIIP奖”项大奖。E-SeriesGPU引领端
    的头像 发表于 08-28 11:26 1115次阅读
    荣获<b class='flag-5'>两</b>大奖项,<b class='flag-5'>Imagination</b>新一代GPU引领端侧<b class='flag-5'>AI</b>新时代

    面向半定制AI基础架构的NVIDIA NVLink Fusion技术

    为了高效应对 AI 工作负载,数据中心正在被重构。这是一项非常复杂的工作,因此,NVIDIA 目前正在交付以 NVIDIA 机架级架构为单位的 AI 工厂。为了让
    的头像 发表于 06-06 14:59 1089次阅读
    面向半定制<b class='flag-5'>AI</b>基础架构的<b class='flag-5'>NVIDIA</b> NVLink Fusion技术

    树莓派 AI HAT+ !到手了!我来教你安装!

    Hailo-8L和Hailo-8神经网络推理加速器,提供13和26太赫兹/秒(TOPS种型号。13TOPS变体最适合处理中等工作量,性能
    的头像 发表于 03-25 09:39 1077次阅读
    树莓派 <b class='flag-5'>AI</b> HAT+ !到手了!我来教你安装!

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驱动的工程设计和科学应用

    融合设计专业知识与加速计算,推动科技创新、实现能效和工程生产力方面的突破性进展,引领全球生活新范式 内容提要 ● Cadence 借助 NVIDIA 最新 Blackwell 系统,将求解的速度
    的头像 发表于 03-24 10:14 1217次阅读

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI       美国加利福尼亚州圣何塞 —— GTC  —— 2025 3 月 18 日
    发表于 03-19 15:24 469次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力企业<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> 推理

    嵌入式AI加速器DRP-AI 详细介绍

    的嵌入式设备。此外,人工智能正在不断发展,新的算法不时被开发出来。 在人工智能快速发展的过程中,瑞萨开发了人工智能加速器(DRP-AI)和软件(DRP-AI翻译),既提供高
    的头像 发表于 03-15 16:13 1523次阅读
    嵌入式<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>DRP-<b class='flag-5'>AI</b> 详细介绍

    开源鸿蒙版AI终端主板AIoT-3588A彩页

    AIoT-3588A是一款开源鸿蒙版AI终端主板,基于RK3588八核处理,内置高达6TOPS算力AI
    发表于 02-28 13:58 2次下载

    从图形处理到AI加速,一文看懂Imagination D系列GPU

    Imagination的D系列于2022首次发布,见证了生成式AI从云端到智能手机等消费设备中普及。在云端,由于GPU的可编程性、可扩展性和快速处理AI工作负载的能力,GPU已成为高
    的头像 发表于 02-27 08:33 824次阅读
    从图形处理到<b class='flag-5'>AI</b><b class='flag-5'>加速</b>,一文看懂<b class='flag-5'>Imagination</b> D系列GPU

    Imagination DXTP GPU IP:加速游戏 AI应用,全天候畅玩无阻

    Imagination推出了最新产品——ImaginationDXTPGPUIP,在智能手机和其他功耗受限设备上加速图形和AI工作负载时,保证全天候的电池续航。它是我们最新D系列GPU的最终产品
    的头像 发表于 02-26 08:32 680次阅读
    <b class='flag-5'>Imagination</b> DXTP GPU IP:<b class='flag-5'>加速</b>游戏 <b class='flag-5'>AI</b>应用,全天候畅玩无阻

    英特尔Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    近日,DeepSeek公司发布了备受瞩目的Janus Pro模型,其凭借超强性能和高精度在业界引发了广泛关注。为了进一步提升该模型的应用效能,英特尔宣布其Gaudi 2D AI加速器已针对Janus
    的头像 发表于 02-10 11:10 927次阅读