0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ARM发布第一代面向AI和机器学习的处理器,架构名为“Trillium”

DPVg_AI_era 来源:未知 作者:李倩 2018-08-27 08:32 次阅读

ARM发布第一代面向AI机器学习处理器,架构名为“Trillium”,吸收了从硬件、数据压缩和编译器方面最成功的创新中的优点,其实是一款兼采众家之长的“聚合体”。ARM表示,该处理器舍弃了高速缓存,兼具英伟达TensorCore的功能、FPGA的可编程性,以及DSP的低功耗处理能力。

在过去的几年中,有几家芯片创业公司一直致力于寻找新的方法来有效地训练和执行神经网络,但在现有技术和理念的基础上,其实真的必要从头做起吗?

本周,在一年一度的Hot Chips会议上,ARM展示了其第一代机器学习处理器,预计今年晚些时候,ARM的合作伙伴就可以使用其IP。

兼采众长,ARM“拼”出世界最好的AI处理器

该处理器架构名为“Trillium”,是由一些我们并不陌生的元素与ARM的逻辑核心捆绑而来的,对于那些需要Nvidia Volta GPU的TensorCore功能的人来说,ARM这款处理器可能意义重大,比如DeePhi神经网络压缩技术(现在是Xilinx的一部分)、FPGA的可编程性,以及DSP的低功耗处理能力。

换句话说,ARM可能刚刚“拼凑”出了世界上最好的AI处理器,这对于那些在大型通用设备上放置大量额外空间的芯片制造商来说,可能会带来很大的麻烦。

ARM的技术总监Ian Bratt本周在Hot Chips上表示,ARM首次涉足AI处理器的设计目标是尽可能的推广,以便能够满足服务器端AI的市场需求,并将自家AI处理器更多用于汽车和具有物联网需求的小型设备上。

Bratt表示:

“在研发第一代机器学习处理器的过程中,我们初期出现了一些失误,将旧框架套用在新问题上。我们知道GPU、CPU和DSP是如何用于机器学习上的,但我们开始研究如何能够清晰地利用每一项技术。我们可以利用CPU的技术处理控制和可编程性问题,用GPU的技术解决数据压缩、数据移动和计算密度等问题,这些都可以提高DSP的效率和开源软件的开发。”

如下图所示,ARM的机器学习架构并没有什么特别之处,但值得注意的是,该架构吸收了从硬件、压缩和编译器方面最成功的创新中的优点。

搭建架构的模块是计算引擎,每块为64 KB的SRAM片,共16块。 MAC引擎(与英伟达的TensorCore不同)是执行卷积化的地方,可编程层引擎负责处理网络各层之间的大部分必要的shuffling。该架构具有DMA引擎,用于与外部存储器接口进行通信。 ARM自己的Cortex技术负责的引擎控制。

不再需要缓存,控制流程大大简化

对于一家以创新为基础公司而言,ARM正在走一条自己的独特道路。公司首次涉足人工智能芯片,芯片的组件都是大家并不陌生的,ARM在用于神经网络的点积(dot product)引擎上做出了一些关键性创新,提升了执行效率、降低了网络噪音。

我们很可能忽略的一个要素是,静态调度(static scheduling)的价值,这是影响芯片整体性能和效率的关键部分。

存储器的访问模式完全是可静态分析的,并且很容易理解和映射,但是许多设备没有利用这一点。 CPU具有复杂的高速缓存层次结构,可以用于非确定性存储器访问进行优化,但对于确定性的神经网络,可以提前将所有内容放在内存中。然后,编译器为不同的组件生成命令流(由ARM控制处理器进行编配),到达寄存器以控制这些组件。

简而言之就是:不需要缓存。此外还有一个好处是流量控制流程被大大简化,可以进一步降低能耗,提升处理器性能的可预测性。

处理卷积化的方式可以进一步提高效率。下图中的SRAM突出了编译器是如何为输入特征映射和压缩模型分配部分资源的。每个计算引擎都将使用跨越不同计算引擎的不同特征映射。

ARM的MAC引擎可以做8个16×16点积。我们已经讨论了这一点的重要性,但是在这些操作中有很多零,可以在MAC引擎中进行检测和调整,以避免浪费更多的能量。

ARM芯片还具备可编程层引擎,旨在通过可编程性“预见”处理器的。它使用Cortex CPU技术来支持非卷积运算符,以及向量和神经网络扩展。

使用机器学习处理器特征映射压缩技术可以获得更高的效率,这些技术听起来和DeePhi在CNN压缩上的作用类似。

打造通用平台,实现机器学习与现有流程的整合

Bratt表示,目前ARM的机器学习业务部门拥有150名员工,随着对机器学习需求的不断增长,这一数字也会不断增加,并将机器学习整合到新的和现有的工作流程和配置中。他表示,我们的目标是让这项工作横跨一系列细分市场,但是要为一类用户提供一个具备其所需全部功能的通用平台并不简单。

不用高速缓存、精简压缩流程、使用混合精度算法,并与精简化的SRAM片上计算相结合,将其移植到密集的点积引擎上,这些都使得ARM的芯片IP成为市场上的一个引人注目的焦点,而且可以针对关键的工作负载做进一步的细化。

与某些AI专用处理器相比,ARM处理器增加了高带宽内存(HMC)可能使其更容易识别,但是需要授权用户了解这些组件系统中协同工作的方式。 ARM工程师真正从生态系统中汲取了最佳的AI处理器技术,并使用开源软件挂钩,可能大幅扩大授权许可范围。

上图所示为Inception V3上的8X8块,突出表示了通过零/非零滤波方法实施的无损压缩结果,显著降低了神经网络的规模。压缩结果保留在内部SRAM中,并且在SRAM中保留了网络修剪技术,以便在需要时使用。

对这类技术进行授权时的选择并不多,同时ARM也要确定,在现有的神经网络处理器中有哪些最成功的、值得汲取的技术和组件。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    134

    文章

    8643

    浏览量

    361648
  • 编译器
    +关注

    关注

    1

    文章

    1570

    浏览量

    48603
  • 机器学习
    +关注

    关注

    66

    文章

    8095

    浏览量

    130516

原文标题:Arm首代AI架构如此彪悍!集英伟达、英特尔、赛灵思三位优势于一体

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    《数据处理器:DPU编程入门》读书笔记

    AI机器学习、安全、电信和存储等应用,并提升性能,减轻虚拟化Hypervisor的工作负载。同时,它还具备开放性集成功能,未来支持更多功能集成。NVIDIA的DPU还提供统
    发表于 12-21 10:47

    Arm最新处理器架构分析—X4、A720和A520

    上一篇文章我们介绍了Arm的Cortex-X1至Cortex-X3系列处理器,2023年的5月底,Arm如期发布了新一年的处理器
    的头像 发表于 11-29 11:47 2096次阅读
    <b class='flag-5'>Arm</b>最新<b class='flag-5'>处理器</b><b class='flag-5'>架构</b>分析—X4、A720和A520

    简单认识POWER系列架构处理器

    的 POWER ( Performance Optimization With Enhanced RISC) 架构的原型机。1990年 IBM 推出了第一代的 POWER1架构处理器
    的头像 发表于 11-28 09:21 919次阅读
    简单认识POWER系列<b class='flag-5'>架构</b><b class='flag-5'>处理器</b>

    Arm架构学习—开启Armv9时代

    在上一篇文章“从A76到A78——在变化中学习Arm架构”中,我们了解了Arm处理器架构的基
    的头像 发表于 11-27 16:46 592次阅读
    <b class='flag-5'>Arm</b>微<b class='flag-5'>架构</b><b class='flag-5'>学习</b>—开启Armv9时代

    小米机器狗二来了,比上一代更瘦、更快、更强!NVIDIA主控+全志MR813+全志R329协处理器

    台用于嵌入式和边缘系统的 AI 超级计算机,在常规功率下拥有21Tops的算力,2个 NVDLA 引擎深度学习加速、7路VLIW视觉处理器
    发表于 09-06 09:39

    Arm Cortex-R82处理器产品介绍

    用于下一代数据存储和运行新工作量所需的计算性能, 如机器学习( ML ) 。 这是 Arm第一个 Cortex- R 进程, 用于支持L
    发表于 08-25 08:08

    Arm Cortex-M55处理器数据集

    ARM Cortex-M55处理器款完全可合成的中端微控制处理器,实现了ARMv8.1-M主线
    发表于 08-25 07:46

    Arm Cortex-R82处理器技术参考手册

    Cortex®-R82处理器款中等性能的多核有序超标量处理器,适用于实时嵌入式应用。 Cortex®-R82处理器采用ARM®V8-R
    发表于 08-17 07:45

    ARM Cortex-M85处理器软件优化指南

    Cortex®-M85处理器款完全可合成的高性能微控制处理器,实现了Arm®v8.1‑M主线架构
    发表于 08-10 07:43

    ARM Cortex-M85处理器技术参考手册

    Cortex®-M85处理器款完全可合成的高性能微控制处理器,它实现ARM®v8.1-M主线架构
    发表于 08-09 07:28

    Arm Ethos-U NPU处理器入门指南

    感谢您使用Arm Ethos-U NPU处理器系列。为您提供最好的使用Arm Ethos-U NPU开发机器学习(ML)应用程序的经验设计我
    发表于 08-08 06:17

    ARM920T处理器技术参考手册

    高速缓存体系结构处理器,适用于全内存管理、高性能和低功耗至关重要的多程序应用。此设计中的独立指令和数据缓存大小分别为16KB,具有8字线长度。ARM920T处理器实现了个增强的
    发表于 08-02 13:05

    如何使用Arm CMSIS-DSP实现经典机器学习

    的使用CMSIS-DSP开源库中的其他技术。 CMSIS-DSP库是Arm针对各种Arm优化的丰富的DSP函数集合Cortex-M处理器,如Cortex-M4、Cortex-M7、Cortex-M33
    发表于 08-02 07:12

    国产第二“香山”RISC-V 开源处理器计划 6 月流片:基于中芯国际 14nm 工艺,性能超 Arm A76

    月流片,性能超过 2018 年 ARM 发布的 Cortex-A76,主频 2GHz@14nm,SPEC 2006 得分为 20 分。香山用湖来命名每
    发表于 06-05 11:51

    中科院发布“香山”与“傲来”两项开源处理器芯片

    中科院计算技术研究所副所长包云岗介绍了目前全球性能最高的开源高性能RISC-V处理器核项目“香山”。他指出,计算技术研究所对标ARM Cortex-A72,已于2021年成功研制出第一代“香山
    发表于 05-28 08:43