0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI下沉,Arm的“硬”普及与“软”开放

张慧娟 来源:电子发烧友网 作者:张慧娟 2019-10-30 08:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当以5GIoTAI等作为主要驱动力的第五波浪潮(fifth wave)来袭时,计算领域的发展重新构建了我们的生活。

一直以来,大量的数据从边缘流向云端,但随着数据和设备的数量呈指数型增长,把所有数据都放到云端处理变得越来越不现实,更不用说安全和成本效益。

机器学习(Machine Learning,ML)向“边缘”转移成为必然趋势,它将助力AI在更大范围的普及,推进更为多元化的应用。从整体架构来看,只有提升边缘的智能性,才能解决带宽、功耗、成本、延时、可靠性和安全性等多方面问题。

持续拓宽ML处理器IP覆盖

在日前的Arm Tech Symposia 2019北京站上,Arm宣布进一步扩充其IP组合。这些IP组合沿袭了Arm一直倡导的大小核理念,既有比较高端的配置(如Ethos-N57和Mali-G57),也有入门级的产品(如Ethos-N37和Mali-D37),目的在于将软硬件充分结合,并充分发挥生态系统的力量来提升主流设备的使用体验。

由于消费级设备越来越智能化,通过专属的ML处理器提供额外的AI性能与效率非常有必要。

自从推出Cortex-A73后,Arm便逐步且逐代地提升性能,大幅拓宽针对ML的CPU覆盖。计算能力不断被推升至全新水平,直到最新一代Matterhorn内核,预计其计算性能将提升10倍。

当CPU和GPU面对边缘计算更密集计算、更复杂任务、更高效需求等显现出一定的匮乏时,NPU将派上用场。

继定位于高端设备的Ethos-N77发布后,此次,Ethos NPU家族又添Ethos-N57与Ethos-N37两位新成员,将ML处理器延伸到主流市场。全新的Ethos对成本与电池寿命最为敏感的设计进行了优化,可以为日常生活设备带来优质的AI体验。

Ethos-N57与Ethos-N37的设计理念包括:

针对Int8与Int16数据类型的支持性进行优化;
先进的数据管理技术,以减少数据的移动与相关的耗电;
通过如创新的Winograd技术的落地,使性能比其他NPU提升超过200%。

Ethos-N57旨在提供平衡的ML性能与功耗效率,能够针对每秒2兆次运算次数的性能范围进行优化;Ethos-N37则为了提供面积最小的ML推理处理器(小于1平方毫米)而设计,能够针对每秒1兆次运算次数的性能范围进行优化。

Arm在ML内核方面主要关注数据管理,在设计中更多地注入了智能数据管理的功能和理念,例如数据敏感型的压缩技术、高密度剪枝和稀疏功能等。

Mali-G57:为主流市场带来智能与沉浸式体验的GPU

同时推出的还有将优质智能与沉浸式体验带到主流市场的Mali-G57,是第一个基于Valhall架构的主流GPU。主要针对移动市场中最大的一部分应用,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷等。

Mali-G57关键功能包括:

与Mali-G52相比,各种内容都能达到1.3倍的性能密度;
能效比提升30%,电池寿命更长;
针对VR提供注视点渲染支持,且设备ML性能提升60%,以便进行更复杂的XR实境应用。

Mali-D37:Arm单位面积效率最高的处理器

Mali-D37是一个在最小的可能面积上包含丰富显示与性能的DPU。对于终端用户而言,这意味着当面积成为首要考虑,在例如入门级智能手机、平板电脑与分辨率在2K以内的小显示屏等成本较低的设备上,会有更佳的视觉效果与性能。

Mali-D37关键功能包括:
单位面积效率高,DPU在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1 mm2
通过减少GPU核心显示工作以及包括MMU-600等内存管理功能,系统电力最高可节省30%;
从高阶的Mali-D71保留关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。

ML选择通用还是专用处理器?

是否一定需要专用的ML处理器?能否通过跨IP组合设计,或是对加速器进行优化,从而达到同样的或类似的性能?

对此,Arm市场营销副总裁Ian Smythe表示,这首先取决于是什么样的机器学习负载,如果是关键字识别,确实不需要专门的ML处理器,只需要在Cortex-M上运行推理引擎就可以,因为它本身就具有数据管理的能力,基本适用于一般的传感器系统。但如果是更加复杂的机器学习,就要考虑工作负载的卸载问题了,具体包括硬件方面的成本,以及编程工具的工作量等等。

Arm建议从系统级别出发进行选择,以达到降低功耗、减小芯片面积、提高效率、优化总体设计的目的。以图形处理任务为例,如果用GPU,它在执行任务时会多次访问内存,可能需要强制缩小像素,降低清晰度;但用DPU执行同样的任务,它会在完成任务后直接把数据发给GPU,这时GPU就无需再去访问内存,相当于把GPU的一些工作负载分配给DPU,从而能够节约能耗和带宽。

Arm ML事业群商业与营销副总裁Dennis Laudick强调,Arm的NPU属于通用型。其实现在市场上大部分还是用Arm的CPU来处理ML工作负载,新发布的NPU是对其CPU ML性能的进一步提升,以便提供更多的IP选择。

现在的市场时机之下,Dennis Laudick认为,选择通用型处理器非常合适。就ML处理能力来看,用户对于CPU和GPU的需求还是非常高的,同时也有一些针对NPU的需求。由于AI本身还处于非常初期的阶段,选择通用处理器是比较安全的做法,即便算法迭代非常快,硬件还能够有2到3年的生命周期。

开源Arm NN——标准化前提下的定制化

此次Arm的一个重要举措还有开源类神经网络开发工具包 Arm NN,允许第三方合作伙伴进行定制化——Arm称之为“允许标准化前提下的定制化”。

探究Arm这一举动背后的含义。

首先,当我们真正进入IoT时代时,不论传感器还是其他IoT设备都是万亿级的,客户规模及类型都将指数级增长,Arm需要授予客户能力,让他们能够根据实际需求实现自己指令集的定制化。

其次,可以说市场上一些开源指令集的出现对Arm构成了一定的竞争,Arm虽然能够提供非常全面的指令集产品,但是定制化需求确实越来越强劲。

去年11月,Facebook就曾发表白皮书,要求其开发人员在移动设备上针对Cortex A53 SoC进行优化。由于不同SoC对AI加速的实施方法不同,如果是原生的软件,可以利用SoC的加速能力;但如果是第三方软件(Facebook就属于第三方应用),就很难用到这些SoC的加速能力。

类似的案例,使Arm逐渐认识到了有定制需求的市场规模。通过框架开源,能够允许第三方开发人员接入,在标准的编译访问、工具访问的情况下,只需一次开发就可以获得Arm全系列的硬件产品性能。

此外,Arm也宣布延伸与Unity的合作伙伴关系。目前,有七成VR内容的开发都在Unity工具链中发生,双方将进一步优化基于Arm的SoC、CPU和GPU的性能,使开发人员得以将更多的时间用于创造全新的、沉浸式的内容。

Total Compute理念应对未来复杂边缘计算

应对未来复杂边缘计算的趋势,不难发现,Arm的关注焦点正在从单一的产品演进转化为以应用场景与体验为导向的系统解决方案。

全面计算(Total Compute)的理念被应用到Arm的每一个计算要素,包括CPU、NPU、GPU、DPU,以及互连或系统IP等。初衷在于确保它们是由实际体验所驱动,同时针对解决未来工作负荷的复杂运算挑战进行了优化。

硬件方面普及性不断提升,软件开始一定的开源尝试——这是Arm对于未来计算架构思考方式的重大转变。

在介绍Total Compute理念的时候,Ian Smythe提到了三个因素:性能、可访问、安全。前两个因素主要来自于软硬件的协同发展,而第三个因素——安全,是一切设想得以实现的基础。

Total Compute的安全性基于三个层次:

第一个层级是最基本的平台级安全,涉及标准以及规则,做到合规;
第二个是处理级的安全,指的是处理器运行的软件线程,主要防止通过某一个处理通道发起的攻击,属于深度防御;
第三个是应用级的安全,即虚拟机在云端的应用安全。

在最基本层次的安全方面,Arm将会加强基本安全级别如身份验证、鉴权等工作,同时还有防止分支攻击的方式。此外还有一种安全架构叫做内存时间延展,Arm发现70%的操作系统崩溃或错误,都是因为内存不当的访问造成的,于是和Google共同合作了Arm V8.5,来防止类似的情况发生。

针对应用层安全,Arm与微软、谷歌等公司联合进行了安全架构方面的研究,主要通过编程方式的改变来防范现在比较流行的攻击方式。与剑桥大学共同开发的Prototype能力架构,能够将每个应用独立隔离,如果黑客攻破其中一个应用,其他不受影响。

Arm正在将创新的安全功能整合到Total Compute内,以迎合客户的各种需求。

结语

未来,随着数据类型愈发多样,如大数据应用、分布式存储和部分边缘计算等对多核、高能效计算提出明确需求,单个设备的计算能力固然很重要,但已不再是唯一的关注点,整个系统的计算能力更应该被关注。

这种异构计算需求能否为Arm及其生态发展带来新一轮增长点?Arm生态中的合作伙伴能否从中获得巨大的商业价值?市场还需要持续的发酵和验证。不过,观察他们是如何提升生态系统的高度,找到长久盛放的办法,可以从中得到一些答案。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20149

    浏览量

    247206
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9499

    浏览量

    388756
  • ML
    ML
    +关注

    关注

    0

    文章

    154

    浏览量

    35393
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • IOT
    IOT
    +关注

    关注

    189

    文章

    4369

    浏览量

    206604
  • 边缘计算
    +关注

    关注

    22

    文章

    3472

    浏览量

    52693
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    银再出手?曾考虑收购Marvell,将其与Arm合并

    电子发烧友网报道(文/李弯弯)近日消息,银集团今年早些时候曾考虑收购美国 AI 芯片制造商 Marvell (美满科技),并有意将其与同为银控股的 Arm 合并。不过,据知情人士透
    的头像 发表于 11-10 07:00 1.1w次阅读

    银与日本JDSC就AI开发达成合作

    据外媒报道银与日本JDSC就AI开发达成合作;据悉;JDSC(Japan Data Science Consortium)是一家日本的初创企业;JDSC发布声明称已经与银签署资本及商业联盟协议,将在
    的头像 发表于 10-20 15:37 872次阅读

    Arm获任开放计算项目董事会成员

    Arm 在推动行业开放与制定行业标准方面的独特技术领导力,助力塑造人工智能 (AI) 数据中心的未来格局。作为 OCP 董事会成员,Arm 将携手 Meta、Google、英特尔、微
    的头像 发表于 10-18 14:49 1434次阅读

    开放原子开源基金会莅临通动力参观交流

    近日,开放原子开源基金会理事长兼秘书长程晓明率队莅临通动力总部,与通动力董事长兼首席执行官刘天文等公司高层就开源生态协同与行业落地实践展开深入交流。基金会秘书长助理李博,通动力董
    的头像 发表于 10-09 09:16 449次阅读

    中科曙光发布国内首个开放架构AI超集群系统

    9月5日,在2025重庆世界智能产业博览会上,中科曙光发布了国内首个基于AI计算开放架构设计的产品——曙光AI超集群系统。该系统以GPU为核心,实现了“算、存、网、电、冷、管、”一体
    的头像 发表于 09-06 09:11 1167次阅读

    CoolSiC™ MOSFET G2如何正确选型 开关与开关场景解析

    在功率电子领域,英飞凌的CoolSiCMOSFETG2以其卓越性能备受关注。本文将重点分析如何在开关和开关两种应用场景下,正确选型CoolSiCMOSFETG2,以实现最佳系统性能。
    的头像 发表于 08-26 09:04 5278次阅读
    CoolSiC™ MOSFET G2如何正确选型 <b class='flag-5'>硬</b>开关与<b class='flag-5'>软</b>开关场景解析

    Arm神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,移动设备上实现PC级别的AI图形性能

    应用,该 AI 图形优化升级技术能够以每帧四毫秒的速度实现两倍的分辨率提升 开发者即刻就能通过业界首个神经图形的开放开发套件进行构建,其中包含虚幻引擎插件、模拟器,以及 GitHub 和 Hugging Face 上的开放模型
    的头像 发表于 08-14 17:59 2524次阅读

    通动力总结AI4S领域的大模型应用范式

    近日,在2025世界人工智能大会(WAIC 2025)“AI数算 重构智造产链生态”智能趋势论坛上,通动力集团首席人工智能官金亚东发表题为《AI For Science:于无声处听惊雷,新质生产力
    的头像 发表于 07-30 17:28 1457次阅读

    国际全场景AI实践

    近日,中国际与华为云“同舟共济”战略合作8周年庆典暨“云智能行业赋能,全场景AI正当时”高峰论坛隆重举行,会上中国际副总裁、AI研究院院长万如意博士发表了题为《中
    的头像 发表于 07-24 16:32 767次阅读

    国产EDA龙头打响技术反击战:合见工高端PCB设计软件免费开放试用!

    ”) 于今日正式向用户免费开放关键产品试用与评估服务! 合见工首期开放国产首款高端大规模PCB设计平台UniVista Archer的免费试用! 合见工
    发表于 06-04 14:16 2710次阅读
    国产EDA龙头打响技术反击战:合见工<b class='flag-5'>软</b>高端PCB设计软件免费<b class='flag-5'>开放</b>试用!

    百度地图重磅发布地图AI开放平台

    近日,在WGDC25全球时空智能大会上,百度地图重磅发布地图AI开放平台。百度地图深耕20年的数据能力、引擎能力与AI技术全面开放,向开发者深度开放
    的头像 发表于 05-26 11:26 1382次阅读

    &amp; PLC:自动化控制领域的技术博弈

    在工业自动化的大舞台上,PLC(可编程逻辑控制器)宛如掌控全局的 “智慧中枢”,其重要性不言而喻。随着科技的飞速发展,PLC 逐渐形成了两大不同的分支: PLC 和 PLC。这两者在功能上有诸多相似之处,但在架构和应用场景方面却各有千秋。接下来,我们就深入了解一下它们
    的头像 发表于 03-10 10:22 752次阅读

    二极管桥堆桥和桥区别

    。 2、桥,也叫开关桥,常用的桥包括2个二极管桥和4个开关管桥。桥的开关控制是通过外部电压驱动进行控制,由于使用的都是开关管,因此转换效率相对
    的头像 发表于 02-07 17:20 1799次阅读

    AI视觉赋能雷鸟V3 AI拍摄眼镜发布

    技术,支持拍照、视频录制、开放式耳机等多种实用功能。作为雷鸟V3整体视觉系统的技术赋能方,虹充分融合计算摄影与AI技术,为雷鸟V3的影像与AI交互体验提供强大支撑,赋予用户探索更智能
    的头像 发表于 01-08 10:58 2272次阅读

    Arm平台引领AI云计算革新

    我们正处于一个由人工智能 (AI) 定义的计算时代,其转型速度空前迅速。Arm 一直致力于通过工程创新和技术发展,以可持续且可扩展的方式加速 AI 未来。而这样的愿景也在 Arm 整个
    的头像 发表于 01-03 15:26 1025次阅读