0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浅谈苹果的AI算力进化 大规模升级AI算力的原因

454398 来源:搜狐 作者:脑极体 2020-09-22 10:50 次阅读

苹果秋季新品发布会如约而至,但传闻中的iPhone12却要等到下个月才能见到。发布会仅上新了两款智能手表和两款iPad平板电脑,新品iPad Air 4则搭载了最新处理器芯片A14 Bionic(仿生)处理器。这几款新产品香不香另说,A14 Bionic处理器却成为了此次发布会的最大亮点。

根据苹果的介绍,A14 Bionic处理器是苹果首款采用5nm工艺打造移动设备芯片,晶体管数量相较于A13 Bionic处理器的7nm芯片增加了近40%,晶体管数量达到了惊人的118亿颗。

仅凭工艺制程的提升,A14在性能和功耗表现上自然会有一定的提升。官方宣称,在性能比较上,CPU提升40%,全新GPU构架提升30%。不过,让外界吐槽的是,这一数据是A14跟A12比较得出来的。这让A13情何以堪呢?

而根据苹果之前公布的数据,A13相比A12在CPU和GPU性能上都提高了20%。因此,如果这两代的处理器性能指标测量标准一致的话,则A14的CUP性能仅比A13快了约16%,GPU性能仅比A13提升了约8.3%。可以说,如果排除掉5nm工艺本身所带来的改进,相对A13来说,A14在CPU和GPU核心本身性能上的提升其实并不高。

不过,在AI算力上,A14相比A13则有了非常大的提升,从之前的8核NPU直接翻倍提升到16核NPU。根据苹果的测试,A14的AI运算能力也提升到了11.8万亿次,机器学习速度提升了70%,机器学习加速器则令运算速度快达10倍,将各种机器学习应用的性能表现提升至全新水平。

如果留意就会发现,苹果从A11到A14,每一次在AI运算性能上都做了大幅地提升。尽管我们看到苹果并不总是以AI芯片或者AI智能终端为噱头来做宣传,但事实上苹果iOS系统上已经遍布各种AI应用或者功能,对AI算力增长提出了超高的需求;与此同时,安卓阵营高端芯片厂商在AI芯片上面的频频发力,正在缩短甚至追上与苹果的A系列芯片的差距,这些可能都是构成苹果移动终端芯片的AI算力爆发式增长的缘由。

从A11到A14,苹果的AI算力进化

2017年,AI已经成为大众热议的话题。此时没有一家终端芯片厂商不是以AI作为产品的新噱头,但真正能在AI芯片方面拿得出手的厂商也没有几家。这一年华为的麒麟970横空出世,抢到了首发。10天后,苹果的A11 Bionic也正式发布,A11采用10nm工艺制程、六核CPU、自研三核心GPU设计。

之所以可以称为“AI芯片”,就在于A11首次搭载神经网络引擎处理器单元(Neural Network Processing Unit,NPU),并且在新的神经网络引擎上苹果发布了第一代Core ML,运用本地化人工智能加速器进行机器学习。

A11搭载的NPU采用双核设计,每秒运算次数6000亿次,主要处理机器学习任务,能够识别人物,地点和物体,主要针对的应用是iPhone新推出的人脸识别锁屏FaceID以及人脸关键点追踪Animoji,且NPU算力并不对第三方应用开放。

苹果A11处理器的标志意义,除了成为苹果自主研发程度最高的一代处理器之外,其实也和华为一起真正地打开了移动终端的AI时代。此后几乎所有手机厂商都把AI运算能力当作宣传卖点和升级点。

苹果在2018年推出的A12 Bionic,采用了台积电当时最新的7nm工艺制程,苹果自研的Fusion架构,而神经网络引擎从双核直接升级到八核,能够实现每秒5万亿次计算,比较上一代有了8.3倍的提升。第二代神经网络引擎才是在算力和性能上能够实现更多AI功能。另外,A12采用了全新的智能HDR算法以及core ML带来的图像识别、第三方APP垃圾信息处理等功能,AI应用开始普及。

2019年发布的A13 Bionic处理器,CPU、GPU和NPU的核心数都与A12相同,只是采用了台积电升级版7nm工艺,集成85亿个晶体管,性能、功耗都有了一定提升,而神经网络引擎的峰值算力提升到每秒6万亿次计算,提升幅度并不显著,同样是为面容ID、三摄系统、AR类APP等机器学习应用提供算力支持。不过值得一提的是,通过在CPU中加入2个机器学习加速器,让CPU可以达到每秒1万亿次的矩阵数学运算。同时,Core ML3可以与机器学习控制器配合,自动为CPU、GPU和NPU分配任务。

这次发布的A14处理器芯片上,神经引擎核心数再次翻倍达到16个,每秒运算次数达到了惊人的11.8万亿次,机器学习速度提升了70%,机器学习加速器则令运算速度快达10倍,将各种机器学习应用的性能表现再次大幅提升。

AI应用的“猛虎”,苹果AI芯片大规模升级的内因

根据资料,早在2014年,苹果已经在新一代架构芯片Soc的开发中加入专门的AI芯片。而在此之前,苹果的AI算力是由“CPU+GPU”实现,其自主开发AI芯片的设计思路则是由CPU和GPU处理的AI任务转向由专门的AI芯片进行处理,最终将芯片集成到终端设备上。

与此同时,随着苹果移动终端在拍照摄影、图形处理等应用上面越来越需要用到神经网络和机器学习、深度学习的算法运算,这些需求使得苹果开始考虑将AI应用的运算必须采用神经引擎这一专门定制的处理器单元来完成这些计算。

2017年,苹果的神经引擎处理器正式落地。

不过让外界惊讶的是,为何短短三年之中,A系列芯片的AI算力得到了将近20倍的提升,远远超出Soc芯片其他处理器的性能提升幅度?

一方面是CPU和GPU的性能,在现有的工艺制程进化和既定架构的约束上提升已经非常困难。随着半导体工艺从7nm向5nm、3nm工艺升级,难度会越来越大,而可预期的提升却可能并不显著。反而AI加速器还会有相当大的设计提升空间。

另一方面是,终端应用对于动用CPU和GPU的需求正在达到一个用户的使用极限,因此也没有快速增长的需求,但是这些应用的AI算力需求则在大幅增长。

如果对苹果iOS系统中的用到机器学习相关的功能和应用进行分析的话,我们看到最新两代的iPhone和iPad已然是一部各个部分和细节都在使用AI的终端了。

在苹果终端的细节体验,已经有大量机器学习算法的加持,但相应的体验难以被用户察觉。

比如,机器学习用于帮助iPad的软件区分用户在使用Apple Pencil绘图时到底是不小心将手掌压在屏幕上还是有意提供输入的按压。或者是在监控用户使用习惯,以优化设备的电池寿命和充电频次,既可以改善用户在两次充电之间的时间,又可以保证电池的使用寿命。

还有像iPhone的拍照,用户每次按下快门,设备会快速连续拍摄很多张照片,然后经过机器学习训练的算法会分析每个图像,并将其认为是每个图像的最佳部分合成为一个结果。也就是iPhone拍照的卓越效果很大程度是靠“计算”出来的。苹果正是通过iPhone中对图像信号处理器(ISP)和神经引擎的协同处理,才使得照片质量获得大幅提升。

苹果在终端本地大幅提升神经引擎的运算能力,以及配合图形计算引擎和AI加速等功能,可以在移动终端中执行非常高难度的机器学习任务。比如在iPad Pro上,通过神经引擎的计算能力,结合Project Aero 软件,iPad Pro 能将 PSD 中创作的每一个图层以独立的 AR 对象呈现在屏幕上,每个图层都分离成一幕栩栩如生的景观,这对创作者来说相当具有吸引力。

此外,苹果已经加入的显著的AI新功能,诸如机器学习在翻译、内置听写、输入预测、健康特性分析与预测上面,都需要大量的机器学习参与。

而苹果选择在机器学习任务的本地化计算的另一大原因,可能是为了将数据留在本地,用以保护用户隐私。我们知道,机器学习的本质就是对海量数据进行学习,而数据的采集和分析一直是谷歌、facebook这些互联网公司的“原罪”,作为承诺严格遵守用户隐私数据保护的苹果,自然要做出保证,尽量将机器学习算法所需要的用户数据留在用户的移动终端当中,但与此同时要保证AI算法的有效,就必须对终端芯片的AI算力引擎做出大幅提升。

当然,苹果自身终端系统对于AI算力升级的要求,只是一只内生的吞噬算力的“猛虎”,在外部竞争中,苹果还要面对一群实力强劲的“追龙”,在AI算力提升上不断地应战。

安卓阵营的“追龙”,苹果AI算力快速升级的外因

苹果自研的A系列处理器芯片,一直以来以创新和高性能著称,虽然最近两年,安卓系的高端芯片,诸如高通的骁龙芯片、联发科Helio芯片、华为海思的麒麟芯片则大有追赶之势。

如果抛去综合性能的讨论,但是在AI芯片算力上面,高通的骁龙处理器在性能上和数量上都已经有超过苹果A系列芯片的可能。

比如在2019年上半年手机AI芯片排行榜上,排名前十的智能手机AI芯片,其中前四名分别是高通骁龙855、苹果A12 Bionic、联发科Helio P90和海思麒麟980。但值得关注的是,除了第二、三、四名,这份榜单中的其他位置都被高通骁龙芯片占据。

与苹果采取专用NPU芯片来提供AI算力不同的是,高通的骁龙处理器采用了异构计算的方式,推出了自研的AI引擎,通过CPU、GPU和DSP(Hexagon处理器)组合相互配合,运行神经网络计算的效率,根据不同的应用场景来安排工作负载。

而预计在今年年底发布的高通骁龙875,同样采用了5nm制程工艺,与7nm相比逻辑密度提高80%,其基础性能较上代提升15%,功耗降低30%。非常激进的是,高通这次采用了ARM的Cortex X1超大核心设计,为“1+3+4”八核心三簇设计模式,其中1为Cortex X1超大核心,3为大核,采用Cortex A78,4为能效核心。据业界的预测,骁龙875无论在综合性能还是在AI算力上都有超越A14的可能。

此外,高通通过AI引擎的的高、中端芯片布局,与不同的软硬件企业一起,从底层框架、硬件核心、软件等层面,将AI能力应用到了海量的移动终端和智能设备上,形成基于AI应用的合作生态。

高通在AI算力上的激进演化以及在AI能力上的不断赋能,已经开始形成对于苹果的A系列芯片领导力的巨大威胁。在面临安卓阵营这些“追龙”对手如此“给力”的努力下,苹果自然也会有强大的外部动力来大幅升级自身的性能优势。就像骁龙875这样的性能怪兽的出现,始终会追在苹果身后,准备吊打苹果。

反过来看苹果,其NPU的性能升级战略也并未显露颓势。根据专业人士的说法,目前,苹果A系列芯片上NPU占芯片总面积约为5%,未来NPU的面积能够达到类似GPU占有的20%的面积的程度,AI算力至少还有4倍的提升空间,此外还有提升算法和芯片之间的协同设计,同时通过Core ML的进化来加强不同AI模型的异构设计,同样可以发挥其他SoC芯片部分的潜在算力。总体来说,苹果在AI算力的提升上面还有巨大的增长空间。

我们看到,苹果和安卓阵营在高端芯片厂商在芯片性能的升级,正在从CPU所引领的摩尔定律的赛场转向以AI算力增长为代表的新赛道上。而从AI算力的增长潜力来看,这一升级战在未来几年会更趋激烈。

然而最可惜的是,这场终端芯片AI角逐赛里,未来会缺席一位来自中国的实力选手。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 苹果
    +关注

    关注

    61

    文章

    23669

    浏览量

    191602
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130557
  • 麒麟970
    +关注

    关注

    10

    文章

    264

    浏览量

    63026
  • A14处理器
    +关注

    关注

    0

    文章

    15

    浏览量

    2035
收藏 人收藏

    评论

    相关推荐

    强劲的AI边缘计算盒子# 边缘计算

    AI边缘计算
    成都华江信息
    发布于 :2023年11月24日 16:31:06

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    【AD新闻】AI时代,一美元能够买到多强的

    当真正需要在嵌入式终端设备中使用AI技术时,客户的诉求更多的集中在功耗、响应时间、成本等方面,对性能的无尽追求反而不是重点,这和很多人之前的预想并不一致。花一美元或一瓦电能买到多强的? 算法
    发表于 03-23 15:27

    【免费直播】AI芯片专家陈小柏博士,带你解析AI算法及其芯片操作系统。

    智慧化进程。人工智能芯片是人工智能发展的基石,是数据、算法和在各类场景应用落地的基础依托。“无芯片不AI”已经深入人心,成为业界共识。本次直播将述说AI芯片设计带你解析
    发表于 11-07 14:03

    【免费直播】让AI芯片拥有最强大脑—AI芯片的操作系统设计介绍.

    智慧化进程。人工智能芯片是人工智能发展的基石,是数据、算法和在各类场景应用落地的基础依托。“无芯片不AI”已经深入人心,成为业界共识。本次直播将述说AI芯片设计带你解析
    发表于 11-07 14:18

    芯动a10pro 7g 750m_芯动a10pro_6g_720m 精选资料分享

    目前市场上炙手可热的芯片矿机 当数芯动 A10PRO , 7g 版本的 750m 功耗 1300w 这款机器厂家出厂时预定价格在 48900 左右那时候定的客户到如今 机器价格已经涨到
    发表于 07-23 07:39

    rx580,rx580显卡,rx588,rx588显卡 精选资料分享

    已下是rx580显卡9-11 Mh 没有开启计算模式,挖几分种重启自动开启,计算模式只支持WIN1022-28 Mh 原版BIOS,开启时序,并设置超频29-32 Mh 正常
    发表于 07-23 06:59

    数据、算法和其实现载体是什么

    背景介绍数据、算法和是人工智能技术的三大要素。其中,体现着人工智能(AI)技术具体实现的能力,实现载体主要有CPU、GPU、FPGA
    发表于 07-26 06:47

    开箱啦!带你玩转飞凌高“魔盒”——AI边缘计算终端FCU3001

    随着人工智能高速发展,逐渐向人们的生活场景渗透,其对数据计算量要求越来越庞大,处理速度要求越来越快,硬件性能要求也越来越高。针对此需求,飞凌嵌入式推出了面向AI边缘系统的最新产品:高“魔盒
    发表于 12-10 10:18

    开箱啦!带你玩转飞凌高“魔盒”——AI边缘计算终端FCU3001

    随着人工智能高速发展,逐渐向人们的生活场景的渗透,对数据计算量要求也是越来越庞大,处理速度要求越来越快,这对硬件性能要求也就越来越高,针对这个需求,飞凌嵌入式推出了面向AI边缘系统的最新产品高“魔盒”—
    发表于 12-14 09:22

    RK1808内置的NPU集成有何功能

    NPU集成有哪些特性呢?RK1808内置的NPU集成有何功能?
    发表于 02-16 07:52

    MXM 平台在边缘计算领域的应用

    , 继承了该接口的诸多优点,也更适合此类场景应用,为用户提供了一种边缘侧部署的解决方案,同时MXM接口还可以为用户提供其它架构模块搭配方案,如MXM界面的寒武纪
    发表于 05-18 15:52

    一文详解复杂系统和复杂计算

    众多并且快速多变,AI芯片落地存在困难,难以大规模量产。无法量产的芯片,对宏观的提升,没有多大意义。最后是宏观层次,
    发表于 11-24 16:37

    Xilinx Zynq7035指标

    目的本文介绍广州星嵌DSP C6657+Xilinx Zynq7035平台下Xilinx Zynq7035指标。基本概念FLOPs/FLOPSFLOPs,Floating Point
    发表于 12-15 21:19

    解读最佳实践:倚天 710 ARM 芯片的 Python+AI 优化

    编者按: 在刚刚结束的 PyCon China 2022 大会上,龙蜥社区开发者朱宏林分享了主题为《ARM 芯片的 Python+AI 优化》的技术演讲。本次演讲,作者将向大家介绍他们在倚天
    发表于 12-23 16:02