0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

A12X仿生芯片全面拆解,爆表式性能碾压

DPVg_AI_era 来源:未知 作者:李倩 2018-11-10 10:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

马云为何成立“平头哥半导体”?苹果2018 iPad Pro便是自研芯片好处的最佳例证。实测之下,A12X仿生芯片各项性能爆表,苹果芯片团队更是豪言“在给定的外形尺寸和封装设计下,没人能比我们做得更好”。A12X架构究竟如何,为什么苹果会这么做,又是如何做到的呢?

还记得名震一时的“平头哥”吗?

没错,说的就是马云在此前赐名成立的阿里半导体公司。

许是名字的杀伤力太大,反而冲淡了公众对自研芯片配合自家应用强大优势的认知。不过,苹果最新发布的2018 iPad Pro及其搭载的A12X仿生芯片,无论是CPUGPU,还是机器学习和神经引擎,各项爆表的性能指标,以及只有在A12X 仿生芯片支撑下才得以实现的众多高端AI应用,不难让人看到了加上了“平头哥”的阿里动物军团升级打怪的未来。

平头哥(蜜獾)号称“世界上最无所畏惧的动物”

平头哥半导体技术负责人骄旸在接受新智元采访时曾表示,只有自己内部的人才真正懂得内部业务的需求,从而设计并提供针对每项不同业务都能达到性能功耗比最优的硬件。

苹果的芯片团队还不止如此,一切的规划都从芯片开始,他们会不断地追问其他团队:你们到底想要什么,要实现什么功能,瓶颈在哪里,我们如何制造与你们系统完美契合的芯片?

多年来,苹果对其从底层硬件到顶层应用都采取“in-house”的做法讳莫如深。这一次,苹果硬件技术部门的 Anand Shimpi 和市场营销高级副总裁 Phil Schiller 坐下来,与 ArsTechnica 的记者分享了苹果A12X仿生芯片的细节,以及苹果内部芯片团队的运作机制。

“芯片团队是其他团队的侦探。”Anand Shimpi说。

规划从芯片开始,“在给定的外形尺寸、封装设计下,没有人能做出更好、更高性能的芯片。”

A12X仿生芯片全面拆解,爆表式性能碾压

在介绍苹果芯片团队之前,还是让我们首先来看看他们的最新成果。

全新发布的 2018 iPad Pro 有许多亮点,但最亮眼的莫过于A12X仿生芯片。苹果在产品发布会上展示了A12X芯片的强大:图像处理性能是A10X的两倍,速度比8年前发布的iPad快1000倍,甚至用笔记本电脑这种便携式PC相比,92%的市售产品都会败下阵来。

苹果最新一代的iOS设备并非完美,但哪怕是最刁钻的“果黑”,也不得不承认这家公司在移动CPU和GPU方面的领先优势——不是一点点,而是甩开一条街。

所有这些,都归功于苹果内部自研的定制芯片。实际上,包括FaceID、AR应用在内的各种2018 iPad Pro高端 AI应用,离开了A12X芯片完全没有实现可能。

但并不是每个人,甚至是iPad Pro针对的“专业”消费者,都意识到了这个差距。A12X仿生芯片的架构究竟是怎样的?为什么苹果会这样做,而它又是如何做到的呢?

A12X与最贵系列苹果手机所搭载的A12芯片是密切相关的。后者采用的是第一款可在消费类设备中使用的7nm工艺制造芯片,而A12X是首次应用于平板电脑。

虽然苹果公司肯定不会透漏有关A12X非常细节的信息,但是根据Anandtech最近对A12的分析,我们也能知道A12X的大致“轮廓”:

CPU:中央处理器

GPU:用于处理图形,从主屏幕的显示到3D游戏中的效果,再到增强现实应用程序的资源;

神经引擎:处理神经网络和机器学习相关的任务;

IMC(集成内存控制器):有效地管理进出内存的数据;

ISP(图像信号处理器):分析拍摄照片时所创建的图像,并对其进行处理和改进等;

Secure Enclave处理器:处理敏感数据(如生物识别标识符),使陌生人无法访问。

当然还有诸如显示引擎、存储控制器、HEVC解码器和编码器等其它组件。

众所周知,上述列表中最为核心的组件就是神经引擎、CPU和GPU。接下来,我们就对这三个组件进行详细解读。

神经引擎和机器学习

神经引擎的设计目的是加快与机器学习相关的任务能够在本地设备上执行,这种方式比在CPU或GPU上执行效率更高、性能更高。

事实上,新款iPad Pro的神经引擎与前一款完全不同,因为前一款根本没有芯片。再来看一看苹果手机,2017年的A11可以每秒处理6000亿次操作;2018年的A12 iPhone手机能够达到5万亿次。

那么问题来了,苹果为什么如此注重神经引擎的构建呢?

首先,你需要了解神经引擎所应用的场景和功能。这些场景和功能包括但不限于:通过iPad Pro中的人脸ID和TrueDepth传感器阵列来识别你的面部、扫描图像并在照片应用程序中提供搜索功能、处理语音,以及大量与增强现实相关的任务。

A12X的神经引擎有8个核心,但苹果对其架构的细节守口如瓶。根据Shimpi和Schiller的描述,它不是从苹果GPU中改编而来的。这种芯片为iPad Pro内置的许多功能提供了动力,但第三方应用程序开发人员也可以通过一种名为CoreML的软件开发API以各种方式利用它。

在10月30日发布新款iPad Pro时,苹果在台上讨论了A12X和神经引擎

值得注意的是,这里的重点是在本地设备上执行机器学习任务。有一种观点认为,如果某些机器学习模型能够从数百万台正在使用的设备中提取用户数据,并在庞大的云计算网络上运行,那么它们将是最强大的。

但苹果不是这样做的。它的机器学习API允许开发者在用户许可的情况下在云中使用机器学习模型,但这种云基础设施并不是苹果直接提供的。另一种方法是,苹果向应用程序开发人员提供Create ML这种工具,可以让他们在自己的开发机器上运行模型。

苹果表示,它并不专注于将用户数据放到云中并在云中运行模型,其原因有二:首先,与竞争对手相比,苹果把自己打造成一个重视隐私的公司;其次,在本地设备上运行时,许多其他用例的效率会更高。

正如Shimpi所说:“低延迟非常重要,隐私也非常重要!”

CPU

iPad Pro的CPU有8个核,其中4个核关注性能,4个核关注效率。与早期的一些苹果芯片不同的是,所有的核可以同时激活。

对此,苹果对外是这么声称的:“当你运行高线程工作负载时,A12X比A10性能会改进90%;对于单核性能,A12X比A10快35%。”

Ars便对iPad Pro进行了测评,验证上述“声称”是否准确的时刻到了!

首先,我们亮相一下测评中各个设备情况,如下图所示:

测评所涉及的平板及规格

测评所涉及的手机及规格

测评所涉及的台式机和笔记本及它们的规格

接下里便是测评结果!

单核/多核,2018iPad Pro与以往iPad及三星Tab S4比较

单核/多核,2018iPad Pro与MacBook Pro及三星Dell XPS比较

单核/多核,2018iPad Pro与iPhone及谷歌Pixel比较

从测评结果来看,单核性能方面并没有达到35%的提高(但比较接近)。多核的性能也得到了验证。

iPad Pro的性能超过了我们测试的所有MacBook Pro,除了最近才推出的15英寸MacBook Pro和第8代英特尔酷睿i9处理器。一般来说,这些笔记本电脑的价格是iPad Pro的三倍。

iPad Pro的性能应当说是“前所未有”的。除了能够同时使用所有内核之外,我们有理由相信A12中的缓存大小(因此很可能是A12X)是驱动这种性能的一个重要因素。

也可以说,A12X的性能总体上之所以如此强大,部分原因是苹果的架构是优化异构计算中的一个主控类,即巧妙地使用架构良好的专用处理器类型来匹配专用任务。

虽然A12X与ARM的big.LITTLE架构脱不了关系,但苹果在此做了大量工作,获得了其他人无法达到的结果。

GPU

A12X中的GPU有7个核心,比A10X多了一个核心,可能是由于采用了7nm工艺。但一如既往,核的数量并不代表一切。

苹果在GPU方面是这么声称的:“这是我们自己定制设计的GPU的第一个7核实现。每一个核都比我们在A10X中的速度更快,效率更高。你可以获得2倍的图形性能提升。这种形式是前所未闻的,堪比Xbox One S的GPU!再强调一次,它的设计完全没有风扇!”

话不多说,上结果!

Offscreen和Compute方面,iPad Pro与以往版本性能对比

Offscreen和Compute方面,iPad Pro与MacBook Pro性能对比

Offscreen和Compute方面,iPad Pro与iPhone性能对比

一般来说,这种GPU在移动领域有巨大的领先优势。

它并没有不像CPU那样对笔记本也造成一定影响。不过,它相对于其他移动设备的优势是显著的,在以往的iPad Pro和iPhone性能对比中,堪称无人能及。对此,Shimpi说,“内存带宽是其中的一部分”。

Shimpi指出:“这不仅会影响游戏中的3D图形,还会影响iOS本身的许多UI效果。不仅仅是关于峰值内存带宽,而是有效地提供比特。 拥有这个动态范围非常重要,因为有时为了提高效率和电池寿命,你需要在性能较低的情况下工作。”

苹果多次将新款iPad Pro的GPU性能描述得为与Xbox One S相当。

图形性能方面,手机和平板电脑通常不会接近游戏机或游戏PC的性能。 A12X和Xbox One S至少有一个共同之处,那就是它们不适用于游戏PC,但这并不意味着它们在架构上与其他方式相似。

A12X在GPU和CPU之间共享内存,非常类似于笔记本电脑中的Xbox One或Intel集成的GPU,但与游戏PC中的独立内存不同。

苹果芯片团队:在给定的外形尺寸、封装设计下,没人能做出更好的芯片

看到这里,A12X芯片的强大已无需赘言。我们更为关心的,还是这款强大芯片背后的团队。

苹果硬件技术部门的Anand Shimpi 在接受 ArsTechnica 采访时表示,“从根本上说,我们制造芯片的原因,是服务于产品的无限可能(vision and its ambition)。无论设定的目标是什么,但凡需要定制芯片,我们就一定会把这样一款芯片做出来。”

“在给定的外形尺寸、封装设计下,没有人能做出更好、更高性能的芯片。”

说实话,用于iPhone的苹果A11仿生芯片和用于平板的A10X芯片已经够好了,为什么还要提高性能呢?对此,Shimpi 给出了一段激情澎湃的回答:

人们常说,你看看这家公司或那家公司。但我们不;我们真正关注的只有自己。对手想做什么就让他们做去,我们只是尽全力做出我们自己所知道的最好的东西。这样,我们在做的时候,就不用担心跟对手相比做得怎么样。比对手做得好还不够,我们要不断超越自己。

我们能做什么?我们还能做什么?当你知道你能做出神经引擎时,你就会想要做出更好的神经引擎!这只会加速,不断加快组织内部的速度。

你的团队做出了一款超棒的苹果自己设计的A系列芯片,好,明年你就想要一款更好的,对吧?那就是我们的激情所在。整个苹果公司都一样,不断超越自己,不用去管别人。

我们不关心别人在做什么,那些事情我们也不关心。我们也不在乎比别人落后。落后就落后,落后10倍也无所谓。因为我们的芯片是服务用户的,不是用来竞争的。

当然,苹果提升芯片性能的原因肯定不止如此,很明显,最新版iOS侧重增强现实(AR)功能。如果苹果能在确保其他方面不落后的前提下,最先建立起世界上最强大的消费者AR平台,那么未来它的强势地位就多了一重保障。

至于Mac,为了将苹果在机器学习和人工智能方面的技术用于Mac,也离不开定制芯片。看英特尔和AMD的芯片路线图,似乎与苹果的长期目标有一些明显不同。部分原因可能是,苹果的最终目标是为 Mac Platform 制作定制的笔记本或台式机,以此对抗英特尔的最强芯片。

但苹果是如何做到这一点的呢?

就像你想的那样,开发芯片的过程在发布产品前很多年就开始了,首先是团队会议,并讨论如何解决特定设备上的特定用户问题。虽然没有提供很多深入的技术细节,但 Schiller 将其定制芯片的成功归功于团队在苹果内部的合作。

芯片团队是其他团队的侦探,他们会说,“好,我们来规划吧,我们需要更多信息。你们究竟想要什么,想要如何实现这个功能?瓶颈在哪里,我们从哪里开始创建最终与你们系统完美契合的芯片?”

这样的会议一周会开好几次,也不是什么年度大型会议,就是确保进度一致。芯片团队和其他团队真的每周都聚在一起,讨论的问题也越来越多。要讨论的东西是没有止尽的。

多年来,苹果公司对其如何以及为何能做到这一切的回应都归结为同样的观点。当你在公司内部做所有事情,从头到尾整合所有的东西,无论是技术还是组织,这样做必然有其优势。

这也可以用来解释谷歌自研TPU,以及阿里成立平头哥半导体。

苹果的CPU在移动方面处于行业领先地位,但并不完美。苹果专注于性能,但安卓系统基本上是由高通垄断。但高通的优势在于连接性(高通的调制解调器行业领先,但CPU不是)。

有趣的是,苹果一直避讳不谈的,是Mac的麦克风仍然使用英特尔的芯片。这或许也是阿里投资寒武纪、深鉴和耐能的原因。

鸡蛋还是不能放在一个篮子里。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53539

    浏览量

    459168
  • 苹果
    +关注

    关注

    61

    文章

    24586

    浏览量

    207447
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236

原文标题:马云为何要做平头哥?A12X仿生芯片性能爆表,测评跑分公布

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    剖析ADC12L080:12位高速A/D转换器的卓越性能与应用指南

      在当今的电子设计领域,高速、高精度的A/D转换器扮演着至关重要的角色。ADC12L080作为一款由德州仪器(TI)推出的12位、80 MSPS、450 MHz带宽的A/D转换器,凭
    的头像 发表于 12-03 09:55 246次阅读
    剖析ADC<b class='flag-5'>12</b>L080:<b class='flag-5'>12</b>位高速<b class='flag-5'>A</b>/D转换器的卓越<b class='flag-5'>性能</b>与应用指南

    ADC12C105:高性能12A/D转换器的深度剖析

      在电子工程师的日常工作中,高性能的模拟 - 数字转换器(ADC)至关重要。今天我们就来详细探讨TI公司的ADC12C105,这是一款12位、95/105 MSPS的A/D转换器,具
    的头像 发表于 11-27 14:38 310次阅读
    ADC<b class='flag-5'>12</b>C105:高<b class='flag-5'>性能</b><b class='flag-5'>12</b>位<b class='flag-5'>A</b>/D转换器的深度剖析

    深入剖析ADC12DS105:高性能12A/D转换器的卓越之选

    深入剖析ADC12DS105:高性能12A/D转换器的卓越之选 在电子工程师的日常设计工作中,A/D转换器(ADC)是至关重要的组件,它负
    的头像 发表于 11-26 14:19 182次阅读

    电能会 “” 吗?机械 / 家用 / 快充桩场景的计量真相拆解

    一文理清:为何家用电表难 “”,快充桩却会?
    的头像 发表于 11-12 09:25 914次阅读
    电能<b class='flag-5'>表</b>会 “<b class='flag-5'>爆</b><b class='flag-5'>表</b>” 吗?机械 / 家用 / 快充桩场景的计量真相<b class='flag-5'>拆解</b>

    H5031车灯闪降压恒流芯片IC 48V60V72V80V转12V9V5A三线输入 温控 刹车高亮

    当下车灯行业对于芯片的严格要求,H5031已被各大厂商广泛使用。 LED降压恒流驱动芯片介绍 ▶ 3.6-85V宽压输入,输出5A大电流 ▶集闪、高低亮、远近光一体 ▶ 支持PWM和
    发表于 08-19 16:25

    匠芯创智能显示MCU D12x系列芯片在家电HMI上的应用

    ArtInChipD12x匠芯创ArtInChipD12x系列芯片是一款基于RISC-V架构的工业级高性能微控制器芯片(MCU),专为嵌入
    的头像 发表于 08-07 15:42 1119次阅读
    匠芯创智能显示MCU D<b class='flag-5'>12x</b>系列<b class='flag-5'>芯片</b>在家电HMI上的应用

    拆解国产高集成BMS SOC芯片:AMG8824A 能力全解读

    一颗芯片搞定3~24串电池管理?揭秘AMG8824A智能BMS SOC的集成魔法!拆解国产高集成BMS SOC芯片:AMG8824A 能力全
    发表于 07-30 16:22 1907次阅读
    <b class='flag-5'>拆解</b>国产高集成BMS SOC<b class='flag-5'>芯片</b>:AMG8824<b class='flag-5'>A</b> 能力全解读

    拆解小米 CyberGear 微电机!ams AS5047P 磁编凭何让性能狂飙?

    拆解小米 CyberGear 微电机!ams AS5047P 磁编凭何让性能狂飙?》
    的头像 发表于 05-14 10:45 940次阅读
    <b class='flag-5'>拆解</b>小米 CyberGear 微电机!ams AS5047P 磁编凭何让<b class='flag-5'>性能</b>狂飙?

    12V2A/3A氮化镓电源芯片方案

    深圳银联宝科技最新上市的氮化镓电源方案:U8607/U8609+同步整流芯片U7613,推荐输出功率12V2A12V3A,非标共板,方案成熟,性能可靠,可满足更高
    的头像 发表于 05-13 16:28 943次阅读
    <b class='flag-5'>12V2A</b>/3<b class='flag-5'>A</b>氮化镓电源<b class='flag-5'>芯片</b>方案

    TASKING编译器全面支持兆易创新GD32A7x车规级MCU

    近日,兆易创新 GD32A7x 车规级 MCU 正式获得 TASKING VX-toolset for Arm v7.1r1 的全面支持。作为业内领先的嵌入开发工具,TASKING
    的头像 发表于 04-12 14:31 1217次阅读

    NW1-12S12B3-A NW1-12S12B3-A

    电子发烧友网为你提供AIPULNION(AIPULNION)NW1-12S12B3-A相关产品参数、数据手册,更有NW1-12S12B3-A的引脚图、接线图、封装手册、中文资料、英文资料,NW1-12S12B3-A真值
    发表于 03-19 18:57
    NW1-<b class='flag-5'>12S12B3-A</b> NW1-<b class='flag-5'>12S12B3-A</b>

    HMC232A GaAs,SPDT开关,非反射,100MHz至12GHz技术手册

    HMC232A是一款非反射、SPDT、RF开关,采用砷化镓(GaAs)工艺制造。 HMC232A的工作频率范围为100 MHz至12 GHz,在6 GHz时提供优于1.5 dB
    的头像 发表于 03-05 16:00 804次阅读
    HMC232<b class='flag-5'>A</b> GaAs,SPDT开关,非反射<b class='flag-5'>式</b>,100MHz至<b class='flag-5'>12</b>GHz技术手册

    应用资料#QFN12x12封装600V GaN功率级热性能总结

    适当的热设计,TI以QFN 12x12封装的新型LMG342x GaN功率级产品可以完全满足高功率(>3 kW)转换应用的需求。
    的头像 发表于 02-25 10:36 955次阅读
    应用资料#QFN<b class='flag-5'>12x12</b>封装600V GaN功率级热<b class='flag-5'>性能</b>总结

    黑芝麻智能芯片全面兼容DeepSeek模型推理

    目前,黑芝麻智能武当C1200家族芯片已经完成DeepSeek模型的部署,A2000也将全面支持基于DeepSeek的多模态大模型。 伴随DeepSeek等AI应用全面爆发,作为AI可
    的头像 发表于 02-14 11:27 1093次阅读

    解锁 G2363X-12 芯片:非隔离交直流转换的卓越之选

    一、芯片界的 “潜力股”——G2363X-12 芯片 在当今电子技术飞速发展的时代,芯片作为各种电子设备的核心部件,其性能和功能的优劣直接影
    的头像 发表于 12-27 15:50 1070次阅读
    解锁 G2363<b class='flag-5'>X-12</b> <b class='flag-5'>芯片</b>:非隔离交直流转换的卓越之选