侵权投诉

华为和高通的GPU到底还有多大的差距

2020-01-12 09:09 次阅读

在绝大部分手机爱好者的印象中,当代手机GPU的性能与能效排名,理论上是苹果最强,高通紧随其后,而Arm的Mali GPU则显著落后于前两者。去年年中我们发布过一篇题为《ARM新版Mali GPU简析:这次终于赶超高通和苹果?》[1]的文章,简单谈了谈Mali G77的理论性能。似乎在Arm的规划中,Mali G77是有机会超越高通Adreno GPU的。

预计最早将采用Mali G77 GPU的手机SoC为联发科天玑1000或三星Exynos 990;同代的高通骁龙865与Adreno 650前不久也已经发布。这会儿虽然还没有采用Adreno 650 GPU的机型面世,采用Mali G77的中低端机型也才刚刚开售,但从2019年包括iPhone 11系列(A13 SoC)在内的诸多手机产品的问世、Imagination A-Series GPU新架构的发布,实则已经很容易发现当前手机市场的GPU表现,已非两年前的格局。

前不久的Imagination发布会上[2],Imagination提到,如果将高通Adreno 640的性能和占地面积记作100%,Arm Mali G76则需要184%的占地面积,才能达到100%的性能。这大概是Mali GPU被对比得最惨烈的一次,似乎这也符合我们对Mali GPU性能、能效孱弱的历史认知。

不过我们认为这个说法可能仍然不够准确,毕竟这和具体的产品相关:高通骁龙855(Adreno 640)采用的是台积电7nm制程,而与之对比的三星Exynos 9820(Mali G76)则采用三星自家的8nm制程,仅是制造工艺的对比就已经不公平了;事实上,不同SoC制造商对于Mali GPU的实施方案也不尽相同,华为海思对于Mali G76的实施方案和三星就是不一样的。

本文我们借助在售机型的一些现成图形计算跑分测试,以及GPU IP厂商对于新产品的解读,来总结性地谈一谈当前手机GPU在性能、能效方面究竟是什么格局。

移动GPU市场的主要玩家

首先还是将需要对比的主要手机GPU产品(或IP)做个罗列。这里援引两家统计机构针对移动GPU市场分析所得的数据,虽然数据并不是最新的,但仍可基本反映当前移动GPU市场的现状。

从手机与平板出货量来看,2019年第二季度的不同移动GPU出货量的市场占比分别如下图所示:

数据来源:Stategy Analytics

这份数据来自Strategy Analytics[3],由于我们没有完整的数据,所以这张图仅根据Strategy Analytics当时发布的新闻稿绘制。值得一提的是,其中的“Others”其他,主要是Imagination和Intel,这里仅知Imagination的市场份额仍高于Intel,但不清楚这两者分别的占比具体是多少。这份数据也符合我们对于移动GPU市场的认识,即该市场的主要玩家就是苹果、Arm、高通。

如果不从季度出货量,而是从手机保有量来看不同GPU产品的市场份额,又是另外一番光景:

来源:DeviceAtlas

上面这份数据来自DeviceAtlas[4],发布时间在2019年年中。这份数据统计的是截至2019年第一季度,DeviceAtlas数据库中36个不同国家的GPU使用率。这份统计实际可能受到DeviceAtlas样本量的局限,不过它依然符合我们的基本认知。由于它考察的是手机保有量,而非当季最新出货量,所以仍有大量老设备活跃。其中PowerVR Series7XT,实际是iPhone 7时代的GPU。其他更多出现在榜单上的设备皆来自高通和Arm。

下面的对比中,我们考察这些市场玩家最新推出的GPU旗舰产品,以及上一代GPU旗舰产品——除了苹果这样相对特殊的市场参与者,通常在GPU IP发布的半年到2年的时间里,实际的芯片产品才会问世,所以这些厂商的上一代GPU产品通常才是当前活跃在市场上的旗舰。

那么实际的对比对象就十分明确了,即:

• 苹果A13 Bionic

• 苹果A12 Bionic

• 高通Adreno 650(高通骁龙865)

• 高通Adreno 640(高通骁龙855)

• Arm Mali G77(三星Exynos 990/联发科天玑1000)

• Arm Mali G76(三星Exynos 9820/海思Kirin 990、980)

• Imagination PowerVR A-Series

• Imagination PowerVR Series 9

需要注意的是,Imagination的近两代IP实际上都没有具体的芯片产品问世,Series 9XT的Furian架构作为转瞬即逝的一代架构,很难做具体的量化,所以Imagination PowerVR只会在本文稍稍带过。我们主要要对比的主角就是苹果、高通、Arm。

话当年Arm与竞争对手的巨大差距

Arm Mali GPU在性能和能效方面相较苹果和高通的差距,是的的确确存在于过往历史中的。2016年,高通骁龙835(Adreno 540)时代,同场竞技的选手分别是苹果A11和Arm Mali G72/71。这时的Arm Mali GPU几乎被前两者吊打,无论是性能还是能效。

在此之前的Arm Mali GPU也基本处于被高通、苹果按在地上摩擦的水平。其中比较具有代表性的是海思Kirin 960,这颗SoC选择的是Mali G71MP8方案。Mali G71是最早采用Bifrost微架构的一代GPU IP。

当时采用Kirin 960的华为Mate 9在跑T-Rex霸王龙测试时(GFXBench),平均功耗达到了惊人的9.5W——要知道那会儿采用高通骁龙SoC、散热设计最差的手机GPU平均功耗封顶也才5W,且骁龙821(Adreno 530)只需要Kirin 960不到40%的功耗就能达到相同的性能水平。在能效方面(Perf/W),骁龙821的GPU(Adreno 530)超过Kirin 960(Mali G71MP8)一倍还多。[5]

T-Rex是ALU算力需求较低,更偏向于Texture纹理、填充率和三角形输出率的测试项目。而另一项知名的Manhattan 3.1测试,Kirin 960的情况也是惨不忍睹的。即便是一年以后的Kirin 970(Mali G72MP12)大幅提升了能效和性能,跑T-Rex测试也同样需要同时代骁龙835(Adreno 540)2倍以上的功耗,才可勉强达到差不多的图形计算性能,能效此时刚刚达到了骁龙835的一半。[6]

那会儿骁龙835的GPU平均功耗稳定在3.5-3.8W,相比前面几代都还在稳步降低;海思Kirin与三星Exynos这些采用Mali GPU的SoC则明显高于这个值一截。当时华为Mate 10(Kirin 970)跑Manhattan 3.1测试的平均功耗远高于其可持续运行发热控制阈限所在的6.3W,T-Rex测试可飙至接近8W。更气人的是,Mali G71/G72沿用了Midgard架构时代的texture单元,还在采用双线性过滤方案,所以游戏画质还落后于同时代的Adreno GPU[7]。

那应该是高通Adreno在性能与效率表现上最风光的年代,骁龙835(Adreno 540)的峰值性能虽然没有同时代的苹果A11(iPhone 8/X)彪悍,但持续性能达到了同等水平——Galaxy S8的长时间游戏体验实际也强于iPhone 8/X。

然而高通Adreno相较苹果A系列的持平水准,以及相比Arm Mali的绝对领先优势在2019年的骁龙855身上逐渐丧失;不仅是苹果在GPU方面的持续发力,而且有Arm的越来越逼近。

2019年的那些移动GPU

2019年的Android旗舰主要采用的SoC就是高通骁龙855(+)、华为海思Kirin 990,以及三星Exynos 9820。同代iOS设备即iPhone 11采用的是苹果自家的A13 Bionic SoC,GPU部分依然是苹果自研的IP方案。在对比跑分数据之前,还是先聊聊这几款产品(或IP)相比前代的一些变化。

Bifrost架构前两代产品G71/G72相对灾难性的表现,在Mali G76身上得到了极大程度的缓解。2018年3月,Arm宣布推出Mali G76时宣称,基于TSMC 7nm工艺的Mali G76预计能实现性能50%的提升,性能密度提升30%、微架构效率提升30%。至于机器学习性能2.7倍提升就不是本文要探讨的重点了。

Mali G76虽然仍是Bifrost架构,但优化幅度还是比较大的。其中比较值得一提的是后端执行部分的加宽:G71/G72采用的是4-wide SIMD单元,每条lane处理单独的FMA(Fused-multiply-add,融合乘加)和ADD/SF(加法)管线;也就是说单周期wavefront宽度就是4指令;Mali G76将其拓宽至8-wide,比先前加倍了ALU单元数量。

Arm一直在采用很窄的wavefront——可对比的是,我们在Imagination A-Series架构剖析中提到[2],A-Series的这部分已经拓宽到了128-wide。Arm采用这种较窄的方案,原因是期望避免线程发散(thread divergence)带来的ALU闲置问题。不过较窄的wavefront(或warp size)带来的问题就是,与ALU配套的控制逻辑电路更多,ALU单元数量与控制电路之比更小。更宽的SIMD可以带来更好的芯片面积效益,实际相同芯片尺寸下也可以塞进更多的ALU单元。4-wide就实际代码的线程发散来看,也实在没有必要。Arm自己也说,现在的游戏GPU代码粒度需求和G71时期已经不大一样了。

与SIMD lane同时提升的,还有相应支持的cache和通路,以及像素、纹素(texel)硬件,保持先前相同的ALU与纹理/像素单元的数量比值关系。G76实际上有些类似于把两个G72核心合并成一个核心,但实际所占的面积却比两个核心小得多。Arm官方比较推荐的G76核心数目是12个,虽然这样的小核心数量仍然比苹果、高通Adreno这些GPU多多了,但G76在走多核心、小核心的思路上已经发生了一定程度的转变。

G76相比前代的其他改进还包括增加INT8的进一步支持——这应该主要是针对机器学习的;针对多边形回写操作,G76采用乱序回写机制,在发生回写停滞时具备了更好的操作弹性;其他调整还有针对tile buffer、线程本地存储机制等。

就Arm自己纸面上对Mali G76的宣传来看,这种提升其实是比较中规中矩的,并非大幅跨越。

有关高通Adreno 640(骁龙855)能谈的理论部分则并不多,因为Adreno对外界而言始终是个黑匣子,高通几乎不对外界披露太多有关Adreno的技术细节。可分享的是高通提供的一些数据,包括相比上代提升20%性能(相比Adreno 630);另外高通还在发布会上提到Adreno 640增加了执行FP32、FP16操作的ALU单元数量,增加50%。外媒AnandTech曾推测Adreno 630每个核心的ALU数量是256个[8],总共2个核心。

那么这样算来Adreno 640每个核心的ALU数量为384个,双核总共768个(理论上Adreno小升级应该不会再增加核心数)。ALU lane数量增加和高通宣称20%的性能提升并不对等,所以预计Adreno 640的频率可能是下降的。另外高通在《绝地求生》40fps演示中宣称功耗下降将近30%,未知这里的功耗指的具体是什么功耗。

Adreno 640在特性方面包括支持真正的HDR游戏、Physically Based Rendering(基于物理的渲染)游戏——通过更为准确的光线物理与材料交互,让游戏、虚拟现实提升真实性;图形管线支持10bit色深、Rec 2020色域来实现HDR,支持HDR10+与Dolby Vision格式;支持120fps游戏、8K 360°视频回放。

来源:ChipRebel[9],TechInsights[10] via AnandTech

这部分最后再来谈谈苹果A12/A13。苹果本身也很少公开自家GPU的技术信息。我们可挖掘的大致也就是通过die shot来做观察。A12的GPU部分看起来实则非常像A11——苹果A11采用的仍然是Imagination的Rogue架构GPU。A12采用的仍然是TBDR(基于tile的延后渲染)机制,这在移动GPU中比较有代表性的目前也就是Imagination了;此外苹果也支持PVRTC纹理压缩(PowerVR Texture Compression)。有充分理由相信即便苹果2017年和Imagination停止合作,其“自研”GPU也依然保留了Imagination基因,只是双方的授权协议细节未知。

A12 GPU(iPhone Xs)一个较大的改进在于支持内存压缩,即从GPU到主内存的frambuffer压缩。苹果是支持GPU存储压缩特性,相对比较晚的一家SoC厂商了。不过从实际效果来看,这个特性的加入的确让A12 GPU实现了很大程度的性能与效率提升。苹果宣称A12 GPU性能提升达到了50%,核心数目增加到4个。

A13 die shot,来源:AnandTech[11]

A13 GPU(iPhone 11)的die shot可见,最大变化在于后端ALU模块和纹理单元,前端部分看起来是比较相似的;苹果宣称A13性能提升20%,相同性能下的功耗下降40%;另外苹果特别提到加强了SoC散热能力:iPhone X与Xs的发热表现的确比较巨量。

Adreno、Mali、苹果GPU实际性能对比

以上基本都是理论分析,和厂商宣传中的性能提升。在此我们基于AnandTech过去1年所做的测试,做GPU基准跑分汇总对比。

在测试对比的手机设备选择上,A12、A13显然就是iPhone Xs Max与iPhone 11 Pro Max这两款机型;Arm Mali G76的选择也比较简单,对应华为Mate 30 Pro(Kirin 990),与三星Galaxy S10+(Exynos 9820)。

尤为值得一提的是,海思Kirin 990的Mali G76方案规模更大,海思采用的是16个核心的Mali G76,频率约在600MHz(Kirin 990 5G似有将频率提升至700MHz);三星Exynos 9820的GPU配置为Mali G76MP12,频率约在702MHz。

Adreno 640(骁龙855)的终端设备选择比较多样,而且不同手机制造商对Adreno 640的系统设计所呈现的性能、效率差别实则是比较大的。这里我们选择实施方案比较有代表性的几款机型,分别是一加7 Pro,谷歌Pixel 4 XL,以及黑鲨2、三星Galaxy S10+(骁龙855版)。通过多款机型的对比,实则也能看出OEM制造商在系统、散热设计方面的功力。

需要注意的是,这几款GPU(及对应的SoC),以及手机上市的时间是不一样的,跨度可能超过了半年;而且手机由于屏幕尺寸差异,散热效率的基础也不一样——屏幕尺寸有市场定位导向,并不是厂商可任意做大的;针对不同细分市场也存在手机散热设计、温控机制等差别,比如黑鲨2是游戏定位的,它以牺牲手机轻薄性为代价做整体系统设计,理论上可以获得更好的性能表现(但似乎也只是理论上)。

这里还需要强调一点,苹果A13的制造工艺会更先进,而三星Exynos 9820则相较其他SoC的制造工艺都略逊一筹,为8nm LPP。所以并不能简单说,谁跑分更高、谁的设计就一定更优秀。且测试仍涉及软件、系统、驱动层面,所以这里的对比可能并不严谨。

测试项目选择是AnandTech常规的几项,包括了3DMark Sling Shot 3.1 Extreme Unlimited – Physics/Graphics

数据汇总自AnandTech

在以上测试项中,我们认为最能表现GPU图形计算能力的,就是GFXBench Manhattan(曼哈顿),T-Rex(霸王龙),以及Aztec Ruins高画质测试场景,测试结果单位为帧率(fps,每秒帧数)。不过这几个测试都有自己的偏向性,比如T-Rex测试相对而言更偏向GPU纹理与填充率吞吐表现,而Manhattan则属于shader核心重型任务。图表中橙色柱状条表示持续性能,蓝色表示峰值性能。

需要指出的是,峰值性能并不是没有意义的。苹果在早期宣传中更喜欢谈持续性能——即持续长时间跑图形计算高负荷任务的稳定性能状态,因为这对于游戏的实际体验才是更有价值的数据。但从iPhone Xs开始,苹果也越来越关注设备的峰值性能,因为峰值性能追求的是瞬时突发性能:iPhone在大量场景实际都依赖GPU计算,包括app中的通用硬件加速,甚至拍照处理的GPU计算——这类场景更看重突发性能,需要尽最快速度处理一些固定负载任务。GPU的这种通用性,令其峰值性能成为需要考察的重要指标。Android系统近些年实则也一直在这方面努力。

从我们汇总的柱状图不难发现,苹果A12/A13在GPU性能方面是独占鳌头的,其他表现最出色的GPU峰值性能才刚刚达到了A12的持续性能。

而高通Adreno 640组(中间4款设备)与Arm Mali G76组(最后2款设备)的对比,至少就性能来看是很难简单分出伯仲的。尤其我们看到华为Mate 30 Pro在Mali G76的方案实施中表现出了完全能够和Adreno 640比肩的性能水平,持续性能甚至比绝大部分Adreno 640机型表现更出色。

而且海思Kirin 990这一代Mali实施方案,也真正实现了对三星Exynos的超越——这在以往也是比较少见的,因为前些年三星总能在同代Arm Mali实施方案中领先于海思。不过这一点仍需要考虑到Kirin 990的GPU是在Kirin 980基础上的一次改良,且Kirin 990推出时间远晚于三星Exynos 9820。

值得一提的是,虽然一加7 Pro在持续性能和峰值性能方面看来十分接近,也表现出了Adreno 640机型的最佳水准,但这和一加7 Pro温控机制十分激进有关——这款手机允许屏幕表面温度飙升到51℃,所以其持续性能会明显强于其他Android机型。可对比的是Galaxy S10+温控会将设备表面温度控制在42-43℃之间;华为Mate 30 Pro则在45℃上下。这组数据中另外比较奇怪的是黑鲨2,这是一款定位玩游戏的手机,但AnandTech测试中,其温控非常保守,导致黑鲨2在整个Adreno 640(骁龙855)阵营中都属于性能较弱的水平。

来源:AnandTech

性能表现之外,GPU的功耗和效率也很重要。这里选择Manhattan与T-Rex测试的系统有功功率(从设备总功耗中减去相应负载场景的闲时功耗),以及最终的效率来做对比——这是以往Arm Mali被苹果和高通碾压的绝对弱势项(主要可以参见表中最末一位的Exynos 8895)。

iPhone这两年若单论GPU突发以及平均功耗(第四列Avg. Power),可以说是高得惊人的,尤其A12快速推升到高性能的动作,会将3Dmark跑到崩溃,崩溃前的瞬时功耗可达7-8W;A13已经收敛不少,但峰值功耗依然可超过6.2W。上表中,iPhone后面的“Warm”表示在测试项跑过3遍以后,整体GPU性能会下降并趋于稳定,这个状态下的功耗会更加合理;而“Cold/Peak”则表示设备温度较低时,初始跑测试可达到的状态。

苹果A12(iPhone Xs Max)在用户体验方面并不算好,主要原因是在GPU任务负载伊始,就倾向于快速达到满负荷运转状态,并致设备在使用的前几分钟就明显升温。实际上苹果GPU的持续性能已经足以应付大部分工作,而不需要在很多时候这么“拼”。苹果在A13这一代更偏着力在温控方面,体验也就比A12好了很多。

即便如此,如果看能效——即性能成绩÷功率=每瓦性能(上表中的最后一列),则A12/A13 GPU部分依然能够甩开其他竞争对手很远的距离。在达到与A12 GPU相同性能水平下,A13 GPU的功耗低了32%——虽然没有苹果吹的40%那么厉害,但也已经十分优秀。

过去高通Adreno虽然在绝对性能上无法与苹果Ax GPU相提并论,但在能效方面,高通离苹果还是十分接近甚至不相伯仲的。但在最新一代产品中高通似乎已经被苹果甩开了一段距离。T-Rex测试中,骁龙855版Galaxy 10+的GPU能效水平为40.70fps/W,相较稳定状态下的A13差距达到了将近50%。

更糟糕的是,Mali G76似乎已经在游戏图形计算效率方面达到了与Adreno几乎持平的水平。Mali对Adreno的步步紧逼,实则更体现在2018年的上一代Mali G76产品上,同样采用Mali G76的海思Kirin 980(但实施方案与Kirin 990有差异),当时宣称GPU能效(power efficiency)提升178%——2018年AnandTech针对Kirin 980 GPU(Mali G76MP10)的测试发现,在GPU满载状态下,平均能效提升相比Kirin 980(Mali G72)达到了100%,如果按照相比Kirin 970同等性能时的功耗与效率来看,则其GPU能效提升的确可能达到了华为宣传中的178%,这在行业内都是相当罕见的提升幅度。

不过Kirin 980的GPU依然在性能和效率方面落后于同代骁龙845,部分测试的能效成绩与骁龙835接近。但此时的差距已经比Kirin 970时期缩小了非常多。到Kirin 990在GPU能效方面的表现,就Aztec与Manhattan测试已经能够和骁龙855打得有来有回,甚至部分超越(不过这与不同手机设备的具体情况仍然相关),这在以往是从来没有过的。

最后再来看看3Dmark Sling Shot 3.1 Extreme Unlimited – Physics/Graphics测试,这两项测试侧重考察的性能重点与前面的测试不同,3Dmark Physics测试实际上是3D负载中偏CPU性能的测试。华为Mate 30 Pro表现出了最出色的成绩,这和Cortex A76的prefetcher加强,以及Kirin 990本身的存储子系统加强有关;Graphics偏重图形测试,苹果仍然表现出了不错的成绩,对骁龙855实施比较激进的一加7 Pro也表现不错。

需要再次强调的是,测试结果与系统、软件版本都有关系,iPhone在3Dmark测试中的表现普遍并不算出色,必然是遇到了一些瓶颈的;基于iPhone Xs Max,在iOS 12与13两套系统中的3Dmark Graphics测试结果上就存在20%的差别。所以上述结果和展示方法并不严谨。

不过在以上整体对比中,我们甚至可以认为,图形计算头一次不再成为Arm Mali,以及海思Kirin SoC的软肋。这和两年前的状况已大不相同。

不过以上我们并没有对比GPU的“面积效率”或“性能密度”,比如苹果A13的GPU部分总面积达到了15.28mm²,这是相较大部分移动GPU都明显更大、成本更高的方案。高通骁龙和Adreno系列近些年都是以小尺寸著称的。

三星Exynos 9820与海思Kirin 990 5G die shot,分别来自ChipRebel[13]与TechInsights[14],标注是由AnandTech进行的

从TechInsights公开的信息来看,骁龙855的die size为73.27mm²,这是主流SoC中相当小的方案。只是没有研究机构公开对骁龙855 die的模块labeling,所以我们不清楚Adreno 640大致占到其中多大的面积。可参考骁龙845的Adreno 630占地面积为10.69mm²[15]——考虑到Adreno 640加大了后端,其尺寸理论上会更大。

而上图分别是Exynos 9820与Kirin 990 (5G版)的die shot。Exynos 9820的die size大约是127mm²;Kirin 990 5G的整体die size约为113mm²。Kirin 990 5G虽然采用的制造工艺更先进,但因为GPU规模更大,目测实施方案的占地面积可能会大于Exynos 9820的方案,整体应该是差不太多的。

Imagination在上个月的发布会上提到,Exynos 9820的Mali G76MP12用184%的面积,才达到与骁龙855 Adreno 640相同的性能——如果这个数据是准确的,那么高通目前仍然在面积效率方面具有相当的领先优势,即便Mali GPU已经在性能和能效方面做到了几乎与Adreno齐头并进。这一点我们猜测与Arm Mali仍然采用较窄的wavefront(或warp size),以及小核心、多核心的思路有关。

2020年的移动GPU展望

2019年年中,Arm发布Mali G77,我们之前也已经在《ARM新版Mali GPU简析:这次终于赶超高通和苹果?》一文中对Mali G77的架构改进做了比较具体的阐述[1]。这次在架构层面的改进幅度还是相当之大的,新的Valhall架构进一步将执行引擎的wavefront size(或warp size)增加到16-wide;以前的3个执行引擎合并后分成两条ALU管线,每条有各自的FMA相关单元(融合乘加单元,也就是每个核心32个FMA);TMU单元(纹理贴图单元)吞吐能力翻番。

Arm当时提到,G77的性能密度提升30%(每mm²性能提升1.2-1.4倍),能效提升30%(每瓦性能提升1.20-1.39倍);综合峰值图形性能预计可提升40%——这个值当然与不同厂商的实施方案还将息息相关。

前不久,高通也发布了最新的骁龙865及与其配套的Adreno 650。比较令人在意的是,高通今年的Adreno仍然停留在600系列——这样一来,这已经是高通连续第三年采用Adreno 600系列来为产品冠名了,这在以前似乎是从没有过的,可见这代升级仍然并不是什么太大幅度的升级。

高通提到,Adreno 650还将继续增加ALU单元+50%,以及像素渲染单元+50%(每个时钟周期处理+50%的像素,也就是ROP光栅化处理),预计总体性能提升为25%。如果说ALU单元数量增加50%,推测Adreno 650的核心数可能要增加一个,或者也可能是单核ALU数量变为512个;ROP单元也增加的话,最终讲改变处理纹素:像素单元比例。而在功耗与效率方面,高通表示在相同性能水平下,Adreno 650效率会高出35%;另外持续性能会明显优于Adreno 640。

AnandTech对骁龙865的参考设计机型做了测试[16],仅有峰值性能数据。这里只摘录其中的Manhattan 3.1与T-Rex 2.7测试项,其GPU性能水平如上图所示。测试结果基本符合高通所说的25%性能提升,峰值性能优于2019年的Adreno 640与Mali G76,但仍未达到苹果A12的水平。其能效(Perf/W)接近A12的水平,领先于Mali G76与Adreno 640——这一点当然也是必然的,这里不再给出详细数据。

值得一提的是,最终骁龙865手机依然会由于OEM厂商在实施方案上的差别而存在性能与能效的差异,所以这个数据只能作为参考。

25%的性能提升实际是年度迭代比较符合常规的数字,不过如果Arm宣传中提到的Mali G77性能与能效提升水平的确能够实现,那么高通的这点提升将不具有竞争力——至少在性能与功耗效率方面,Adreno在2020年有被Mali赶超的可能性,高通正逐渐丢失往日相较Arm在图形计算方面的绝对优势地位;且与苹果存在越来越大的差距。

最后仍然需要提到Imagination,虽然Imagination近些年在移动GPU的市场份额方面还在逐年萎缩,但在GPU性能与效率上却是个十分恐怖的竞争对手,尤其在前一阵PowerVR A-Series新架构发布以后,我们也已经对新架构做了相对详细的解析[2]。

Imagination宣称,如果将Adreno 640的占地面积和性能均视作100%,则Mali G76需要184%的面积才能达到100%的性能;而A-Series GPU可以“更小、更低的功耗”实现175%的性能。这个数字实则远超今年即将大规模上线的高通Adreno 650,以及Arm Mali G77。

而且就在这两天,Imagination刚刚宣布苹果再度与其签署多年授权协议,未来苹果A系列芯片的GPU仍能见到Imagination的IP方案,虽然我们不清楚个中合作细节,苹果目前“自研”的GPU IP中也还能见到Rogue架构的影子。但或许,苹果对于Imagination这次发布的A-Series,以及规划中的B-Series、C-Series、D-Series都十分感兴趣。

而苹果与Imagination恢复合作,预计还将促成更多SoC制造商与Imagination的合作。这将成为刺激移动GPU市场推进的又一大变数。在2020年的移动GPU市场上,高通大概是现如今最需要重整旗鼓的市场玩家了。

收藏 人收藏
分享:

评论

VapRoRRY
你写得很不错 对我也有很大的参考意义我非常喜欢请你以后一定要保持更新啊

相关推荐

美国批准AMD及英特尔向华为供货?关键在于能不能自研

华为的禁令已经在9月15日正式生效,不过AMD、Intel两家公司日前不约而同地证实了他们已经获得了....
的头像 如意 发表于 09-29 15:56 209次 阅读
美国批准AMD及英特尔向华为供货?关键在于能不能自研

在EDA中运用大规模软件有什么好处?

当今的目标设计是在40纳米处,顶层具有1亿个单元实例,并且具有内存和模拟/混合信号内容的混合。有效设....
的头像 我快闭嘴 发表于 09-29 15:55 114次 阅读
在EDA中运用大规模软件有什么好处?

谷歌AI预测服务已正式启动

在一般可用性下,AI预测服务支持高内存和高cpu机器类型上的XGBoost和Scikit学习模型。在....
的头像 我快闭嘴 发表于 09-29 14:50 80次 阅读
谷歌AI预测服务已正式启动

具有差异化竞争力的无线SoC方案,实现无需电池永久续航

诸多边缘设备被部署在了各种不同的环境中。其中很多应用场景并不适合进行电力设施部署,而且也难以实现频繁....
的头像 牵手一起梦 发表于 09-29 14:16 60次 阅读
具有差异化竞争力的无线SoC方案,实现无需电池永久续航

三星将于2022年或更晚推出下一代GPU

这个时间还指明了Radeon将是三星将合作的未来的AMD GPU架构,而不是如今AMD的现有产品。虽....
的头像 我快闭嘴 发表于 09-29 12:03 533次 阅读
三星将于2022年或更晚推出下一代GPU

日本半导体产业衰退的原因是什么?

首先,DRAM开始主要被用于个人计算机(PC)中,性能要求不高同时价格也更加便宜。韩国的三星电子公司....
的头像 我快闭嘴 发表于 09-29 11:56 348次 阅读
日本半导体产业衰退的原因是什么?

杰发科技车联网SoC芯片获“年度最具投资价值奖”

2020年9月12日,备受业界关注的2020中国(深圳)国际汽车电子产业年会暨2019年度汽车电子科....
的头像 深圳市汽车电子行业协会 发表于 09-29 11:49 246次 阅读
杰发科技车联网SoC芯片获“年度最具投资价值奖”

智能互联时代,算力面临哪些挑战?

据 OpenAI 公司的最新统计,OpenAI 在 2019 年计算了自 2012 年以来所有模型所....
的头像 我快闭嘴 发表于 09-29 10:38 218次 阅读
智能互联时代,算力面临哪些挑战?

ARM协助英伟达提升自动驾驶汽车安全性

此外,未来款梅赛德斯奔驰车型也将采用英伟达的平台,两家公司承诺将合作研发以ORIN芯片为基础的软件定....
的头像 我快闭嘴 发表于 09-29 09:57 128次 阅读
ARM协助英伟达提升自动驾驶汽车安全性

即将面市的NVIDIA Ampere GPU已通过RRA认证

每个公开发售的IC都需要获得韩国的RRA认证,这通常是即将发布的最重要的指标之一(尽管它可以在发布前....
的头像 倩倩 发表于 09-28 17:34 227次 阅读
即将面市的NVIDIA Ampere GPU已通过RRA认证

91mobiles发现了代号为“ Xiaomi Cas” 的小米手机

在源代码中,我们发现提到了Adreno 650 GPU,这似乎暗示了Snapdragon 865芯片....
的头像 倩倩 发表于 09-28 17:05 224次 阅读
91mobiles发现了代号为“ Xiaomi Cas” 的小米手机

未来10年来CPU/GPU的性能将翻倍增长

具体来说,过去十年中芯片的性能提升中,40%的因素归功于处理工艺,8%来源于提高了的TDP,12%来....
的头像 我快闭嘴 发表于 09-28 17:00 245次 阅读
未来10年来CPU/GPU的性能将翻倍增长

温度过高的CPU一定要进行降温的处理

不论是配置高的电脑还是配置低的电脑,如果长时间的尝试这些大型游戏以及高清视频的观看等,都是可能会引起....
的头像 倩倩 发表于 09-28 16:40 240次 阅读
温度过高的CPU一定要进行降温的处理

带32Kbit SPI EEPROM的CPU管理器

功能•低VCC检测和重置断言-五个标准重置阈值电压-使用特殊编程顺序重新编程低VCC重置阈值电压-重置信号有效至VCC=1V•...
发表于 09-28 16:36 101次 阅读
带32Kbit SPI EEPROM的CPU管理器

松下彩电开关电源电路工作原理及工作过程

220 V交流电源经三个线性滤波器L870,L871,L872滤波后由桥堆D801整流,C818滤波....
发表于 09-28 15:54 289次 阅读
松下彩电开关电源电路工作原理及工作过程

美国正在开发用于图处理的下一代ASIC

最终,HIVE的总体目标就是统一和简化“让图软件与硬件进行优化通信的”流程,只需让硬件厂商提供其硬件....
的头像 我快闭嘴 发表于 09-28 15:52 275次 阅读
美国正在开发用于图处理的下一代ASIC

苹果11和max的区别大吗?

之后再来对比价格,11和max相比,二者的价格相差近乎一倍,从目前官方的报价消息可知,苹果11的销售....
的头像 倩倩 发表于 09-28 15:28 180次 阅读
苹果11和max的区别大吗?

英伟达RTX 3080在4K分辨率下可提供高达100 FPS的多个AAA游戏

RTX 3080具有一些疯狂的规格,例如68个SM单元,因此总共有8704个CUDA内核。除CUDA....
的头像 倩倩 发表于 09-28 14:55 201次 阅读
英伟达RTX 3080在4K分辨率下可提供高达100 FPS的多个AAA游戏

英特尔下一代Jasper Lake CPU系列泄漏了

转向新部件,英特尔似乎计划至少使用三个台式机和三个移动SKU,它们将使用Tremont‘Atom’架....
的头像 倩倩 发表于 09-28 14:32 347次 阅读
英特尔下一代Jasper Lake CPU系列泄漏了

我们即将迎来CPU市场近30年最大的、最乱的竞争

过去25年中的大多数时间里,PC CPU市场一直由x86架构主导。虽然1990年代初,有不少架构与英....
的头像 如意 发表于 09-28 14:30 196次 阅读
我们即将迎来CPU市场近30年最大的、最乱的竞争

Chromebook安装更新Chrome OS或将导致CPU占用率达到100%和发热问题

Chromebook 在安装最新的 Chrome OS 更新之后,会导致 Google Play S....
的头像 如意 发表于 09-28 14:23 91次 阅读
Chromebook安装更新Chrome OS或将导致CPU占用率达到100%和发热问题

AMD已经确认新的GPU系列是Radeon RX 6000系列的一部分

在10月28日之前,Nvidia将推出两个新的3000系列GPU。售价699美元的RTX 3080和....
的头像 倩倩 发表于 09-28 14:16 338次 阅读
AMD已经确认新的GPU系列是Radeon RX 6000系列的一部分

面向未来的AI加速, ACAP可编程器件具有突破性意义

数字化的生活方式和新兴的物联网与云端计算及数据服务的快速增长密不可分。云是全新的生活与工作方式的中心....
的头像 39度创意研究所 发表于 09-28 14:09 372次 阅读
面向未来的AI加速, ACAP可编程器件具有突破性意义

英特尔已将2021年的18万片晶圆GPU订单交给台积电,采用6nm工艺

对于Intel来说,他们这波被动落后AMD,虽然有很多因素决定,但不够先进的工艺绝对是其中一个。
的头像 如意 发表于 09-28 13:48 202次 阅读
英特尔已将2021年的18万片晶圆GPU订单交给台积电,采用6nm工艺

AMD Ryzen 7 4800U参数测评及与Intel i7 10710U对比

在Cinebench R15多线程测试中,Ryzen 7 4800U比Intel的Core i7-9....
的头像 39度创意研究所 发表于 09-28 13:38 617次 阅读
AMD Ryzen 7 4800U参数测评及与Intel i7 10710U对比

中国芯片行业弯道超车的策略不现实?

这一芯片号称集成的200万个碳纳米晶体管也有很大的水分。该芯片只有气味传感器中使用了碳纳米晶体管,而....
的头像 我快闭嘴 发表于 09-28 12:08 378次 阅读
中国芯片行业弯道超车的策略不现实?

外媒:英特尔将2021年18万片晶圆GPU的代工订单交给台积电

产能预订者中将有英特尔,也就意味着在外媒看来,台积电的3nm工艺,将获得英特尔的订单。不过,外媒在报....
的头像 我快闭嘴 发表于 09-28 11:41 228次 阅读
外媒:英特尔将2021年18万片晶圆GPU的代工订单交给台积电

一款针对Soc开发的硬件仿真进行优化的软件VARON

VARON是一款针对Soc开发的硬件仿真进行优化的软件,运行于Cent OS Linux系统,需要有....
的头像 电子发烧友网工程师 发表于 09-28 11:03 99次 阅读
一款针对Soc开发的硬件仿真进行优化的软件VARON

CPU是什么?在实际使用过程中有哪些功效呢?

CPU是电脑的核心处理设备,就如同我们人体的大脑,会进行各种指定的处理,如果没有CPU,电脑是无法使....
的头像 倩倩 发表于 09-28 10:45 371次 阅读
CPU是什么?在实际使用过程中有哪些功效呢?

收购ARM将给英伟达带来数据中心CPU市场的新机遇

有部分业界人士猜测,英伟达收购ARM是为了节省ARM指令集的授权费用。在孙永杰看来,与高通相比,AR....
的头像 我快闭嘴 发表于 09-28 09:36 190次 阅读
收购ARM将给英伟达带来数据中心CPU市场的新机遇

MINISFORUM将于本月底向市场发布其H31G

存储非常灵活,外形小巧。通常,您可以在如此小的空间中获得M.2或2.5“细长型托架。但是,存储扩展包....
的头像 倩倩 发表于 09-27 18:05 149次 阅读
MINISFORUM将于本月底向市场发布其H31G

如何搭建分层次的验证模型及实现仿真研究

当今社会,芯片技术与人们的生活密切相关,在各种电子产品中都有芯片的身影,而且,它们往往是电子产品关键....
的头像 电子设计 发表于 09-27 18:02 184次 阅读
如何搭建分层次的验证模型及实现仿真研究

AMD宣布了Ryzen ZEN3处理器和Radeon RDNA2 GPU的主题演讲日期

在万众期待中,AMD宣布了Ryzen ZEN3处理器和Radeon RDNA2 GPU的主题演讲日期....
的头像 电子发烧友网工程师 发表于 09-27 15:49 465次 阅读
AMD宣布了Ryzen ZEN3处理器和Radeon RDNA2 GPU的主题演讲日期

数字光场芯片成为业界人士研发的一大重点

就数字电视芯片来说,数字电视芯片产业主要由调谐芯片、显示芯片、解调芯片、解码芯片四个芯片模块构成,如....
的头像 我快闭嘴 发表于 09-27 15:21 340次 阅读
数字光场芯片成为业界人士研发的一大重点

FPGA是什么?是否会取代CPU所做的工作?

他补充说,正是在这种背景下,他看到了FPGA作为加速器和构件的出现,使计算更加高效。“FPGA具有与....
的头像 我快闭嘴 发表于 09-27 15:00 413次 阅读
FPGA是什么?是否会取代CPU所做的工作?

Arm公司发布两款用于人工智能应用的芯片设计

在过去的十年里,人工智能的大部分进展来自于在图形处理单元上运行这些神经网络,这是一款专门的计算机芯片....
的头像 我快闭嘴 发表于 09-27 14:16 603次 阅读
Arm公司发布两款用于人工智能应用的芯片设计

探讨数据中心级FPGA的关键硬件创新

Xilinx没有自己的数据中心处理器,除了它嵌入在设备上的Arm核心,比如去年宣布的最新的“Ever....
的头像 我快闭嘴 发表于 09-27 14:06 339次 阅读
探讨数据中心级FPGA的关键硬件创新

当前的AI芯片现状分析

其实Arm NPU并不是什么新鲜事物。在文章开头我们已经说到,Arm在去年就推出了其Ethos N7....
的头像 我快闭嘴 发表于 09-27 14:01 550次 阅读
当前的AI芯片现状分析

S7-1200 CPU可使用存储卡、使用TIA 软件、通过Web访问方式更新CPU固件

S7-1200 CPU的固件可以通过以下3种方式进行升级: 使用存储卡更新CPU固件。 使用TIA ....
的头像 PLC技术圈 发表于 09-27 12:01 113次 阅读
S7-1200 CPU可使用存储卡、使用TIA 软件、通过Web访问方式更新CPU固件

第11代酷睿i7-1185G7详细测评:采用全新“SuperFin”晶体管技术

英特尔在9月初正式发布了第11代酷睿Tiger Lake移动平台,它最大的特色就是采用了全新的Sup....
的头像 39度创意研究所 发表于 09-27 11:37 523次 阅读
第11代酷睿i7-1185G7详细测评:采用全新“SuperFin”晶体管技术

4nm、3nm、2nm制程的争夺战即将打响

理论上,与前一代制程相比,新工艺节点应该带来比前一代节点低至少15%的面积,但三星的8LPP节点在扩....
的头像 我快闭嘴 发表于 09-27 11:08 506次 阅读
4nm、3nm、2nm制程的争夺战即将打响

英特尔推出10nm SF工艺,号称比其他家7nm工艺还要强

关于芯片工艺,Intel前几天还回应称友商的7nm工艺是数字游戏,Intel被大家误会了。不过今年I....
的头像 如意 发表于 09-27 10:35 347次 阅读
英特尔推出10nm SF工艺,号称比其他家7nm工艺还要强

计算机最核心的CPU 12大知识点

作为一名程序员,与计算机打交道的日子不计其数,不管你玩硬件还是做软件,你的世界自然都少不了计算机最核....
的头像 FPGA之家 发表于 09-27 10:10 184次 阅读
计算机最核心的CPU  12大知识点

科普:CPU为什么不是圆形而是正方形?

对硬件有所了解的朋友们几乎都会知道,CPU的外形约是一块正方形的金属厚片。当然也有长方形的版本。上表....
的头像 如意 发表于 09-27 09:54 94次 阅读
科普:CPU为什么不是圆形而是正方形?

英特尔、AMD的供货芯片仅限于华为的PC业务?

AMD方面称,AMD是华为笔记本电脑的处理器供应商之一,其锐龙系列CPU获得华为多款笔记本采用。而与....
的头像 我快闭嘴 发表于 09-27 09:33 525次 阅读
英特尔、AMD的供货芯片仅限于华为的PC业务?

英伟达为什么要收购ARM?

众所周知,ARM在2016年以234亿英镑(约320亿美元)的价格卖给了软银集团。软银孙正义素来以投....
的头像 我快闭嘴 发表于 09-27 09:12 429次 阅读
英伟达为什么要收购ARM?

ORB_FPGA单层图像金字塔的ORB特征提取方案分析

ORB特征是一种图像识别、追踪和匹配中常用的特征,大名鼎鼎的ORB-SLAM就是使用的这一特征。它提....
的头像 39度创意研究所 发表于 09-26 11:43 489次 阅读
ORB_FPGA单层图像金字塔的ORB特征提取方案分析

谁将成为人工智能芯片领域的王者?

目前尚不清楚谁最终将主导AI芯片市场,但从CPU和基带处理器领域等历史发展中得到的一个重要教训是,知....
的头像 我快闭嘴 发表于 09-26 11:21 596次 阅读
谁将成为人工智能芯片领域的王者?

国产CPU的发展历程与产业链领军企业的布局情况分析

CPU作为计算机设备的运算和控制核心,负责指令读取、译码与执行,因研发门槛高、生态构建难,被认为是集....
的头像 电源联盟 发表于 09-26 10:45 766次 阅读
国产CPU的发展历程与产业链领军企业的布局情况分析

AC7801X

1.  AC7801X产品特性 32位ARM CPU 架构良好的生态环境 适应AUTOSAR架构拓展 CAN-FD开房需...
发表于 09-19 11:24 101次 阅读
AC7801X

灵动微课堂 (第136讲) 基于MM32 MCU的OS移植与应用——RT-Thread 电源管理

简介 随着物联网(IoT)的兴起,产品对功耗的需求越来越强烈。作为数据采集的传感器节点通常需要在电池供电时长期工作,而作为联...
发表于 09-11 18:02 101次 阅读
灵动微课堂 (第136讲) 基于MM32 MCU的OS移植与应用——RT-Thread 电源管理

TLZ7xH-EVM开发板CPU/FLASH/RAM

TLZ7xH-EVM是一款由创龙基于SOM-TLZ7xH核心板设计的开发板,底板采用沉金无铅工艺的6层板设计,为用户提供了SOM...
发表于 09-10 10:59 101次 阅读
TLZ7xH-EVM开发板CPU/FLASH/RAM

FPGA开发指南和电路图集!(原理图&例程代码)

       FPGA 的用处比我们平时想象的用处更广泛,原因在于其中集成的模块种类更多,而不仅仅是原来的简...
发表于 09-08 22:43 202次 阅读
FPGA开发指南和电路图集!(原理图&例程代码)

关于STM8S主流系列微控制器介绍及相关资料!

ST这个系列的微控制器对于很多工程师来说都不陌生,该系列主流8位微控制器适用于工业,消费类和计算机市场的各种应用,尤其是大...
发表于 09-03 17:58 202次 阅读
关于STM8S主流系列微控制器介绍及相关资料!

新品速递 #9 无需电池的Bluetooth 5 SoC

M3 Bluetooth 5 SoC平台提供了业界首个完全符合标准的无电池Bluetooth 5解决方案,并具有多源能量收集技术。为了减少IoT...
发表于 09-03 16:29 255次 阅读
新品速递 #9 无需电池的Bluetooth 5 SoC

TL2837x-EasyEVM是创龙SOM-TL2837x核心板所设计的高端单/双核浮点开发板

前言TL2837x-EasyEVM是一款基于广州创龙SOM-TL2837x核心板所设计的高端单/双核浮点开发板,它为用户提供了SOM-TL...
发表于 09-03 16:05 0次 阅读
TL2837x-EasyEVM是创龙SOM-TL2837x核心板所设计的高端单/双核浮点开发板

STM8单片机中断的主要功能有哪些

  内部中断:一般是由硬件错误或者运算过程中出错引起的,一般是不可避免的;   外部中断:是处理器的外设发出的中断请求,如...
发表于 09-01 16:46 101次 阅读
STM8单片机中断的主要功能有哪些

赛普拉斯32位Arm®Cortex®-M3PSoC®5LP资料手册!

概述       PSoC®5LP在单芯片Arm解决方案中为性能提供了卓越的价格,降低了系统成本并简化了系统设...
发表于 09-01 11:13 101次 阅读
赛普拉斯32位Arm®Cortex®-M3PSoC®5LP资料手册!

TMS320VC5501 定点数字信号处理器

TMS320VC5501(5501)定点数字信号处理器(DSP)基于TMS320C55x™DSP生成CPU处理器内核。 C55x™DSP架构通过增加并行性和全面关注降低功耗来实现高性能和低功耗。 CPU支持内部总线结构,该结构由一个程序总线,三个数据读总线,两个数据写总线以及专用于外设和DMA活动的附加总线组成。这些总线能够在一个周期内执行最多三次数据读取和两次数据写入。并行,DMA控制器可以独立于CPU活动执行数据传输。 C55x™CPU提供两个乘法累加(MAC)单元,每个单元能够进行17位×17位乘法运算。单循环。额外的16位ALU支持中央40位算术/逻辑单元(ALU)。 ALU的使用受指令集控制,提供优化并行活动和功耗的能力。这些资源在C55x CPU的地址单元(AU)和数据单元(DU)中进行管理。 C55x DSP代支持可变字节宽度指令集,以提高代码密度。指令单元(IU)从内部或外部存储器执行32位程序提取,并为程序单元(PU)排队指令。程序单元解码指令,将任务指向AU和DU资源,并管理完全受保护的管道。预测分支功能可避免执行条件指令时的管道刷新。 5501外设...
发表于 10-09 14:55 255次 阅读
TMS320VC5501 定点数字信号处理器