0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ARM Mali GPU 深度解读

eeDesigner 2025-05-29 10:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ARM Mali GPU 深度解读

ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,成为全球移动设备 GPU 市场的核心力量。以下从技术演进、架构特性、产品布局及生态战略等维度展开分析:


一、架构演进:从 Utgard 到 Valhall

Mali GPU 的架构迭代以 ​北欧神话元素命名,技术特性与性能提升同步推进:

Utgard 架构(2007-2012)​​:

  • 代表型号:Mali-200、Mali-400 MP
  • 特性:基于 ​分离式顶点与片段着色器,仅支持 OpenGL ES 2.0 及以下标准,适用于早期智能手机嵌入式设备。例如 Mali-400 MP 支持 4 核扩展,像素填充率达 275M/秒(65nm 工艺)。
  • 局限:能效比低,多核扩展能力有限,无法满足复杂 3D 渲染需求。

Midgard 架构(2013-2018)​​:

  • 代表型号:Mali-T760、Mali-T880
  • 突破:
    • 统一着色器架构​:支持 OpenGL ES 3.0/3.1 和 OpenCL 1.2,实现 GPU 通用计算(GPGPU)。
    • 多核扩展​:单芯片最高支持 16 核(如 Mali-T760MP16),三角形输出率提升至 30M/秒,并首次引入 ​DirectX 11 支持​(如 Mali-T760)。
  • 应用:三星 Exynos 8890(T880)、联发科 Helio P10(T860)等中高端芯片。

Bifrost 架构(2016-2020)​​:

  • 代表型号:Mali-G71、G72、G76
  • 创新:
    • 标量执行单元​:将向量拆解为标量处理,提升 16/8bit 低精度计算效率,支持 ​AI 推理加速​(如 int8 dot 指令优化神经网络)。
    • 动态电源管理​:能效较 Midgard 提升 30%,如 Mali-G76 在三星 Exynos 9820 中实现 1.4 倍性能提升。

Valhall 架构(2019-至今)​​:

  • 代表型号:Mali-G77、G78、G710
  • 技术飞跃:
    • 超标量设计​:16-wide warp 并行计算,ALU 单元密度翻倍,支持 ​可变速率着色(VRS)​​ 和光线追踪。
    • AI 与图形协同​:Mali-G77 的机器学习性能较前代提升 60%,支持本地运行 ​100 亿参数模型​(如端侧 Stable Diffusion)。
  • 旗舰应用:华为麒麟 960(G71)、联发科天玑 2000(G710)。

二、核心特性:性能与能效的平衡

Mali GPU 的技术优势体现在 ​异构计算​ 与 ​标准化支持​:

图形渲染能力​:

  • Tile-Based Rendering​:分块渲染减少内存带宽消耗,支持 8K 实时渲染与光线追踪(如 Mali-G710 集成 ASR 超分技术)。
  • API 兼容性​:覆盖 OpenGL ES 3.2、Vulkan 1.3、OpenCL 2.0 及 DirectX 12,适配多平台开发需求。

AI 与通用计算​:

  • NPU 协同​:Ethos-U NPU 与 GPU 共享内存,支持 Transformer 等大模型推理(如 Mali-G710 提供 8 TOPS 算力)。
  • 低精度优化​:BF16/INT8 量化加速,单位功耗下 MLPerf 性能提升 8 倍。

能效创新​:

  • 动态调频(DVFS)​​:每核独立电源管理,功耗较 x86 GPU 降低 40%(如 Mali-G710 无风扇设计覆盖 80% 轻薄本市场)。
  • Chiplet 封装​:基于 Arm CSA 标准支持多晶粒互连,提升扩展灵活性(如 Socionext 2nm 工艺芯粒方案)。

三、产品线布局:全场景覆盖

Mali GPU 按性能划分为四大系列,适配不同市场需求:

高端旗舰(V/Valhall 系列)​​:

  • Mali-G710:16 核设计,支持 4K 120Hz 显示与 AI 超分,应用于旗舰手机(如三星 Galaxy S25)和 AI PC。
  • Mali-G78:24 核配置,3DMark Wild Life 跑分超 8500 分,媲美苹果 M1 GPU。

中端主流(Bifrost 系列)​​:

  • Mali-G57:8 核设计,主打千元机市场(如 Redmi Note 系列),支持 Vulkan 1.1 和 OpenCL 1.2。
  • Mali-G68:6 核精简版,适配平板和车载娱乐系统。

入门级(Midgard 系列)​​:

  • Mali-T720:单核架构,用于智能电视和低端物联网设备(如小米电视 6A)。

定制化方案​:

  • Mali Nano​:针对教育终端和工控设备推出子平台,支持 300 美元以下设备本地化 AI 功能。

四、生态战略:软硬协同与开发者支持

ARM 通过 ​工具链优化​ 和 ​生态联盟​ 巩固市场地位:

开发工具链​:

  • KleidiAI​:集成 TensorFlow Lite、PyTorch,模型部署时间缩短 50%(如阿里倚天 710 部署 Llama3 效率提升 1.9 倍)。
  • Mali 调试套件​:支持 OpenGL ES 仿真器和 Vulkan 性能分析,覆盖 2200 万开发者。

合作伙伴网络​:

  • 芯片厂商​:联发科(天玑系列)、三星(Exynos)、华为(麒麟)均采用 Mali 公版架构。
  • 云服务商​:腾讯云、AWS 推出基于 Mali 的 GPU 实例(如 Graviton3 推理能效提升 60%)。

标准化认证​:


五、挑战与未来方向

尽管 Mali 占据安卓 GPU 市场 30% 份额,但仍面临竞争与技术挑战:

市场压力​:

  • x86 生态壁垒​:PC 领域 AMD/Intel 加速布局混合架构,2025 年 Arm PC 份额仅 13%。
  • 竞品追赶​:高通 Adreno 740 光追性能反超,苹果 M2 GPU 能效优势显著。

技术突破方向​:

  • 光线追踪普及​:Valhall 架构需进一步优化实时光追效率,追赶 NVIDIA DLSS 3.0。
  • 端云协同计算​:通过 CoreLink CI-700 互连技术实现“端-边-云”一体化(如腾讯云 Mali 边缘节点)。

长期愿景​:

  • ARM 目标 2030 年赋能 ​50 亿台智能设备,成为 AIoT 与 6G 网络的算力底座。

总结

ARM Mali 通过持续架构迭代(Utgard → Valhall)和生态整合,已成为移动 GPU 领域的核心力量。其技术特性与 ​异构计算能效优化​ 的深度结合,使其在智能手机、AI PC 及边缘计算场景中展现出强大竞争力。未来,随着 Chiplet 技术和光线追踪的进一步成熟,Mali 或将在高性能计算市场开辟新战场,推动“端侧智能普惠化”进程。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9619

    浏览量

    394681
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5339

    浏览量

    136282
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    联发科正式推出天玑7500:首款Arm C1主流芯片

    集成了Arm Mali-G625 MC2 GPU,并支持天玑自适应游戏技术4.0,有助于在游戏过程中实现更稳定的温控表现和帧
    的头像 发表于 05-31 11:32 456次阅读

    GB 44240深度解读(三)|| 热扩散试验为什么90%企业第一次都失败?

    如果你正在准备GB44240,有一个现实你需要提前知道:热扩散测试,是整个标准里失败率最高的一项,没有之一。GB44240深度解读(一)||做错这3点,你的储能电池100%过不了
    的头像 发表于 05-14 11:06 308次阅读
    GB 44240<b class='flag-5'>深度</b><b class='flag-5'>解读</b>(三)|| 热扩散试验为什么90%企业第一次都失败?

    人工智能-Python深度学习进阶与应用技术:工程师高培解读

    深度学习进阶的技术路线图,来分析解读一下从基础原理到前沿应用的多个关键节点。一、从基础到进阶:构建深度学习的完整认知深度学习的起点,是对神经网络基本结构的理解。B
    的头像 发表于 04-21 11:01 487次阅读
    人工智能-Python<b class='flag-5'>深度</b>学习进阶与应用技术:工程师高培<b class='flag-5'>解读</b>

    NVIDIA RTX PRO 5000 Blackwell GPU深度评测

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU 加速工作流的高性能
    的头像 发表于 01-06 09:51 5050次阅读
    NVIDIA RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的<b class='flag-5'>深度</b>评测

    深度解析 ARM 架构:从剑桥车库到未来计算

    架构的芯片。它早已不只是一个技术名词,而是成了我们数字生活的一部分。 很多人对ARM的印象还停留在“省电”、“用在手机上”。但你知道吗?它的技术触角已经伸向了超级计算机和数据中心。 今天,我们就来深度拆解一下ARM架构,聊聊它的
    的头像 发表于 01-05 07:09 686次阅读
    <b class='flag-5'>深度</b>解析 <b class='flag-5'>ARM</b> 架构:从剑桥车库到未来计算

    Arm Lumex平台赋能新一代旗舰智能手机体验升级

    可伸缩矩阵扩展 (SME2) 技术的全新 Arm C1 CPU 集群与Arm Mali G1-Ultra GPU,Lumex 将先进智能计算带到全球数十亿手机用户的手中,并依托各大旗
    的头像 发表于 12-15 14:27 993次阅读

    Arm助力MediaTek天玑9500重塑旗舰体验

    Arm 合作伙伴产品上“芯”!近日,MediaTek 发布了天玑 9500 旗舰 5G 智能体 AI 芯片,该芯片基于启用 SME2 的全新 Arm C1 CPU 集群打造,并搭载 Arm M
    的头像 发表于 10-10 11:28 1484次阅读

    Arm神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,移动设备上实现PC级别的AI图形性能

    Arm 神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,首次在移动设备上实现 PC 级别的 AI 图形性能,为未来的端侧 AI 创新奠定基础 神经超级采样是 Arm
    的头像 发表于 08-14 17:59 3008次阅读

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    别让 GPU 故障拖后腿,捷智算GPU维修室来救场!

    在AI浪潮汹涌的当下,GPU已然成为众多企业与科研机构的核心生产力。从深度学习模型训练,到影视渲染、复杂科学计算,GPU凭借强大并行计算能力,极大提升运算效率。然而,就像高速运转的精密仪器易出状况
    的头像 发表于 07-17 18:56 1419次阅读
    别让 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>维修室来救场!

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    自家GPU 提出的多卡算力互连技术,是早期为了应对深度学习对超高算力需求而单卡算力不足的局面的解决方案,当然这都是官方用来吹牛的话术。我自己在2019年左右第一次接触到多卡交火的GIY玩法(从学生到
    发表于 06-18 19:31

    直播 | GB/T 45086与ISO11451标准深度解读研讨会笔记请查收!

    6月12日,《德思特GB/T 45086与ISO11451标准深度解读》线上研讨会圆满结束。感谢大家的观看与支持!在直播间收到一些观众的技术问题,我们汇总了热点问题并请讲师详细解答,在此整理分享给大家,请查收!
    的头像 发表于 06-18 11:06 1269次阅读
    直播 | GB/T 45086与ISO11451标准<b class='flag-5'>深度</b><b class='flag-5'>解读</b>研讨会笔记请查收!

    瑞萨365 深度解读

    技术架构、核心功能、行业影响及未来展望四个维度进行深度解读: 一、技术架构:融合硬件与设计软件的跨领域协作平台 瑞萨365基于Altium 365云平台构建,整合了瑞萨的半导体产品组合与Altium的设计工具链,形成从芯片选型到系统部署的全流程数字环境。其核心架构围绕 五
    的头像 发表于 06-06 09:58 2776次阅读
    瑞萨365 <b class='flag-5'>深度</b><b class='flag-5'>解读</b>

    苹果A20芯片的深度解读

    以下是基于最新行业爆料对苹果A20芯片的深度解读,综合技术革新、性能提升及行业影响三大维度分析: 一、核心技术创新 ​ ​ 制程工艺突破 ​ ​ 全球首款2nm芯片 ​:采用台积电N2(第一代2纳米
    的头像 发表于 06-06 09:32 4751次阅读