0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ARM Mali GPU 深度解读

eeDesigner 2025-05-29 10:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ARM Mali GPU 深度解读

ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,成为全球移动设备 GPU 市场的核心力量。以下从技术演进、架构特性、产品布局及生态战略等维度展开分析:


一、架构演进:从 Utgard 到 Valhall

Mali GPU 的架构迭代以 ​北欧神话元素命名,技术特性与性能提升同步推进:

Utgard 架构(2007-2012)​​:

  • 代表型号:Mali-200、Mali-400 MP
  • 特性:基于 ​分离式顶点与片段着色器,仅支持 OpenGL ES 2.0 及以下标准,适用于早期智能手机嵌入式设备。例如 Mali-400 MP 支持 4 核扩展,像素填充率达 275M/秒(65nm 工艺)。
  • 局限:能效比低,多核扩展能力有限,无法满足复杂 3D 渲染需求。

Midgard 架构(2013-2018)​​:

  • 代表型号:Mali-T760、Mali-T880
  • 突破:
    • 统一着色器架构​:支持 OpenGL ES 3.0/3.1 和 OpenCL 1.2,实现 GPU 通用计算(GPGPU)。
    • 多核扩展​:单芯片最高支持 16 核(如 Mali-T760MP16),三角形输出率提升至 30M/秒,并首次引入 ​DirectX 11 支持​(如 Mali-T760)。
  • 应用:三星 Exynos 8890(T880)、联发科 Helio P10(T860)等中高端芯片。

Bifrost 架构(2016-2020)​​:

  • 代表型号:Mali-G71、G72、G76
  • 创新:
    • 标量执行单元​:将向量拆解为标量处理,提升 16/8bit 低精度计算效率,支持 ​AI 推理加速​(如 int8 dot 指令优化神经网络)。
    • 动态电源管理​:能效较 Midgard 提升 30%,如 Mali-G76 在三星 Exynos 9820 中实现 1.4 倍性能提升。

Valhall 架构(2019-至今)​​:

  • 代表型号:Mali-G77、G78、G710
  • 技术飞跃:
    • 超标量设计​:16-wide warp 并行计算,ALU 单元密度翻倍,支持 ​可变速率着色(VRS)​​ 和光线追踪。
    • AI 与图形协同​:Mali-G77 的机器学习性能较前代提升 60%,支持本地运行 ​100 亿参数模型​(如端侧 Stable Diffusion)。
  • 旗舰应用:华为麒麟 960(G71)、联发科天玑 2000(G710)。

二、核心特性:性能与能效的平衡

Mali GPU 的技术优势体现在 ​异构计算​ 与 ​标准化支持​:

图形渲染能力​:

  • Tile-Based Rendering​:分块渲染减少内存带宽消耗,支持 8K 实时渲染与光线追踪(如 Mali-G710 集成 ASR 超分技术)。
  • API 兼容性​:覆盖 OpenGL ES 3.2、Vulkan 1.3、OpenCL 2.0 及 DirectX 12,适配多平台开发需求。

AI 与通用计算​:

  • NPU 协同​:Ethos-U NPU 与 GPU 共享内存,支持 Transformer 等大模型推理(如 Mali-G710 提供 8 TOPS 算力)。
  • 低精度优化​:BF16/INT8 量化加速,单位功耗下 MLPerf 性能提升 8 倍。

能效创新​:

  • 动态调频(DVFS)​​:每核独立电源管理,功耗较 x86 GPU 降低 40%(如 Mali-G710 无风扇设计覆盖 80% 轻薄本市场)。
  • Chiplet 封装​:基于 Arm CSA 标准支持多晶粒互连,提升扩展灵活性(如 Socionext 2nm 工艺芯粒方案)。

三、产品线布局:全场景覆盖

Mali GPU 按性能划分为四大系列,适配不同市场需求:

高端旗舰(V/Valhall 系列)​​:

  • Mali-G710:16 核设计,支持 4K 120Hz 显示与 AI 超分,应用于旗舰手机(如三星 Galaxy S25)和 AI PC。
  • Mali-G78:24 核配置,3DMark Wild Life 跑分超 8500 分,媲美苹果 M1 GPU。

中端主流(Bifrost 系列)​​:

  • Mali-G57:8 核设计,主打千元机市场(如 Redmi Note 系列),支持 Vulkan 1.1 和 OpenCL 1.2。
  • Mali-G68:6 核精简版,适配平板和车载娱乐系统。

入门级(Midgard 系列)​​:

  • Mali-T720:单核架构,用于智能电视和低端物联网设备(如小米电视 6A)。

定制化方案​:

  • Mali Nano​:针对教育终端和工控设备推出子平台,支持 300 美元以下设备本地化 AI 功能。

四、生态战略:软硬协同与开发者支持

ARM 通过 ​工具链优化​ 和 ​生态联盟​ 巩固市场地位:

开发工具链​:

  • KleidiAI​:集成 TensorFlow Lite、PyTorch,模型部署时间缩短 50%(如阿里倚天 710 部署 Llama3 效率提升 1.9 倍)。
  • Mali 调试套件​:支持 OpenGL ES 仿真器和 Vulkan 性能分析,覆盖 2200 万开发者。

合作伙伴网络​:

  • 芯片厂商​:联发科(天玑系列)、三星(Exynos)、华为(麒麟)均采用 Mali 公版架构。
  • 云服务商​:腾讯云、AWS 推出基于 Mali 的 GPU 实例(如 Graviton3 推理能效提升 60%)。

标准化认证​:


五、挑战与未来方向

尽管 Mali 占据安卓 GPU 市场 30% 份额,但仍面临竞争与技术挑战:

市场压力​:

  • x86 生态壁垒​:PC 领域 AMD/Intel 加速布局混合架构,2025 年 Arm PC 份额仅 13%。
  • 竞品追赶​:高通 Adreno 740 光追性能反超,苹果 M2 GPU 能效优势显著。

技术突破方向​:

  • 光线追踪普及​:Valhall 架构需进一步优化实时光追效率,追赶 NVIDIA DLSS 3.0。
  • 端云协同计算​:通过 CoreLink CI-700 互连技术实现“端-边-云”一体化(如腾讯云 Mali 边缘节点)。

长期愿景​:

  • ARM 目标 2030 年赋能 ​50 亿台智能设备,成为 AIoT 与 6G 网络的算力底座。

总结

ARM Mali 通过持续架构迭代(Utgard → Valhall)和生态整合,已成为移动 GPU 领域的核心力量。其技术特性与 ​异构计算能效优化​ 的深度结合,使其在智能手机、AI PC 及边缘计算场景中展现出强大竞争力。未来,随着 Chiplet 技术和光线追踪的进一步成熟,Mali 或将在高性能计算市场开辟新战场,推动“端侧智能普惠化”进程。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9499

    浏览量

    388551
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5097

    浏览量

    134418
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Arm助力MediaTek天玑9500重塑旗舰体验

    Arm 合作伙伴产品上“芯”!近日,MediaTek 发布了天玑 9500 旗舰 5G 智能体 AI 芯片,该芯片基于启用 SME2 的全新 Arm C1 CPU 集群打造,并搭载 Arm M
    的头像 发表于 10-10 11:28 891次阅读

    Arm神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,移动设备上实现PC级别的AI图形性能

    Arm 神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,首次在移动设备上实现 PC 级别的 AI 图形性能,为未来的端侧 AI 创新奠定基础 神经超级采样是 Arm
    的头像 发表于 08-14 17:59 2514次阅读

    直播 | GB/T 45086与ISO11451标准深度解读研讨会笔记请查收!

    6月12日,《德思特GB/T 45086与ISO11451标准深度解读》线上研讨会圆满结束。感谢大家的观看与支持!在直播间收到一些观众的技术问题,我们汇总了热点问题并请讲师详细解答,在此整理分享给大家,请查收!
    的头像 发表于 06-18 11:06 823次阅读
    直播 | GB/T 45086与ISO11451标准<b class='flag-5'>深度</b><b class='flag-5'>解读</b>研讨会笔记请查收!

    瑞萨365 深度解读

    技术架构、核心功能、行业影响及未来展望四个维度进行深度解读: 一、技术架构:融合硬件与设计软件的跨领域协作平台 瑞萨365基于Altium 365云平台构建,整合了瑞萨的半导体产品组合与Altium的设计工具链,形成从芯片选型到系统部署的全流程数字环境。其核心架构围绕 五
    的头像 发表于 06-06 09:58 1800次阅读
    瑞萨365 <b class='flag-5'>深度</b><b class='flag-5'>解读</b>

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发展成为强大的并行计算引擎,广泛应用于人工智能、科学计算
    的头像 发表于 05-30 10:36 1204次阅读
    <b class='flag-5'>GPU</b>架构<b class='flag-5'>深度</b>解析

    Arm 公司面向 PC 市场的 ​Arm Niva​ 深度解读

    面向 PC 市场的 ​ Arm Niva ​ 深度解读Arm Niva ​ 是 Arm 公司为 PC 市场推出的核心计算平台,属于其“
    的头像 发表于 05-29 09:56 1301次阅读

    Arm 公司面向移动端市场的 ​Arm Lumex​ 深度解读

    面向移动端市场的 ​ Arm Lumex ​ 深度解读Arm Lumex ​ 是 Arm 公司面向移动设备市场推出的新一代计算平台,隶
    的头像 发表于 05-29 09:54 4045次阅读

    Arm 公司面向汽车市场的 ​Arm Zena​ 深度解读

    面向汽车市场的 ​ Arm Zena ​ 深度解读 Arm Zena 是 Arm 公司面向智能汽车领域推出的核心计算平台,属于其“平台优先”
    的头像 发表于 05-29 09:51 2036次阅读

    英伟达Cosmos-Reason1 模型深度解读

    。以下从技术架构、训练策略、核心能力及行业影响四方面展开深度解读: Cosmos-Reason 1:从物理 AI 常识到具体决策 物理 AI 系统需要感知、理解和执行物理世界中的复杂作。在本文中,我们提出了 Cosmos-Reason1 模型,该模型可以理解物理世界并通过
    的头像 发表于 03-29 23:29 2613次阅读

    摩尔线程与当虹科技达成深度合作

    近日,摩尔线程与当虹科技达成深度合作,基于国产GPU成功完成了与BlackEye多模态视听大模型的深度融合。双方联手打造专业级视听“引擎”,并在超高清GPU算力场景中成功落地。
    的头像 发表于 03-20 15:22 1276次阅读

    瑞芯微米尔RK3562国产核心板,ARM中量级多面手

    网关、边缘计算等领域提供了高性价比的解决方案。 核心板基于 RK3562 或RK3562J处理器,采用四核ARM Cortex-A53架构,主频高达2GHz,集成Mali-G52 GPU,支持4K视频解码
    发表于 02-28 15:32

    NVIDIA GPU助力科研人员探索外星世界

    NVIDIA GPU 驱动的深度学习在短短几秒内解读出了卡西尼号土星探测器多年来收集的海量数据,为科研人员探索外星世界提供了更加智能的方式。
    的头像 发表于 02-27 10:37 845次阅读

    深度解读 30KPA64A 单向 TVS:64V 击穿机制与高效防护策略

    深度解读 30KPA64A 单向 TVS:64V 击穿机制与高效防护策略
    的头像 发表于 02-24 13:52 601次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>解读</b> 30KPA64A 单向 TVS:64V 击穿机制与高效防护策略

    0xmd公司通过NVIDIA GPU打造医疗AI解决方案

    本案例中,0xmd 公司通过 NVIDIA GPU 打造医疗 AI 解决方案,覆盖影像分析和文本解读等领域。
    的头像 发表于 01-14 16:23 891次阅读

    深度学习工作负载中GPU与LPU的主要差异

    ,一个新的竞争力量——LPU(Language Processing Unit,语言处理单元)已悄然登场,LPU专注于解决自然语言处理(NLP)任务中的顺序性问题,是构建AI应用不可或缺的一环。 本文旨在探讨深度学习工作负载中GPU与LPU的主要差异,并深入分析它们的架构
    的头像 发表于 12-09 11:01 3906次阅读
    <b class='flag-5'>深度</b>学习工作负载中<b class='flag-5'>GPU</b>与LPU的主要差异