0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm技术助力Google Axion处理器加速AI工作负载推理

Arm社区 来源:Arm社区 2025-02-14 14:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Arm 基础设施事业部高级产品经理 Ashok Bhat

由 Arm Neoverse V2 平台赋能的 Google Axion 处理器已在 Google Cloud 上正式上线,其中,C4A 是首款基于 Axion 的云虚拟机,为基于 CPU人工智能 (AI) 推理和通用云工作负载实现了显著的性能飞跃。

Axion CPU 延续了 Google Cloud 的定制芯片计划,旨在提高工作负载性能和能效,标志着在重塑 AI 云计算格局方向上的重大进步。Google 选择 Arm Neoverse 平台是因为它具备高性能、高能效和创新灵活性,而且有着强大的软件生态系统和广泛的行业应用,可确保与现有应用的轻松集成。

Neoverse V2 平台引入了新的硬件扩展,例如 SVE/SVE2、BF16 和 i8mm,与上代 Neoverse N1 相比,显著增强了机器学习性能。这些扩展增强了向量处理、BFloat16 运算和整数矩阵乘法,使得基于 Neoverse V2 的 CPU 每周期执行的 MAC 运算次数比 N1 提高最多四倍。

从生成式 AI 到计算机视觉:加快 AI 工作负载推理速度并提升性能

立足于开源为原则的 AI 具备众多领先的开源项目。近年来,Arm 一直与合作伙伴开展密切合作,以提高这些开源项目的性能。在许多情况下,我们会利用 Arm Kleidi 技术来提高 Neoverse 平台上的性能,Kleidi 技术可通过 Arm Compute Library 和 KleidiAI 库访问。

大语言模型

由 Meta 开发的 Llama 模型包含一系列先进的大语言模型 (LLM),专为各种生成任务而设计,模型大小从 10 亿到 4,050 亿个参数不等。这些模型针对性能进行了优化,并可针对特定应用进行微调,因而在自然语言处理任务中用途广泛。

Llama.cpp 是一个 C++ 实现方案,可以在不同的硬件平台上实现这些模型的高效推理。它支持 Q4_0 量化方案,可将模型权重减少为 4 位整数。

为了展示基于 Arm 架构的服务器 CPU 在 LLM 推理方面的能力,Arm 软件团队和 Arm 合作伙伴对 llama.cpp 中的 int4 内核进行了优化,以利用这些新的指令。具体来说,我们增加了三种新的量化格式:为仅支持 Neon 的设备添加了 Q4_0_4_4,为支持 SVE/SVE2 和 i8mm 的设备添加了 Q4_0_4_8,为支持 SVE 256 位的设备添加了 Q4_0_8_8。

因此,与当前的 x86 架构实例相比,基于 Axion 的虚拟机在提示词处理和词元 (token) 生成方面的性能高出两倍。

bc197f22-ea89-11ef-9310-92fbcf53809c.png

我们在所有实例上运行了 Llama 3.1 8B 模型,并对每个实例使用了推荐的 4 位量化方案。Axion 的数据是在 c4a-standard-48 实例上使用 Q4_0_4_8 量化方案生成的,而 Ampere Altra 的数据是在 t2a-standard-48 实例上使用 Q4_0_4_4 生成的。x86 架构的数据是在 c4-standard-48 (Intel Emerald Rapids) 和 c3d-standard-60 (AMD Genoa) 上使用 Q4_0 量化格式生成的。在所有实例中,线程数始终设置为 48。

BERT

在 C4A 虚拟机上运行 BERT 取得了显著的速度提升,大幅减少了延迟并提高了吞吐量。此例中,我们在各种 Google Cloud 平台实例上以单流模式(批量大小为 1)使用 PyTorch 2.2.1 运行 MLPerf BERT 模型,并测量第 90 百分位的延迟。

bc32ea16-ea89-11ef-9310-92fbcf53809c.png

ResNet-50

此外,Google Axion 的功能不仅限于 LLM,还可应用于图像识别模型,例如 ResNet-50 就能受益于此硬件的先进特性。BF16 和 i8mm 指令集成后,实现了更高的精度和更快的训练速度,展现了 Axion 相较基于 x86 架构实例的性能优势。

bc4ed000-ea89-11ef-9310-92fbcf53809c.png

此例中,我们在各种 Google Cloud 平台实例上以单流模式(批量大小为 1)使用 PyTorch 2.2.1 运行 MLPerf ResNet-50 PyTorch 模型。

XGBoost

XGBoost 是一个领先的机器学习算法库,用于解决回归、分类和排序问题,与 Google Cloud 上类似的 x86 架构实例相比,在 Axion 上训练和预测所需的时间减少了 24% 到 48%。

bc669eb0-ea89-11ef-9310-92fbcf53809c.png

bc7eafaa-ea89-11ef-9310-92fbcf53809c.png

结论

从上述结果,可以发现基于 Axion 的虚拟机在性能方面超越了上一代基于 Neoverse N1 的虚拟机和 Google Cloud 上其他的 x86 架构替代方案。Google Cloud C4A 虚拟机能够处理从 XGBoost 等传统机器学习任务到 Llama 等生成式 AI 应用的各类工作负载,是AI 推理的理想之选。

Arm 资源:助力云迁移

为了提升 Google Axion 的使用体验,Arm 汇集了各种资源:

[1] 通过 Arm Learning Paths 迁移到 Axion:依照详细的指南和最佳实践,简化向 Axion 实例的迁移。

[2] Arm Software Ecosystem Dashboard:获取有关 Arm 的最新软件支持信息。

[3] Arm 开发者中心:无论是刚接触 Arm 平台,还是正在寻找开发高性能软件解决方案的资源,Arm 开发者中心应有尽有,可以帮助开发者构建更卓越的软件,为数十亿设备提供丰富的体验。欢迎开发者在 Arm 不断壮大的全球开发者社区中,下载内容、交流学习和讨论。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9499

    浏览量

    388681
  • 计算机
    +关注

    关注

    19

    文章

    7764

    浏览量

    92679
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296542
  • Neoverse
    +关注

    关注

    0

    文章

    15

    浏览量

    4934

原文标题:基于 Arm Neoverse 的 Google Axion 以更高性能加速 AI 工作负载推理

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瑞萨电子RZ/V系列微处理器助力边缘AI开发

    边缘AI越来越多地应用于诸如工业摄像头和公共设施摄像头等嵌入式设备中,并要求嵌入式产品小型化且具有低功耗。瑞萨电子RZ/V系列微处理器(MPU)内置AI加速器,即动态可重构
    的头像 发表于 09-23 10:31 579次阅读
    瑞萨电子RZ/V系列微<b class='flag-5'>处理器</b><b class='flag-5'>助力</b>边缘<b class='flag-5'>AI</b>开发

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理,旨在推动AI推理体验升级,提升推理性价比,
    的头像 发表于 08-15 09:45 951次阅读

    Arm KleidiAI与XNNPack集成实现AI性能提升

    Arm KleidiAI 首次集成到 XNNPack 已过去整整一年。KleidiAI 是一款高度优化的软件库,旨在加速 Arm CPU 上的人工智能 (AI)
    的头像 发表于 08-08 15:19 2545次阅读
    <b class='flag-5'>Arm</b> KleidiAI与XNNPack集成实现<b class='flag-5'>AI</b>性能提升

    研华科技推出紧凑型边缘AI推理系统AIR-120

    研华科技隆重宣布,推出紧凑型边缘AI推理系统——AIR-120。该系统搭载英特尔凌动x7433RE(Amston Lake)处理器、酷睿i3-N305处理器、N97(Alder Lak
    的头像 发表于 07-17 17:16 861次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的
    发表于 07-16 15:29

    Arm Kleidi助力轻松加速AI工作负载

    正如 Arm 工程部软件高级副总裁 Mark Hambleton 在《2025 年芯片新思维》报告中所说:人工智能 (AI) 的未来发展离不开软硬件的协同。
    的头像 发表于 06-19 10:45 844次阅读

    解读基于Arm Neoverse V2平台的Google Axion处理器

    云计算需求在人工智能 (AI) 时代的爆发式增长,推动了开发者寻求性能优化且高能效的解决方案,以降低总体拥有成本 (TCO)。Arm 致力于通过 Arm Neoverse 平台满足不断变化的需求,Neoverse 也正因此迅速成
    的头像 发表于 04-21 13:47 890次阅读

    光子 AI 处理器的核心原理及突破性进展

    ,光子 AI 处理器依靠光信号的传输、调制及检测来完成计算任务,因其具备高速、低功耗、高带宽等突出优势,被视作突破现有计算瓶颈的关键技术之一。 核心原理及面临的技术挑战 光子
    的头像 发表于 04-19 00:40 3634次阅读

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命 Google 发布了 Ironwood,这是其第七代张量处理单元 (TPU),专为
    的头像 发表于 04-12 11:10 2892次阅读
    谷歌第七代TPU Ironwood深度解读:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>时代的硬件革命

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    架构,赋能多场景应用 BPI-AI2N 采用 RZ/V2N 处理器,集成 4 核 Arm® Cortex®-A55(1.8GHz)与 Cortex®-M33(200MHz),提供强劲的计算能力,同时兼顾
    发表于 03-19 17:54

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务首次实现集成,以帮助全球企业组织
    发表于 03-19 15:24 469次阅读
    Oracle 与 NVIDIA 合作<b class='flag-5'>助力</b>企业<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>

    支持实时物体识别的视觉人工智能微处理器RZ/V2MA数据手册

    DRP-AI 采用了一种由动态可重构处理器(DRP)和 AI-MAC组成的人工智能加速器,该加速器加速
    的头像 发表于 03-18 18:12 741次阅读
    支持实时物体识别的视觉人工智能微<b class='flag-5'>处理器</b>RZ/V2MA数据手册

    AI MPU# 瑞萨RZ/V2H 四核视觉 ,采用 DRP-AI3 加速器和高性能实时处理器

    RZ/V2H 高端 AI MPU 采用瑞萨电子专有的AI 加速器-动态可重配置处理器 (DRP-AI3)、四核
    的头像 发表于 03-15 11:50 1933次阅读
    <b class='flag-5'>AI</b> MPU# 瑞萨RZ/V2H 四核视觉 ,采用 DRP-<b class='flag-5'>AI</b>3 <b class='flag-5'>加速器</b>和高性能实时<b class='flag-5'>处理器</b>

    Arm Cortex-A320 CPU助力嵌入式设备实现高能效AI计算

    Arm Cortex-A320 是目前最小型的 Armv9-A 架构 CPU。得益于该处理器的推出,开发者现在能有更多选择决定如何处理物联网边缘人工智能 (AI)
    的头像 发表于 02-27 17:17 1145次阅读
    <b class='flag-5'>Arm</b> Cortex-A320 CPU<b class='flag-5'>助力</b>嵌入式设备实现高能效<b class='flag-5'>AI</b>计算

    端侧 AI 音频处理器:集成音频处理AI 计算能力的创新芯片

    电子发烧友网综合报道:端侧 AI 音频处理器是专为智能物联网(AIoT)端侧设备设计,集成了人工智能(AI加速器的系统级音频处理器。这类
    的头像 发表于 02-16 00:13 3059次阅读