0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm技术助力Google Axion处理器加速AI工作负载推理

Arm社区 来源:Arm社区 2025-02-14 14:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Arm 基础设施事业部高级产品经理 Ashok Bhat

由 Arm Neoverse V2 平台赋能的 Google Axion 处理器已在 Google Cloud 上正式上线,其中,C4A 是首款基于 Axion 的云虚拟机,为基于 CPU人工智能 (AI) 推理和通用云工作负载实现了显著的性能飞跃。

Axion CPU 延续了 Google Cloud 的定制芯片计划,旨在提高工作负载性能和能效,标志着在重塑 AI 云计算格局方向上的重大进步。Google 选择 Arm Neoverse 平台是因为它具备高性能、高能效和创新灵活性,而且有着强大的软件生态系统和广泛的行业应用,可确保与现有应用的轻松集成。

Neoverse V2 平台引入了新的硬件扩展,例如 SVE/SVE2、BF16 和 i8mm,与上代 Neoverse N1 相比,显著增强了机器学习性能。这些扩展增强了向量处理、BFloat16 运算和整数矩阵乘法,使得基于 Neoverse V2 的 CPU 每周期执行的 MAC 运算次数比 N1 提高最多四倍。

从生成式 AI 到计算机视觉:加快 AI 工作负载推理速度并提升性能

立足于开源为原则的 AI 具备众多领先的开源项目。近年来,Arm 一直与合作伙伴开展密切合作,以提高这些开源项目的性能。在许多情况下,我们会利用 Arm Kleidi 技术来提高 Neoverse 平台上的性能,Kleidi 技术可通过 Arm Compute Library 和 KleidiAI 库访问。

大语言模型

由 Meta 开发的 Llama 模型包含一系列先进的大语言模型 (LLM),专为各种生成任务而设计,模型大小从 10 亿到 4,050 亿个参数不等。这些模型针对性能进行了优化,并可针对特定应用进行微调,因而在自然语言处理任务中用途广泛。

Llama.cpp 是一个 C++ 实现方案,可以在不同的硬件平台上实现这些模型的高效推理。它支持 Q4_0 量化方案,可将模型权重减少为 4 位整数。

为了展示基于 Arm 架构的服务器 CPU 在 LLM 推理方面的能力,Arm 软件团队和 Arm 合作伙伴对 llama.cpp 中的 int4 内核进行了优化,以利用这些新的指令。具体来说,我们增加了三种新的量化格式:为仅支持 Neon 的设备添加了 Q4_0_4_4,为支持 SVE/SVE2 和 i8mm 的设备添加了 Q4_0_4_8,为支持 SVE 256 位的设备添加了 Q4_0_8_8。

因此,与当前的 x86 架构实例相比,基于 Axion 的虚拟机在提示词处理和词元 (token) 生成方面的性能高出两倍。

bc197f22-ea89-11ef-9310-92fbcf53809c.png

我们在所有实例上运行了 Llama 3.1 8B 模型,并对每个实例使用了推荐的 4 位量化方案。Axion 的数据是在 c4a-standard-48 实例上使用 Q4_0_4_8 量化方案生成的,而 Ampere Altra 的数据是在 t2a-standard-48 实例上使用 Q4_0_4_4 生成的。x86 架构的数据是在 c4-standard-48 (Intel Emerald Rapids) 和 c3d-standard-60 (AMD Genoa) 上使用 Q4_0 量化格式生成的。在所有实例中,线程数始终设置为 48。

BERT

在 C4A 虚拟机上运行 BERT 取得了显著的速度提升,大幅减少了延迟并提高了吞吐量。此例中,我们在各种 Google Cloud 平台实例上以单流模式(批量大小为 1)使用 PyTorch 2.2.1 运行 MLPerf BERT 模型,并测量第 90 百分位的延迟。

bc32ea16-ea89-11ef-9310-92fbcf53809c.png

ResNet-50

此外,Google Axion 的功能不仅限于 LLM,还可应用于图像识别模型,例如 ResNet-50 就能受益于此硬件的先进特性。BF16 和 i8mm 指令集成后,实现了更高的精度和更快的训练速度,展现了 Axion 相较基于 x86 架构实例的性能优势。

bc4ed000-ea89-11ef-9310-92fbcf53809c.png

此例中,我们在各种 Google Cloud 平台实例上以单流模式(批量大小为 1)使用 PyTorch 2.2.1 运行 MLPerf ResNet-50 PyTorch 模型。

XGBoost

XGBoost 是一个领先的机器学习算法库,用于解决回归、分类和排序问题,与 Google Cloud 上类似的 x86 架构实例相比,在 Axion 上训练和预测所需的时间减少了 24% 到 48%。

bc669eb0-ea89-11ef-9310-92fbcf53809c.png

bc7eafaa-ea89-11ef-9310-92fbcf53809c.png

结论

从上述结果,可以发现基于 Axion 的虚拟机在性能方面超越了上一代基于 Neoverse N1 的虚拟机和 Google Cloud 上其他的 x86 架构替代方案。Google Cloud C4A 虚拟机能够处理从 XGBoost 等传统机器学习任务到 Llama 等生成式 AI 应用的各类工作负载,是AI 推理的理想之选。

Arm 资源:助力云迁移

为了提升 Google Axion 的使用体验,Arm 汇集了各种资源:

[1] 通过 Arm Learning Paths 迁移到 Axion:依照详细的指南和最佳实践,简化向 Axion 实例的迁移。

[2] Arm Software Ecosystem Dashboard:获取有关 Arm 的最新软件支持信息。

[3] Arm 开发者中心:无论是刚接触 Arm 平台,还是正在寻找开发高性能软件解决方案的资源,Arm 开发者中心应有尽有,可以帮助开发者构建更卓越的软件,为数十亿设备提供丰富的体验。欢迎开发者在 Arm 不断壮大的全球开发者社区中,下载内容、交流学习和讨论。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9588

    浏览量

    393556
  • 计算机
    +关注

    关注

    19

    文章

    7839

    浏览量

    93455
  • AI
    AI
    +关注

    关注

    91

    文章

    41053

    浏览量

    302561
  • Neoverse
    +关注

    关注

    0

    文章

    17

    浏览量

    5002

原文标题:基于 Arm Neoverse 的 Google Axion 以更高性能加速 AI 工作负载推理

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NORDIC AI的好处

    原始传感数据,可显著降低功耗、延长电池寿命。[Edge AI 概述; Nordic Edge AI 技术页] 降低云依赖与时延 直接在设备上做
    发表于 01-31 23:16

    Arm Neoverse平台赋能新一代Google Axion实例

    从推荐引擎到语言模型,人工智能 (AI) 正在重塑各类应用,但其背后潜藏着一项迫切的挑战:能效问题。随着 AI 应用规模扩大,其运行所需的能耗也随之增长,进而为云基础设施带来了日益严峻的压力,尤其是在融合 AI 数据中心,传统
    的头像 发表于 12-31 15:51 1801次阅读
    <b class='flag-5'>Arm</b> Neoverse平台赋能新一代<b class='flag-5'>Google</b> <b class='flag-5'>Axion</b>实例

    Banana Pi BPI-CM6 计算模块将 8 核 RISC-V 处理器带入 CM4 外形尺寸

    RISC-V 处理器设计,而非封闭的 ARM 架构,是迈向开放式架构计算的真正一步。这为开发者提供了更大的自由度、灵活性和长期发展空间,并让他们能够访问开放的指令集。它将 GPU、AI 加速
    发表于 12-20 09:01

    瑞芯微SOC智能视觉AI处理器

    需要连接多种外设的产品。显示: 支持双屏异显,最高4K@60fps输出。 RK1126B: 一款集成自研NPU的智能视觉AI处理器,专注于视频输入端的AI分析与处理。CPU: 双核A5
    发表于 12-19 13:44

    d-Matrix与Andes晶心科技合作打造下一代AI推理加速器

    一代 Raptor 推理架构的处理器。本次合作代表着针对数据中心规模的 AI计算工作,以存储为中心的计算 (memory-centric computing) 与开放标准
    的头像 发表于 12-17 10:47 1150次阅读

    瑞萨电子RZ/V系列微处理器助力边缘AI开发

    边缘AI越来越多地应用于诸如工业摄像头和公共设施摄像头等嵌入式设备中,并要求嵌入式产品小型化且具有低功耗。瑞萨电子RZ/V系列微处理器(MPU)内置AI加速器,即动态可重构
    的头像 发表于 09-23 10:31 1097次阅读
    瑞萨电子RZ/V系列微<b class='flag-5'>处理器</b><b class='flag-5'>助力</b>边缘<b class='flag-5'>AI</b>开发

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理,旨在推动AI推理体验升级,提升推理性价比,
    的头像 发表于 08-15 09:45 1377次阅读

    Arm神经技术是业界首创在 Arm GPU 上增添专用神经加速器技术,移动设备上实现PC级别的AI图形性能

    Arm 神经技术是业界首创在 Arm GPU 上增添专用神经加速器技术,首次在移动设备上实现 PC 级别的
    的头像 发表于 08-14 17:59 2915次阅读

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

        降低HBM依赖,华为发布AI推理创新技术UCM   日前,华为正式发布AI推理创新技术U
    发表于 08-13 09:45 5710次阅读

    Arm KleidiAI与XNNPack集成实现AI性能提升

    Arm KleidiAI 首次集成到 XNNPack 已过去整整一年。KleidiAI 是一款高度优化的软件库,旨在加速 Arm CPU 上的人工智能 (AI)
    的头像 发表于 08-08 15:19 3109次阅读
    <b class='flag-5'>Arm</b> KleidiAI与XNNPack集成实现<b class='flag-5'>AI</b>性能提升

    研华科技推出紧凑型边缘AI推理系统AIR-120

    研华科技隆重宣布,推出紧凑型边缘AI推理系统——AIR-120。该系统搭载英特尔凌动x7433RE(Amston Lake)处理器、酷睿i3-N305处理器、N97(Alder Lak
    的头像 发表于 07-17 17:16 1176次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的
    发表于 07-16 15:29

    AMD嵌入式处理器为您的应用添能助力

    AMD 面向嵌入式应用打造高性能、高能效处理器,全方位满足网络、存储、汽车、工业、零售、医疗、测试与测量等领域的各种需求。无论您的应用是涉及 AI 加速、机器视觉、安全数据处理还是高分
    的头像 发表于 07-07 14:09 2042次阅读

    Arm Kleidi助力轻松加速AI工作负载

    正如 Arm 工程部软件高级副总裁 Mark Hambleton 在《2025 年芯片新思维》报告中所说:人工智能 (AI) 的未来发展离不开软硬件的协同。
    的头像 发表于 06-19 10:45 1075次阅读

    如何在基于Arm Neoverse平台的Google Axion处理器上构建RAG应用

    你是否好奇如何防止人工智能 (AI) 聊天机器人给出过时或不准确的答案?检索增强生成 (Retrieval-Augmented Generation, RAG) 技术提供了一种强大的解决方案,能够显著提升答案的准确性和相关性。
    的头像 发表于 04-28 14:34 1178次阅读
    如何在基于<b class='flag-5'>Arm</b> Neoverse平台的<b class='flag-5'>Google</b> <b class='flag-5'>Axion</b><b class='flag-5'>处理器</b>上构建RAG应用