0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探索在Arm平台运行的Llama 4 Scout模型

Arm社区 来源:Arm社区 2025-05-20 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能 (AI) 正在加速发展,也越来越智能化。当今的开源大语言模型不仅功能强大,而且在设计时充分考虑了实际部署的需求,因而具有轻量化和经济高效的特点,可大规模部署到数十亿台设备上。简而言之,对于开发者可能想到的各种情形,当今的开源大语言模型几乎都能满足其需求。

Meta 近期发布的 Llama 4 就很好地印证了上述观点,它在基于 Arm 架构的平台上能够充分发挥其性能潜力。Llama 4 采用创新的混合专家模型 (MoE) 架构,在多模态推理、工具使用等方面表现出色。而 Llama 4 最大的亮点在于能轻松部署到各种实际场景中,而这在很大程度上得益于 Arm 平台。

性能优化,随时部署

凭借 Arm 灵活且高能效的计算平台,Llama 4 可以在基于 Arm 架构的云基础设施上高效运行,让开发者能够在多样化的云环境中部署性能更强、能耗更低且可扩展性更高的大语言模型。

整体而言,行业正呈现出一种颇有意味的转变。尽管行业仍在追求更大、更智能的多模态模型,但 Llama 4 代表着一种新兴趋势,部分模型正朝着更小型、更实用的方向演进,便于企业和客户在自己的云端或本地基础设施上运行 AI 模型。Llama 4,尤其是其中的 Scout 模型,兼具高效性与专注性,基于智能体和 MoE 架构打造,与 Arm 这样的高性价比、可扩展的平台高度契合。

自 Llama 2 发布以来,Arm 一直致力于优化其平台对模型的兼容性,从而确保开发者和最终用户可以高效部署 Meta 新推出的每一代 Llama 模型。Llama 4 Scout 模型正是上述优化措施的直观体现,能够在 Arm 生态系统中流畅运行。

Llama 4 Scout 模型:

Arm 架构系统的新里程碑

Llama 4 Scout 模型现可在基于 Arm 架构的基础设施上高效运行。为了验证兼容性,团队使用开源推理引擎 llama.cpp 在搭载 Arm 架构的 AWS Graviton4 上成功部署了 Llama 4 Scout 模型。部署操作简单快捷,开发者无需专用硬件或专有软件,就可以无缝集成先进的 AI 功能。在部署到生产环境中时,借助 llama.cpp 这样的垂直集成框架和 PyTorch 这样的通用机器学习工具,整个过程变得清晰且易于实现。

MoE 架构适合 Arm 平台的原因

智能高效:MoE 模型可智能地将输入分发到专用子网络,从而动态分配算力资源。这种自适应策略与 Arm 广受赞誉的高能效和资源感知型工作负载管理机制相得益彰。

可扩展设计:基于 Arm 架构的平台(例如 AWS Graviton、Google Axion 和 Microsoft Cobalt 等)具备可扩展的核心数量和线程能力,非常适合 MoE 模型的并行特性,可有效管理工作负载,从而大幅提升吞吐量与整体效率。

针对各种工作负载进行优化:Arm 的架构理念注重在不同应用中都实现高性能与高能效,这与 MoE 对任务进行划分并交由专用子网络进行处理的能力非常契合。

具有前瞻性的协同模式:Arm 平台与 MoE 架构的结合代表了一种具有前瞻性的协同模式,能够满足今后对更智能、更节省资源的 AI 解决方案的动态需求。

探索在Arm 平台运行的 Llama 4

在 Arm 平台上运行的 Llama 4 Scout 模型是 Arm 致力于打造开放、协作式 AI 的有力体现,诚邀开发者和生态系统合作伙伴探索和体验。Llama 4 Scout 模型可在 AWS Graviton 等基于 Arm 架构的基础设施上运行,提供现代 AI 工作负载所需的性能、效率和可扩展性。

探索基于 Arm 平台的 AI,发现其中蕴含的广阔潜力,从云端部署到边缘设备,助力构建更智能且互联的未来。

开发者伙伴们,准备好开始了吗?期待与你一起探索相关工具,参与社区交流互动,依托 Arm 技术,携手塑造更智能、更互联的未来!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9588

    浏览量

    393562
  • AI
    AI
    +关注

    关注

    91

    文章

    41059

    浏览量

    302563
  • 模型
    +关注

    关注

    1

    文章

    3816

    浏览量

    52265

原文标题:探索在 Arm 平台运行的 Llama 4,携手塑造智能互联的 AI 未来

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    IT岗位天塌了!Claude 4震撼发布:AI编程大模型再进化

    电子发烧友网报道(文 / 吴子鹏)5 月 23 日凌晨,著名大模型平台 Anthropic 召开首届开发者大会,重磅发布最新大模型 ——Claude 4。Claude
    的头像 发表于 05-26 07:52 6018次阅读
    IT岗位天塌了!Claude <b class='flag-5'>4</b>震撼发布:AI编程大<b class='flag-5'>模型</b>再进化

    如何在Arm Neoverse N2平台上提升llama.cpp扩展性能

    跨 NUMA 内存访问可能会限制 llama.cpp Arm Neoverse 平台上的扩展能力。本文将为你详细分析这一问题,并通过引入原型验证补丁来加以解决。测试结果表明,
    的头像 发表于 02-11 10:06 303次阅读

    Arm率先适配腾讯混元HY-1.8B-2Bit模型

    计算平台Arm 率先完成了对该模型的成功适配。HY-1.8B-2Bit 现已能够搭载启用第二代可伸缩矩阵扩展 (SME2) 技术的 Armv9 计算
    的头像 发表于 02-10 17:29 2056次阅读

    MDK-ARM平台下的fft介绍

    MDK-ARM平台 #include &quot;arm_math.h&quot; #include &quot
    发表于 01-22 07:35

    探索RISC-V机器人领域的潜力

    :为何选择MUSE Pi Pro? 本次测评源于参与“CIE全国RISC-V创新应用大赛”。我选择MUSE Pi Pro开发板作为平台,主要目的是为了深入探索RISC-V架构高性能计算和实际
    发表于 12-03 14:40

    【CIE全国RISC-V创新应用大赛】基于 K1 AI CPU 的大模型部署落地

    8GB 物理内存 (且操作系统还要占用约 500MB+)。 结论 :如果直接照搬官方文档下载 Q4 模型, 100% 会因为内存不足(OOM)而无法运行 。 为了满足赛题要求,必须采用 “极限
    发表于 11-27 14:43

    大规模专家并行模型TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwe
    的头像 发表于 09-06 15:21 1416次阅读
    大规模专家并行<b class='flag-5'>模型</b><b class='flag-5'>在</b>TensorRT-LLM的设计

    如何在基于Arm架构的边缘AI设备上部署飞桨模型

    Arm 与领先的开源深度学习平台强强联合,会带来什么?那就是推动创新的“火箭燃料”。Arm 携手百度,利用双方高能效计算平台与 AI
    的头像 发表于 09-06 14:07 1318次阅读

    利用Arm i8mm指令优化llama.cpp

    本文将为你介绍如何利用 Arm i8mm 指令,具体来说,是通过带符号 8 位整数矩阵乘加指令 smmla,来优化 llama.cpp 中 Q6_K 和 Q4_K 量化模型推理。
    的头像 发表于 07-24 09:51 2190次阅读
    利用<b class='flag-5'>Arm</b> i8mm指令优化<b class='flag-5'>llama</b>.cpp

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    1、ollama平台搭建 ollama可以快速地部署开源大模型,网址为https://ollama.com, 试用该平台,可以平台上部署
    发表于 07-19 15:45

    Arm Neoverse N2平台实现DeepSeek-R1满血版部署

    颇具优势。Arm 携手合作伙伴, Arm Neoverse N2 平台上使用开源推理框架 llama.cpp 实现 DeepSeek-R1
    的头像 发表于 07-03 14:37 1422次阅读
    <b class='flag-5'>Arm</b> Neoverse N2<b class='flag-5'>平台</b>实现DeepSeek-R1满血版部署

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    安装了 OpenVINO™ GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    发表于 06-25 07:20

    2.0.0版本的ST Edge AI Corelinux平台上可以把量化后的onnx模型转换为.nb,但是运行报错,缺少文件,为什么?

    2.0.0版本的ST Edge AI Core工具linux平台上应该是可以把量化后的onnx模型转换为.nb,但是运行报错,缺少文件。
    发表于 06-17 06:29

    Arm CPU适配通义千问Qwen3系列模型

    与阿里巴巴开源的轻量级深度学习框架 MNN 已深度集成。得益于此,Qwen3-0.6B、Qwen3-1.7B 及 Qwen3-4B 三款模型能够搭载 Arm 架构 CPU 的移动设
    的头像 发表于 05-12 16:37 1589次阅读

    Windows Arm64托管运行器正式支持GitHub Actions

    过去一年,Arm 与 GitHub 持续紧密合作,致力于为基于 Arm 平台的开发者打造更便捷、更高效的开发体验。GitHub 推出的 Arm 托管
    的头像 发表于 04-28 14:23 1286次阅读