0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探索在Arm平台运行的Llama 4 Scout模型

Arm社区 来源:Arm社区 2025-05-20 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能 (AI) 正在加速发展,也越来越智能化。当今的开源大语言模型不仅功能强大,而且在设计时充分考虑了实际部署的需求,因而具有轻量化和经济高效的特点,可大规模部署到数十亿台设备上。简而言之,对于开发者可能想到的各种情形,当今的开源大语言模型几乎都能满足其需求。

Meta 近期发布的 Llama 4 就很好地印证了上述观点,它在基于 Arm 架构的平台上能够充分发挥其性能潜力。Llama 4 采用创新的混合专家模型 (MoE) 架构,在多模态推理、工具使用等方面表现出色。而 Llama 4 最大的亮点在于能轻松部署到各种实际场景中,而这在很大程度上得益于 Arm 平台。

性能优化,随时部署

凭借 Arm 灵活且高能效的计算平台,Llama 4 可以在基于 Arm 架构的云基础设施上高效运行,让开发者能够在多样化的云环境中部署性能更强、能耗更低且可扩展性更高的大语言模型。

整体而言,行业正呈现出一种颇有意味的转变。尽管行业仍在追求更大、更智能的多模态模型,但 Llama 4 代表着一种新兴趋势,部分模型正朝着更小型、更实用的方向演进,便于企业和客户在自己的云端或本地基础设施上运行 AI 模型。Llama 4,尤其是其中的 Scout 模型,兼具高效性与专注性,基于智能体和 MoE 架构打造,与 Arm 这样的高性价比、可扩展的平台高度契合。

自 Llama 2 发布以来,Arm 一直致力于优化其平台对模型的兼容性,从而确保开发者和最终用户可以高效部署 Meta 新推出的每一代 Llama 模型。Llama 4 Scout 模型正是上述优化措施的直观体现,能够在 Arm 生态系统中流畅运行。

Llama 4 Scout 模型:

Arm 架构系统的新里程碑

Llama 4 Scout 模型现可在基于 Arm 架构的基础设施上高效运行。为了验证兼容性,团队使用开源推理引擎 llama.cpp 在搭载 Arm 架构的 AWS Graviton4 上成功部署了 Llama 4 Scout 模型。部署操作简单快捷,开发者无需专用硬件或专有软件,就可以无缝集成先进的 AI 功能。在部署到生产环境中时,借助 llama.cpp 这样的垂直集成框架和 PyTorch 这样的通用机器学习工具,整个过程变得清晰且易于实现。

MoE 架构适合 Arm 平台的原因

智能高效:MoE 模型可智能地将输入分发到专用子网络,从而动态分配算力资源。这种自适应策略与 Arm 广受赞誉的高能效和资源感知型工作负载管理机制相得益彰。

可扩展设计:基于 Arm 架构的平台(例如 AWS Graviton、Google Axion 和 Microsoft Cobalt 等)具备可扩展的核心数量和线程能力,非常适合 MoE 模型的并行特性,可有效管理工作负载,从而大幅提升吞吐量与整体效率。

针对各种工作负载进行优化:Arm 的架构理念注重在不同应用中都实现高性能与高能效,这与 MoE 对任务进行划分并交由专用子网络进行处理的能力非常契合。

具有前瞻性的协同模式:Arm 平台与 MoE 架构的结合代表了一种具有前瞻性的协同模式,能够满足今后对更智能、更节省资源的 AI 解决方案的动态需求。

探索在Arm 平台运行的 Llama 4

在 Arm 平台上运行的 Llama 4 Scout 模型是 Arm 致力于打造开放、协作式 AI 的有力体现,诚邀开发者和生态系统合作伙伴探索和体验。Llama 4 Scout 模型可在 AWS Graviton 等基于 Arm 架构的基础设施上运行,提供现代 AI 工作负载所需的性能、效率和可扩展性。

探索基于 Arm 平台的 AI,发现其中蕴含的广阔潜力,从云端部署到边缘设备,助力构建更智能且互联的未来。

开发者伙伴们,准备好开始了吗?期待与你一起探索相关工具,参与社区交流互动,依托 Arm 技术,携手塑造更智能、更互联的未来!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9501

    浏览量

    388829
  • AI
    AI
    +关注

    关注

    89

    文章

    38171

    浏览量

    296887
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719

原文标题:探索在 Arm 平台运行的 Llama 4,携手塑造智能互联的 AI 未来

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索RISC-V机器人领域的潜力

    :为何选择MUSE Pi Pro? 本次测评源于参与“CIE全国RISC-V创新应用大赛”。我选择MUSE Pi Pro开发板作为平台,主要目的是为了深入探索RISC-V架构高性能计算和实际
    发表于 12-03 14:40

    【CIE全国RISC-V创新应用大赛】基于 K1 AI CPU 的大模型部署落地

    8GB 物理内存 (且操作系统还要占用约 500MB+)。 结论 :如果直接照搬官方文档下载 Q4 模型, 100% 会因为内存不足(OOM)而无法运行 。 为了满足赛题要求,必须采用 “极限
    发表于 11-27 14:43

    利用Arm i8mm指令优化llama.cpp

    本文将为你介绍如何利用 Arm i8mm 指令,具体来说,是通过带符号 8 位整数矩阵乘加指令 smmla,来优化 llama.cpp 中 Q6_K 和 Q4_K 量化模型推理。
    的头像 发表于 07-24 09:51 1531次阅读
    利用<b class='flag-5'>Arm</b> i8mm指令优化<b class='flag-5'>llama</b>.cpp

    Arm Neoverse N2平台实现DeepSeek-R1满血版部署

    颇具优势。Arm 携手合作伙伴, Arm Neoverse N2 平台上使用开源推理框架 llama.cpp 实现 DeepSeek-R1
    的头像 发表于 07-03 14:37 1000次阅读
    <b class='flag-5'>Arm</b> Neoverse N2<b class='flag-5'>平台</b>实现DeepSeek-R1满血版部署

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    安装了 OpenVINO™ GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    发表于 06-25 07:20

    今日看点丨台积电、Intel合资运营代工业务;韩国计划向当地汽车行业注入3万亿韩元援助

    Llama 4目前有两个的版本,名为Scout和Maverick。据Meta介绍,Scout和Maverick不仅是其“迄今为止最先进的模型
    发表于 04-07 11:26 590次阅读

    4台树莓派5跑动大模型!DeepSeek R1分布式实战!

    导语“用4台树莓派5组网,轻松运行模型——这可能是2025年最颠覆认知的开源AI项目!”GitHub明星项目distributed-llama最新实战案例曝光:通过独创的动态
    的头像 发表于 03-24 14:50 1077次阅读
    <b class='flag-5'>4</b>台树莓派5跑动大<b class='flag-5'>模型</b>!DeepSeek R1分布式实战!

    无法OVMS上运行来自Meta的大型语言模型 (LLM),为什么?

    无法 OVMS 上运行来自 Meta 的大型语言模型 (LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行
    发表于 03-05 08:07

    K1 AI CPU基于llama.cpp与Ollama的大模型部署实践

    AICPU芯片,已于今年4月份发布。下面我们以K1为例,结合llama.cpp来展示AICPU模型领域的优势。
    的头像 发表于 02-18 14:23 1566次阅读
    K1 AI CPU基于<b class='flag-5'>llama</b>.cpp与Ollama的大<b class='flag-5'>模型</b>部署实践

    IBMwatsonx.ai平台推出DeepSeek R1蒸馏模型

    ,进一步增强企业安全、治理以及规模化部署方面的能力。 DeepSeek R1是IBMAI领域的一项重要创新,它采用了蒸馏模型技术,能够保持模型
    的头像 发表于 02-14 10:21 876次阅读

    Meta组建四大专研小组,深入探索DeepSeek模型

    近日,据报道,脸书母公司Meta为了提升其大模型Llama的性能,专门成立了四个研究小组,深入探索量化巨头幻方量化旗下的国产大模型DeepSeek的工作原理。 据悉,Meta组建的这四
    的头像 发表于 02-05 14:02 718次阅读

    赶紧本地运行与OpenAI-o1能力近似的DeepSeek-R1模型

    ​作者:算力魔方创始人/英特尔边缘计算创新大使 刘力 前面我们分享了《算力魔方上本地部署Phi-4模型》,实现了边缘端获得Llama 3
    的头像 发表于 01-21 14:29 4343次阅读
    赶紧<b class='flag-5'>在</b>本地<b class='flag-5'>运行</b>与OpenAI-o1能力近似的DeepSeek-R1<b class='flag-5'>模型</b>

    算力魔方上本地部署Phi-4模型

    ​作者:算力魔方创始人/英特尔边缘计算创新大使 刘力 前面我们分享了《Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑》,Llama 3.3 70B模型的发布,标志着
    的头像 发表于 01-15 11:05 790次阅读
    <b class='flag-5'>在</b>算力魔方上本地部署Phi-<b class='flag-5'>4</b><b class='flag-5'>模型</b>

    NVIDIA推出开放式Llama Nemotron系列模型

    作为 NVIDIA NIM 微服务,开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言模型可在任何加速系统上为 AI 智能体提供强效助力。
    的头像 发表于 01-09 11:11 1193次阅读

    Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑

    新的高度。 一,技术突破:开源智能的新高度 Llama 3.3 70B 模型的发布,标志着开源AI模型智能水平上的一大飞跃。它不仅达到了之前只有
    的头像 发表于 12-18 16:46 891次阅读
    Meta重磅发布<b class='flag-5'>Llama</b> 3.3 70B:开源AI<b class='flag-5'>模型</b>的新里程碑