0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Arm Ethos-U85 NPU部署小语言模型

Arm社区 来源:Arm社区 2025-01-20 09:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着人工智能 (AI) 的演进,人们对使用小语言模型 (SLM) 在嵌入式设备上执行 AI 工作负载的兴趣愈发高涨。

以下的演示展现了端点 AI 在物联网和边缘计算领域的发展潜力。在此演示中,当用户输入一个句子后,系统将基于该句扩展生成一个儿童故事。这项演示受到了微软“Tiny Stories”论文和 Andrej Karpathy 的 TinyLlama2 项目的启发,TinyLlama2 项目使用了 2,100 万个故事来训练小语言模型生成文本。

该演示搭载了 Arm Ethos-U85 NPU,并在嵌入式硬件上运行小语言模型。尽管大语言模型 (LLM) 更加广为人知,但由于小语言模型能够以更少的资源和较低的成本提供出色的性能,而且训练起来也更为简易且成本更低,因此越来越受到关注。

在嵌入式硬件上实现

基于 Transformer 的小语言模型

我们的演示展示了 Ethos-U85 作为一个小型低功耗平台,具备运行生成式 AI 的能力,并凸显了小语言模型在特定领域中的出色表现。TinyLlama2 模型相较 Meta 等公司的大模型更为简化,很适合用于展示 Ethos-U85 的 AI 性能,可作为端点 AI 工作负载的理想之选。

为开发此演示,我们进行了大量建模工作,包括创建一个全整数的 INT8(和 INT8x16)TinyLlama2 模型,并将其转换为适合 Ethos-U85 限制的固定形状 TensorFlow Lite 格式。

我们的量化方法表明,全整数语言模型在取得高准确度和输出质量之间实现了良好平衡。通过量化激活、归一化函数和矩阵乘法,我们无需进行浮点运算。由于浮点运算在芯片面积和能耗方面成本较高,这对于资源受限的嵌入式设备来说是一个关键考量。

Ethos-U85 在 FPGA 平台上以 32 MHz 的频率运行语言模型,其文本生成速度可达到每秒 7.5 到 8 个词元 (token),与人类的阅读速度相当,同时仅消耗四分之一的计算资源。在实际应用的系统级芯片 (SoC) 上,该性能最多可提高十倍,从而显著提升了边缘侧 AI 的处理速度和能效。

儿童故事生成特性采用了 Llama2 的开源版本,并结合了 Ethos NPU 后端,在 TFLite Micro 上运行演示。大部分推理逻辑以 C++ 语言在应用层编写,并通过优化上下文窗口内容,提高了故事的连贯性,确保 AI 能够流畅地讲述故事。

由于硬件限制,团队需要对 Llama2 模型进行适配,以确保其在 Ethos-U85 NPU 上高效运行,这要求对性能和准确性进行仔细考量。INT8 和 INT16 混合量化技术展示了全整数模型的潜力,这有利于 AI 社区更积极地针对边缘侧设备优化生成式模型,并推动神经网络在如 Ethos-U85 等高能效平台上的广泛应用。

Arm Ethos-U85 彰显卓越性能

Ethos-U85 的乘法累加 (MAC) 单元可以从 128 个扩展至 2,048 个,与前一代产品 Ethos-U65 相比,其能效提高了 20%。另外相较上一代产品,Ethos-U85 的一个显著特点是能够原生支持 Transformer 网络。

Ethos-U85 支持使用前代 Ethos-U NPU 的合作伙伴能够实现无缝迁移,并充分利用其在基于 Arm 架构的机器学习 (ML) 工具上的既有投资。凭借其卓越能效和出色性能,Ethos-U85 正愈发受到开发者青睐。

如果在芯片上采用 2,048 个 MAC 配置,Ethos-U85 可以实现 4 TOPS 的性能。在演示中,我们使用了较小的配置,即在 FPGA 平台上采用 512 个 MAC,并以 32 MHz 的频率运行具有 1,500 万个参数的 TinyLlama2 小语言模型。

这一能力凸显了将 AI 直接嵌入设备的可能性。尽管内存有限(320 KB SRAM 用于缓存,32 MB 用于存储),Ethos-U85 仍能高效处理此类工作负载,为小语言模型和其他 AI 应用在深度嵌入式系统中的广泛应用奠定了基础。

将生成式 AI 引入嵌入式设备

开发者需要更加先进的工具来应对边缘侧 AI 的复杂性。Arm 通过推出 Ethos-U85,并支持基于 Transformer 的模型,致力于满足这一需求。随着边缘侧 AI 在嵌入式应用中的重要性日益增加,Ethos-U85 正在推动从语言模型到高级视觉任务等各种新用例的实现。

Ethos-U85 NPU 提供了创新前沿解决方案所需的卓越性能和出色能效。我们的演示显示了将生成式 AI 引入嵌入式设备的重要进展,并凸显了在 Arm 平台上部署小语言模型便捷可行。

Arm 正为边缘侧 AI 在广泛应用领域带来新机遇,Ethos-U85 也因此成为推动新一代智能、低功耗设备发展的关键动力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9499

    浏览量

    388731
  • 嵌入式
    +关注

    关注

    5186

    文章

    20149

    浏览量

    328856
  • 物联网
    +关注

    关注

    2939

    文章

    47322

    浏览量

    407906
  • AI
    AI
    +关注

    关注

    89

    文章

    38106

    浏览量

    296642

原文标题:Arm Ethos-U85 NPU:利用小语言模型在边缘侧实现生成式 AI

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    1 GHz Arm® Cortex®-M85 MCU上部署AI模型

    ,即可体验在1GHzArmCortex-M85MCU上部署AI模型。(公众号后台回复RA8P1,加入交流群)目录应用效果预览流程图环境准备训练模型ai
    的头像 发表于 12-02 21:04 5859次阅读
    1 GHz <b class='flag-5'>Arm</b>® Cortex®-M<b class='flag-5'>85</b> MCU上<b class='flag-5'>部署</b>AI<b class='flag-5'>模型</b>

    如何利用NPU模型压缩技术优化边缘AI

    随着人工智能模型从设计阶段走向实际部署,工程师面临着双重挑战:在计算能力和内存受限的嵌入式设备上实现实时性能。神经处理单元(NPU)作为强大的硬件解决方案,擅长处理 AI 模型密集的计
    的头像 发表于 11-07 15:26 1037次阅读
    如何利用<b class='flag-5'>NPU</b>与<b class='flag-5'>模型</b>压缩技术优化边缘AI

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU多模态部署评测

    关键词:瑞芯微 RK3576、NPU(神经网络处理器)、端侧小语言模型(SLM)、多模态 LLM、边缘 AI 部署、开发板、RKLLM随着大语言
    发表于 08-29 18:08

    Qwen2-VL-3B模型在米尔瑞芯微RK3576开发板NPU多模态部署指导与评测

    随着大语言模型(LLM)技术的快速迭代,从云端集中式部署到端侧分布式运行的趋势日益明显。端侧小型语言模型(SLM)凭借低延迟、高隐私性和离线
    的头像 发表于 08-28 08:05 5226次阅读
    Qwen2-VL-3B<b class='flag-5'>模型</b>在米尔瑞芯微RK3576开发板<b class='flag-5'>NPU</b>多模态<b class='flag-5'>部署</b>指导与评测

    Alif Semiconductor发布支持生成式AI的MCU基准测试结果,巩固其在边缘AI领域的领先地位

    · Ensemble E4/E6/E8 MCU和融合处理器搭载领先的边缘AI加速器——Arm Ethos-U85 NPU,集成ISP和宽内存总线,可高效实现图像采集与缓冲。 · 在微控制器行业中
    的头像 发表于 08-13 15:39 2.2w次阅读
    Alif Semiconductor发布支持生成式AI的MCU基准测试结果,巩固其在边缘AI领域的领先地位

    Arm方案 基于Arm架构的边缘侧设备(树莓派或 NVIDIA Jetson Nano)上部署PyTorch模型

    本文将为你展示如何在树莓派或 NVIDIA Jetson Nano 等基于 Arm 架构的边缘侧设备上部署 PyTorch 模型
    的头像 发表于 07-28 11:50 2497次阅读

    无法在NPU上推理OpenVINO™优化的 TinyLlama 模型怎么解决?

    NPU 上推断 OpenVINO™优化的 TinyLlama 模型。 遇到的错误: get_shape was called on a descriptor::Tensor with dynamic shape
    发表于 07-11 06:58

    请问如何在C++中使用NPU上的模型缓存?

    无法确定如何在 C++ 中的 NPU 上使用模型缓存
    发表于 06-24 07:25

    基于RK3576开发板的RKLLM大模型部署教程

    RKLLM工具链是一个专为在Rockchip NPU平台上部署语言模型(LLM)而设计的开发套件。它主要包括RKLLM-Toolkit和RKLLM Runtime两个核心组件
    的头像 发表于 05-16 17:48 1938次阅读
    基于RK3576开发板的RKLLM大<b class='flag-5'>模型</b><b class='flag-5'>部署</b>教程

    后摩智能NPU适配通义千问Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列开源混合推理模型。用时不到1天,后摩智能自研NPU迅速实现Qwen3 系列模型(Qwen3 0.6B-14B)在端边侧的高效部署。这一成果充分彰显了
    的头像 发表于 05-07 16:46 1127次阅读

    Arm 推出 Armv9 边缘 AI 计算平台,以超高能效与先进 AI 能力赋能物联网革新

    架构的超高能效 CPU——Arm Cortex-A320 以及对 Transformer 网络具有原生支持的 Ethos-U85 AI 加速器为核心的边缘AI 计算平台,可支持运行超 10 亿参数
    的头像 发表于 03-06 11:43 1780次阅读
    <b class='flag-5'>Arm</b> 推出 Armv9 边缘 AI 计算平台,以超高能效与先进 AI 能力赋能物联网革新

    Arm推出全球首个Armv9边缘AI计算平台

    全球首个 Armv9 边缘 AI 计算平台以 Cortex-A320 CPU 和 Ethos-U85 NPU 为核心,专为物联网应用优化,支持运行超 10 亿参数的端侧 AI 模型,已获得包括亚马逊云科技 (AWS)、西门子和瑞
    的头像 发表于 02-27 17:08 1230次阅读

    RK3588开发板上部署DeepSeek-R1大模型的完整指南

    的核心功能之一,它允许用户将Hugging Face或GGUF格式的大语言模型转换为RKLLM模型,从而将RKLLM模型在Rockchip NPU
    发表于 02-27 16:45

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    飙升至百分之百,满负荷运转,而开发板强大的 NPU 却闲置一旁,无法发挥加速运算优势,这在一定程度上限制了模型的运行效率与性能表现。 02-用RKLLM量化部署-挖掘NPU潜力
    发表于 02-14 17:42

    如何在Arm Ethos-U85上使用ExecuTorch

    在快速发展的机器学习领域,PyTorch 凭借其灵活性和全面的生态系统,已成为模型开发的热门框架。Arm 与 Meta 合作在 ExecuTorch 中引入了对 Arm 平台的支持,进一步简化了
    的头像 发表于 02-14 14:23 1016次阅读
    如何在<b class='flag-5'>Arm</b> <b class='flag-5'>Ethos-U85</b>上使用ExecuTorch