0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenVINO™助力谷歌大语言模型Gemma实现高速智能推理

英特尔物联网 来源:OpenVINO 中文社区 2024-03-17 17:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大型语言模型(LLM)正在迅速发展,变得更加强大和高效,使人们能够在广泛的应用程序中越来越复杂地理解和生成类人文本。谷歌的Gemma是一个轻量级、先进的开源模型新家族,站在LLM创新的前沿。然而,对更高推理速度和更智能推理能力的追求并不仅仅局限于复杂模型的开发,它扩展到模型优化和部署技术领域。

OpenVINO 工具套件因此成为一股引人注目的力量,在这些领域发挥着越来越重要的作用。这篇博客文章深入探讨了优化谷歌的Gemma模型,并在不足千元的AI开发板上进行模型部署、使用OpenVINO 加速推理,将其转化为能够更快、更智能推理的AI引擎。

此文使用了研扬科技针对边缘AI行业开发者推出的哪吒(Nezha)开发套件,以信用卡大小(85x56mm)的开发板-哪吒(Nezha)为核心,哪吒采用Intel N97处理器(Alder Lake-N),最大睿频3.6GHz,Intel UHD Graphics内核GPU,可实现高分辨率显示;板载LPDDR5内存、eMMC存储及TPM 2.0,配备GPIO接口,支持Windows和Linux操作系统,这些功能和无风扇散热方式相结合,为各种应用程序构建高效的解决方案,适用于如自动化、物联网网关、数字标牌和机器人等应用。

什么是Gemma?

Gemma是谷歌的一个轻量级、先进的开源模型家族,采用了与创建Gemini模型相同的研究和技术。它们以拉丁语单词 “Gemma” 命名,意思是“宝石”,是文本到文本的、仅解码器架构的LLM,有英文版本,具有开放权重、预训练变体和指令调整变体。Gemma模型非常适合各种文本生成任务,包括问答、摘要和推理。

Gemma模型系列,包括Gemma-2B和Gemma-7B模型,代表了深度学习模型可扩展性和性能的分层方法。在本次博客中,我们将展示OpenVINO 如何优化和加速Gemma-2B-it模型的推理,即Gemma-2B参数模型的指令微调后的版本。

利用OpenVINO 优化和加速推理

优化、推理加速和部署的过程包括以下具体步骤,使用的是我们常用的OpenVINO Notebooks GitHub仓库 中的254-llm-chatbot代码示例。

由安装必要的依赖包开始

运行OpenVINO Notebooks仓库的具体安装指南在这里。运行这个254-llm-chatbot的代码示例,需要安装以下必要的依赖包。

6e202c3e-e2c5-11ee-a297-92fbcf53809c.png

选择推理的模型

由于我们在Jupyter Notebook演示中提供了一组由OpenVINO 支持的LLM,您可以从下拉框中选择 “Gemma-2B-it” 来运行该模型的其余优化和推理加速步骤。当然,很容易切换到 “Gemma-7B-it” 和其他列出的型号。

6e300758-e2c5-11ee-a297-92fbcf53809c.png

使用Optimum Intel实例化模型

Optimum Intel是Hugging Face Transformers和Diffuser库与OpenVINO 之间的接口,用于加速Intel体系结构上的端到端流水线。接下来,我们将使用Optimum Intel从Hugging Face Hub加载优化模型,并创建流水线,使用Hugging Face API以及OpenVINO Runtime运行推理。在这种情况下,这意味着我们只需要将AutoModelForXxx类替换为相应的OVModelForXxx类。

6e503d2a-e2c5-11ee-a297-92fbcf53809c.png

权重压缩

尽管像Gemma-2B这样的LLM在理解和生成类人文本方面变得越来越强大和复杂,但管理和部署这些模型在计算资源、内存占用、推理速度等方面带来了关键挑战,尤其是对于这种不足千元级的AI开发板等客户端设备。权重压缩算法旨在压缩模型的权重,可用于优化模型体积和性能。

我们的Jupyter笔记本电脑使用Optimum Intel和NNCF提供INT8和INT4压缩功能。与INT8压缩相比,INT4压缩进一步提高了性能,但预测质量略有下降。因此,我们将在此处选择INT4压缩。

6e6c02f8-e2c5-11ee-a297-92fbcf53809c.png

我们还可以比较模型权重压缩前后的模型体积变化情况。

6e7f55b0-e2c5-11ee-a297-92fbcf53809c.png

选择推理设备和模型变体

由于OpenVINO 能够在一系列硬件设备上轻松部署,因此还提供了一个下拉框供您选择将在其上运行推理的设备。考虑到内存使用情况,我们将选择CPU作为推理设备。

6e9496a0-e2c5-11ee-a297-92fbcf53809c.png

运行聊天机器人

现在万事具备,在这个Notebook代码示例中我们还提供了一个基于Gradio的用户友好的界面。现在就让我们把聊天机器人运行起来吧。

小结

整个的步骤就是这样!现在就开始跟着我们提供的代码和步骤,动手试试用OpenVINO 在哪吒开发板上运行基于大语言模型的聊天机器人吧。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20154

    浏览量

    247383
  • 机器人
    +关注

    关注

    213

    文章

    30619

    浏览量

    219689
  • 物联网
    +关注

    关注

    2939

    文章

    47341

    浏览量

    408199
  • GPIO
    +关注

    关注

    16

    文章

    1313

    浏览量

    55738
  • OpenVINO
    +关注

    关注

    0

    文章

    117

    浏览量

    717

原文标题:千元开发板,百万可能:OpenVINO™ 助力谷歌大语言模型Gemma实现高速智能推理 | 开发者实战

文章出处:【微信号:英特尔物联网,微信公众号:英特尔物联网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌推出AI模型Gemma 3 270M

    过去几个月,Gemma 开放模型系列的发展是激动人心的。我们推出了 Gemma 3 和 Gemma 3 QAT,为单一云端和桌面加速器带来了最先进的性能。
    的头像 发表于 09-11 15:09 898次阅读

    谷歌Gemma 3n模型的新功能

    从第一个 Gemma 模型于去年年初推出以来,已逐渐发展为生机勃勃的 Gemmaverse 生态系统,累计下载量突破 1.6 亿。这个生态系统包括十余款专业模型系列,涵盖从安全防护到医疗应用的各领
    的头像 发表于 07-25 10:16 1034次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemma</b> 3n<b class='flag-5'>模型</b>的新功能

    无法在NPU上推理OpenVINO™优化的 TinyLlama 模型怎么解决?

    在 NPU 上推断 OpenVINO™优化的 TinyLlama 模型。 遇到的错误: get_shape was called on a descriptor::Tensor with dynamic shape
    发表于 07-11 06:58

    如何在Ollama中使用OpenVINO后端

    Ollama 和 OpenVINO 的结合为大型语言模型(LLM)的管理和推理提供了强大的双引擎驱动。Ollama 提供了极简的模型管理工具
    的头像 发表于 04-14 10:22 1143次阅读

    新品 | Module LLM Kit,离线大语言模型推理模块套装

    推理与数据交互需求。ModuleLLM是一款集成化的离线大语言模型(LLM)推理模块,专为需要高效、智能交互的终端设备设计。Module13
    的头像 发表于 03-28 18:49 900次阅读
    新品 | Module LLM Kit,离线大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>模块套装

    Google发布最新AI模型Gemma 3

    Gemma 开放模型系列是 Google 推动实用 AI 技术普惠大众的重要基石。上个月,Gemma 迎来了首个生日。回望过去一年,其成果斐然:全球下载量突破 1 亿,社区欣欣向荣,衍生模型
    的头像 发表于 03-18 09:51 1472次阅读

    使用OpenVINO™进行推理时的内存泄漏怎么解决?

    使用 OpenVINO™ 进行推理时,内存会随着时间的推移而增加,并导致程序崩溃。
    发表于 03-06 08:29

    如何使用多摄像头作为OpenVINO推理的输入?

    无法确定如何使用多摄像头作为OpenVINO推理的输入
    发表于 03-06 07:30

    为什么深度学习中的Frame per Second高于OpenVINO™演示推理脚本?

    在 DL Workbench 上使用 Microsoft 通用对象上下文 (MS COCO) 数据集运行 YOLOv4 对象检测模型,并获得 50 - 60 FPS。 OpenVINO™演示推理脚本运行,并获得更高的 FP
    发表于 03-06 07:27

    创建了用于OpenVINO推理的自定义C++和Python代码,从C++代码中获得的结果与Python代码不同是为什么?

    创建了用于OpenVINO推理的自定义 C++ 和 Python* 代码。 在两个推理过程中使用相同的图像和模型。 从 C++ 代码中获得的结果与 Python* 代码不同。
    发表于 03-06 06:22

    为什么无法在运行时C++推理中读取OpenVINO模型

    使用模型优化器 2021.1 版OpenVINO™转换模型 使用 Runtime 2022.3 版本在 C++ 推理实现 ( core.r
    发表于 03-05 06:17

    C#集成OpenVINO™:简化AI模型部署

    什么是OpenVINO 工具套件? OpenVINO 工具套件是一个用于优化和部署人工智能(AI)模型,提升AI推理性能的开源工具集合,不
    的头像 发表于 02-17 10:03 2533次阅读
    C#集成<b class='flag-5'>OpenVINO</b>™:简化AI<b class='flag-5'>模型</b>部署

    在龙芯3a6000上部署DeepSeek 和 Gemma2大模型

    run deepseek-r1:1.5b 3.运行Gemma 2大模型 如果想体验 Google Gemma 2 可以到下面的网站选择不同参数的大模型https://ollama.
    发表于 02-07 19:35

    C#中使用OpenVINO™:轻松集成AI模型

    与分析三大领域中,如何快速将AI模型集成到应用程序中,实现AI赋能和应用增值?最容易的方式是:在C#中,使用OpenVINO™工具套件集成AI模型。 一,什么是
    的头像 发表于 02-07 14:05 1672次阅读
    C#中使用<b class='flag-5'>OpenVINO</b>™:轻松集成AI<b class='flag-5'>模型</b>!

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    LLM630LLM推理,视觉识别,可开发,灵活扩展···LLM630ComputeKit是一款AI大语言模型推理开发平台,专为边缘计算和智能
    的头像 发表于 01-17 18:48 1212次阅读
    新品| LLM630 Compute Kit,AI 大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>开发平台