0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenVINO™助力谷歌大语言模型Gemma实现高速智能推理

英特尔物联网 来源:OpenVINO 中文社区 2024-03-17 17:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大型语言模型(LLM)正在迅速发展,变得更加强大和高效,使人们能够在广泛的应用程序中越来越复杂地理解和生成类人文本。谷歌的Gemma是一个轻量级、先进的开源模型新家族,站在LLM创新的前沿。然而,对更高推理速度和更智能推理能力的追求并不仅仅局限于复杂模型的开发,它扩展到模型优化和部署技术领域。

OpenVINO 工具套件因此成为一股引人注目的力量,在这些领域发挥着越来越重要的作用。这篇博客文章深入探讨了优化谷歌的Gemma模型,并在不足千元的AI开发板上进行模型部署、使用OpenVINO 加速推理,将其转化为能够更快、更智能推理的AI引擎。

此文使用了研扬科技针对边缘AI行业开发者推出的哪吒(Nezha)开发套件,以信用卡大小(85x56mm)的开发板-哪吒(Nezha)为核心,哪吒采用Intel N97处理器(Alder Lake-N),最大睿频3.6GHz,Intel UHD Graphics内核GPU,可实现高分辨率显示;板载LPDDR5内存、eMMC存储及TPM 2.0,配备GPIO接口,支持Windows和Linux操作系统,这些功能和无风扇散热方式相结合,为各种应用程序构建高效的解决方案,适用于如自动化、物联网网关、数字标牌和机器人等应用。

什么是Gemma?

Gemma是谷歌的一个轻量级、先进的开源模型家族,采用了与创建Gemini模型相同的研究和技术。它们以拉丁语单词 “Gemma” 命名,意思是“宝石”,是文本到文本的、仅解码器架构的LLM,有英文版本,具有开放权重、预训练变体和指令调整变体。Gemma模型非常适合各种文本生成任务,包括问答、摘要和推理。

Gemma模型系列,包括Gemma-2B和Gemma-7B模型,代表了深度学习模型可扩展性和性能的分层方法。在本次博客中,我们将展示OpenVINO 如何优化和加速Gemma-2B-it模型的推理,即Gemma-2B参数模型的指令微调后的版本。

利用OpenVINO 优化和加速推理

优化、推理加速和部署的过程包括以下具体步骤,使用的是我们常用的OpenVINO Notebooks GitHub仓库 中的254-llm-chatbot代码示例。

由安装必要的依赖包开始

运行OpenVINO Notebooks仓库的具体安装指南在这里。运行这个254-llm-chatbot的代码示例,需要安装以下必要的依赖包。

6e202c3e-e2c5-11ee-a297-92fbcf53809c.png

选择推理的模型

由于我们在Jupyter Notebook演示中提供了一组由OpenVINO 支持的LLM,您可以从下拉框中选择 “Gemma-2B-it” 来运行该模型的其余优化和推理加速步骤。当然,很容易切换到 “Gemma-7B-it” 和其他列出的型号。

6e300758-e2c5-11ee-a297-92fbcf53809c.png

使用Optimum Intel实例化模型

Optimum Intel是Hugging Face Transformers和Diffuser库与OpenVINO 之间的接口,用于加速Intel体系结构上的端到端流水线。接下来,我们将使用Optimum Intel从Hugging Face Hub加载优化模型,并创建流水线,使用Hugging Face API以及OpenVINO Runtime运行推理。在这种情况下,这意味着我们只需要将AutoModelForXxx类替换为相应的OVModelForXxx类。

6e503d2a-e2c5-11ee-a297-92fbcf53809c.png

权重压缩

尽管像Gemma-2B这样的LLM在理解和生成类人文本方面变得越来越强大和复杂,但管理和部署这些模型在计算资源、内存占用、推理速度等方面带来了关键挑战,尤其是对于这种不足千元级的AI开发板等客户端设备。权重压缩算法旨在压缩模型的权重,可用于优化模型体积和性能。

我们的Jupyter笔记本电脑使用Optimum Intel和NNCF提供INT8和INT4压缩功能。与INT8压缩相比,INT4压缩进一步提高了性能,但预测质量略有下降。因此,我们将在此处选择INT4压缩。

6e6c02f8-e2c5-11ee-a297-92fbcf53809c.png

我们还可以比较模型权重压缩前后的模型体积变化情况。

6e7f55b0-e2c5-11ee-a297-92fbcf53809c.png

选择推理设备和模型变体

由于OpenVINO 能够在一系列硬件设备上轻松部署,因此还提供了一个下拉框供您选择将在其上运行推理的设备。考虑到内存使用情况,我们将选择CPU作为推理设备。

6e9496a0-e2c5-11ee-a297-92fbcf53809c.png

运行聊天机器人

现在万事具备,在这个Notebook代码示例中我们还提供了一个基于Gradio的用户友好的界面。现在就让我们把聊天机器人运行起来吧。

小结

整个的步骤就是这样!现在就开始跟着我们提供的代码和步骤,动手试试用OpenVINO 在哪吒开发板上运行基于大语言模型的聊天机器人吧。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20333

    浏览量

    255031
  • 机器人
    +关注

    关注

    213

    文章

    31455

    浏览量

    223678
  • 物联网
    +关注

    关注

    2950

    文章

    48131

    浏览量

    418529
  • GPIO
    +关注

    关注

    16

    文章

    1333

    浏览量

    56459
  • OpenVINO
    +关注

    关注

    0

    文章

    118

    浏览量

    818

原文标题:千元开发板,百万可能:OpenVINO™ 助力谷歌大语言模型Gemma实现高速智能推理 | 开发者实战

文章出处:【微信号:英特尔物联网,微信公众号:英特尔物联网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Google正式推出最新开放模型Gemma 4

    今天,我们正式推出 Gemma 4 —— 这是我们迄今为止最智能的开放模型Gemma 4 专为高级推理
    的头像 发表于 04-08 10:06 520次阅读
    Google正式推出最新开放<b class='flag-5'>模型</b><b class='flag-5'>Gemma</b> 4

    谷歌推出TranslateGemma全新开放翻译模型系列

    我们已正式推出 TranslateGemma,这一全新的开放翻译模型系列基于 Gemma 3 构建,并提供 4B、12B 和 27B 三种参数规模。TranslateGemma 的问世标志着开放翻译领域迈出了重要一步,它可帮助人们跨越 55 种
    的头像 发表于 02-26 10:22 736次阅读

    解锁谷歌FunctionGemma模型的无限潜力

    智能体 AI 领域,工具调用能力是将自然语言转化为可执行软件操作的关键。此前,我们发布了专门针对函数调用而特别优化的 Gemma 3 270M 模型版本 FunctionGemma。
    的头像 发表于 02-04 11:30 441次阅读
    解锁<b class='flag-5'>谷歌</b>FunctionGemma<b class='flag-5'>模型</b>的无限潜力

    晶晨携手谷歌助力端侧大模型Gemini的硬件落地

    AI)相关产品的核心芯片供应商,双方在人工智能领域紧密协作,聚焦于谷歌端侧大模型Gemini的硬件生态落地。   公司积极推出适配Gemini的智能音箱、
    的头像 发表于 01-29 10:44 2401次阅读

    谷歌正式发布Gemma Scope 2模型

    语言模型 (LLM) 具备令人惊叹的推理能力,但其内部决策过程在很大程度上仍然不透明。如果系统未按预期运行,对其内部运作机制缺乏可见性将难以准确定位问题根源。过去,我们通过发布 Gemma
    的头像 发表于 01-24 14:01 739次阅读

    LLM推理模型是如何推理的?

    这篇文章《(How)DoReasoningModelsReason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越了表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键
    的头像 发表于 01-19 15:33 707次阅读
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    谷歌推出AI模型Gemma 3 270M

    过去几个月,Gemma 开放模型系列的发展是激动人心的。我们推出了 Gemma 3 和 Gemma 3 QAT,为单一云端和桌面加速器带来了最先进的性能。
    的头像 发表于 09-11 15:09 1311次阅读

    谷歌Gemma 3n模型的新功能

    从第一个 Gemma 模型于去年年初推出以来,已逐渐发展为生机勃勃的 Gemmaverse 生态系统,累计下载量突破 1.6 亿。这个生态系统包括十余款专业模型系列,涵盖从安全防护到医疗应用的各领
    的头像 发表于 07-25 10:16 1646次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemma</b> 3n<b class='flag-5'>模型</b>的新功能

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然
    发表于 07-16 15:29

    无法在NPU上推理OpenVINO™优化的 TinyLlama 模型怎么解决?

    在 NPU 上推断 OpenVINO™优化的 TinyLlama 模型。 遇到的错误: get_shape was called on a descriptor::Tensor with dynamic shape
    发表于 07-11 06:58

    模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这一问题,本文将探讨大
    发表于 07-03 19:43

    谷歌Gemma 3n预览版全新发布

    Gemma 3 和 Gemma 3 QAT 的成功发布之后,我们的先进开放模型系列具备了在单一云端或桌面加速器上运行的能力,我们正在进一步推进我们对可访问 AI 的愿景。Gemma
    的头像 发表于 06-26 17:18 1099次阅读

    无法将Tensorflow Lite模型转换为OpenVINO™格式怎么处理?

    将 Tensorflow Lite 模型转换为 OpenVINO™ 格式。 遇到的错误: FrontEnd API failed with OpConversionFailure:No translator found for TFLite_Detection_PostP
    发表于 06-25 08:27

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    安装了 OpenVINO™ GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    发表于 06-25 07:20

    为什么无法在GPU上使用INT8 和 INT4量化模型获得输出?

    安装OpenVINO™ 2024.0 版本。 使用 optimum-intel 程序包将 whisper-large-v3 模型转换为 int 4 和 int8,并在 GPU 上使用 OpenVINO™ 运行
    发表于 06-23 07:11