OpenVINO™助力谷歌大语言模型Gemma实现高速智能推理-电子发烧友网

大型语言模型（LLM）正在迅速发展，变得更加强大和高效，使人们能够在广泛的应用程序中越来越复杂地理解和生成类人文本。谷歌的Gemma是一个轻量级、先进的开源模型新家族，站在LLM创新的前沿。然而，对更高推理速度和更智能推理能力的追求并不仅仅局限于复杂模型的开发，它扩展到模型优化和部署技术领域。

OpenVINO 工具套件因此成为一股引人注目的力量，在这些领域发挥着越来越重要的作用。这篇博客文章深入探讨了优化谷歌的Gemma模型，并在不足千元的AI开发板上进行模型部署、使用OpenVINO 加速推理，将其转化为能够更快、更智能推理的AI引擎。

此文使用了研扬科技针对边缘AI行业开发者推出的哪吒（Nezha）开发套件，以信用卡大小（85x56mm）的开发板-哪吒（Nezha）为核心，哪吒采用Intel N97处理器（Alder Lake-N），最大睿频3.6GHz，Intel UHD Graphics内核GPU，可实现高分辨率显示；板载LPDDR5内存、eMMC存储及TPM 2.0，配备GPIO接口，支持Windows和Linux 操作系统，这些功能和无风扇散热方式相结合，为各种应用程序构建高效的解决方案，适用于如自动化、物联网网关、数字标牌和机器人等应用。

什么是Gemma？

Gemma是谷歌的一个轻量级、先进的开源模型家族，采用了与创建Gemini模型相同的研究和技术。它们以拉丁语单词 “Gemma” 命名，意思是“宝石”，是文本到文本的、仅解码器架构的LLM，有英文版本，具有开放权重、预训练变体和指令调整变体。Gemma模型非常适合各种文本生成任务，包括问答、摘要和推理。

Gemma模型系列，包括Gemma-2B和Gemma-7B模型，代表了深度学习模型可扩展性和性能的分层方法。在本次博客中，我们将展示OpenVINO 如何优化和加速Gemma-2B-it模型的推理，即Gemma-2B参数模型的指令微调后的版本。

利用OpenVINO 优化和加速推理

优化、推理加速和部署的过程包括以下具体步骤，使用的是我们常用的OpenVINO Notebooks GitHub仓库 中的254-llm-chatbot代码示例。

由安装必要的依赖包开始

运行OpenVINO Notebooks仓库的具体安装指南在这里。运行这个254-llm-chatbot的代码示例，需要安装以下必要的依赖包。

选择推理的模型

由于我们在Jupyter Notebook演示中提供了一组由OpenVINO 支持的LLM，您可以从下拉框中选择 “Gemma-2B-it” 来运行该模型的其余优化和推理加速步骤。当然，很容易切换到 “Gemma-7B-it” 和其他列出的型号。

使用Optimum Intel实例化模型

Optimum Intel是Hugging Face Transformers和Diffuser库与OpenVINO 之间的接口，用于加速Intel体系结构上的端到端流水线。接下来，我们将使用Optimum Intel从Hugging Face Hub加载优化模型，并创建流水线，使用Hugging Face API以及OpenVINO Runtime运行推理。在这种情况下，这意味着我们只需要将AutoModelForXxx类替换为相应的OVModelForXxx类。