谷歌正式推出Gemma 4 12B多模态模型-电子发烧友网

作者 / 产品管理总监 Olivier Lacombe 与 Google DeepMind 产品经理 Gus Martins

我们正式推出最新款模型 -Gemma 4 12B，旨在将智能体多模态智能 (agentic multimodal intelligence) 直接引入笔记本电脑。Gemma 4 12B 填补了适用于边缘设备的 E4B 模型与更先进的 26B 混合专家模型 (MoE) 之间的空白，在缩减内存占用的同时，集成了强大的功能。它也是我们首款原生支持音频输入的端侧中型模型。

得益于开发者社区的支持，Gemma 4系列模型的下载量现已突破 1.5 亿次。从用于身体辅助的可穿戴机械臂，到企业级的 AI 安全方案，开发者们利用 Gemma 构建了丰富多彩的应用。我们非常期待看到大家用这款最新加入的模型构建新的精彩作品。

Gemma 4 12B 的独特亮点一览:

全新的统一架构: 无需多模态编码器。视觉和音频输入可以直接汇入大语言模型 (LLM) 主干网络。

卓越的推理能力: 在基准测试中的表现接近我们的 26B 模型，解锁了强大的多步骤推理和智能体工作流。

适配笔记本电脑: 模型体量足够轻量，仅需 16GB 的显存 (VRAM) 或统一内存 (Unified Memory) 即可在本地运行。

开放且易于获取: 采用 Apache 2.0 许可协议发布，并在整个开发者生态系统中获得广泛支持。

支持草稿模型: Gemma 4 12B 配备了多 Token 预测 (MTP) 草稿模型，能够显著降低推理延迟。

这些特性协同作用，在不牺牲运行速度或推理能力的前提下，将先进的多模态能力带到了日常硬件上。接下来，让我们深入了解 Gemma 4 12B 是如何实现这一目标的。

在本地运行最先进的智能体

在标准基准测试中，Gemma 4 12B 的性能非常接近我们体量更大的 26B MoE 模型，而其所需的总内存占用不到后者的一半。它足够轻量，可以在配备 16GB 内存的消费级笔记本电脑上本地运行，在您的设备上直接解锁强大的多模态和智能体体验。

体验独特高效的统一架构

Gemma 4 12B 之所以能脱颖而出，在于其处理视觉和音频输入时的极简化设计。传统的多模态模型通常依赖于独立的编码器来转换图像和音频，然后再将这些表征 (representations) 传递给语言模型。由于这些分离的编码器会增加延迟并提高内存占用，我们采用了一种免编码器 (encoder-free) 架构来训练 Gemma 4 12B，从而直接整合音频和视觉输入。

以下是 Gemma 4 12B 原生处理多模态输入的方式:

视觉: 我们用一个轻量级的嵌入模块取代了 Gemma 4 的视觉编码器。该模块仅由单个矩阵乘法、位置嵌入和归一化 (normalizations) 组成。这使得大语言模型主干网络能够直接接管视觉处理。

音频: 我们对音频处理的简化则更为彻底，通过完全移除音频编码器，直接将原始音频信号投影到与文本 Token 相同的维度空间中。

直观感受原生音频处理实际表现: 观看 Gemma 4 12B 如何利用 Google AI Edge Eloquent 应用，在完全离线的状态下对语音输入进行转录、格式化和翻译。

立即开启体验

亲自上手尝试: 只需点击几下，即可在LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquentapp 和LiteRT-LMCLI中轻松开始实验。

下载模型权重: 直接从Hugging Face和Kaggle下载预训练和指令微调 (instruction-tuned) 后的检查点 (checkpoint)。

集成与学习: 查阅开发者文档和快速入门 Notebook。

使用您喜爱的开发工具: 使用Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM构建本地推理流水线，或使用Unsloth进行高效微调。

利用 Gemma Skills 解锁智能体开发: 为了支持智能体结合最新的 Gemma 技术成果进行构建，我们发布了官方的Skills Repository。这是一个专门为赋能智能体使用 Gemma 模型而设计的 Skills 库。

灵活部署: 使用 Google Cloud 在生产环境中快速启动推理端点。您可以通过Gemini 企业级智能体平台的 Model Garden、Cloud Run和GKE (Google Kubernetes Engine)选择最适合您的方式进行灵活部署。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6276

浏览量
112377
模型

模型

+关注

关注
1

文章
3914

浏览量
52429
智能体

智能体

+关注

关注
1

文章
671

浏览量
11681

原文标题：正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型

文章出处：【微信号：Google_Developers，微信公众号：谷歌开发者】欢迎添加关注！文章转载请注明出处。

搜索历史

谷歌正式推出Gemma 4 12B多模态模型

评论