0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌正式推出Gemma 4 12B多模态模型

谷歌开发者 来源:谷歌开发者 2026-06-10 12:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者 / 产品管理总监 Olivier Lacombe 与 Google DeepMind 产品经理 Gus Martins

我们正式推出最新款模型 -Gemma 4 12B,旨在将智能体多模态智能 (agentic multimodal intelligence) 直接引入笔记本电脑。Gemma 4 12B 填补了适用于边缘设备的 E4B 模型与更先进的 26B 混合专家模型 (MoE) 之间的空白,在缩减内存占用的同时,集成了强大的功能。它也是我们首款原生支持音频输入的端侧中型模型。

得益于开发者社区的支持,Gemma 4系列模型的下载量现已突破 1.5 亿次。从用于身体辅助的可穿戴机械臂,到企业级的 AI 安全方案,开发者们利用 Gemma 构建了丰富多彩的应用。我们非常期待看到大家用这款最新加入的模型构建新的精彩作品。

Gemma 4 12B 的独特亮点一览:

全新的统一架构: 无需多模态编码器。视觉和音频输入可以直接汇入大语言模型 (LLM) 主干网络。

卓越的推理能力: 在基准测试中的表现接近我们的 26B 模型,解锁了强大的多步骤推理和智能体工作流。

适配笔记本电脑: 模型体量足够轻量,仅需 16GB 的显存 (VRAM) 或统一内存 (Unified Memory) 即可在本地运行。

开放且易于获取: 采用 Apache 2.0 许可协议发布,并在整个开发者生态系统中获得广泛支持。

支持草稿模型: Gemma 4 12B 配备了多 Token 预测 (MTP) 草稿模型,能够显著降低推理延迟。

这些特性协同作用,在不牺牲运行速度或推理能力的前提下,将先进的多模态能力带到了日常硬件上。接下来,让我们深入了解 Gemma 4 12B 是如何实现这一目标的。

在本地运行最先进的智能体

在标准基准测试中,Gemma 4 12B 的性能非常接近我们体量更大的 26B MoE 模型,而其所需的总内存占用不到后者的一半。它足够轻量,可以在配备 16GB 内存的消费级笔记本电脑上本地运行,在您的设备上直接解锁强大的多模态和智能体体验。

d7b0bc1a-6331-11f1-90a1-92fbcf53809c.png

体验独特高效的统一架构

Gemma 4 12B 之所以能脱颖而出,在于其处理视觉和音频输入时的极简化设计。传统的多模态模型通常依赖于独立的编码器来转换图像和音频,然后再将这些表征 (representations) 传递给语言模型。由于这些分离的编码器会增加延迟并提高内存占用,我们采用了一种免编码器 (encoder-free) 架构来训练 Gemma 4 12B,从而直接整合音频和视觉输入。

以下是 Gemma 4 12B 原生处理多模态输入的方式:

视觉: 我们用一个轻量级的嵌入模块取代了 Gemma 4 的视觉编码器。该模块仅由单个矩阵乘法、位置嵌入和归一化 (normalizations) 组成。这使得大语言模型主干网络能够直接接管视觉处理。

音频: 我们对音频处理的简化则更为彻底,通过完全移除音频编码器,直接将原始音频信号投影到与文本 Token 相同的维度空间中。

直观感受原生音频处理实际表现: 观看 Gemma 4 12B 如何利用 Google AI Edge Eloquent 应用,在完全离线的状态下对语音输入进行转录、格式化和翻译。

立即开启体验

亲自上手尝试: 只需点击几下,即可在LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquentapp 和LiteRT-LMCLI中轻松开始实验。

下载模型权重: 直接从Hugging Face和Kaggle下载预训练和指令微调 (instruction-tuned) 后的检查点 (checkpoint)。

集成与学习: 查阅开发者文档和快速入门 Notebook。

使用您喜爱的开发工具: 使用Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM构建本地推理流水线,或使用Unsloth进行高效微调。

利用 Gemma Skills 解锁智能体开发: 为了支持智能体结合最新的 Gemma 技术成果进行构建,我们发布了官方的Skills Repository。这是一个专门为赋能智能体使用 Gemma 模型而设计的 Skills 库。

灵活部署: 使用 Google Cloud 在生产环境中快速启动推理端点。您可以通过Gemini 企业级智能体平台的 Model Garden、Cloud Run和GKE (Google Kubernetes Engine)选择最适合您的方式进行灵活部署。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6276

    浏览量

    112377
  • 模型
    +关注

    关注

    1

    文章

    3914

    浏览量

    52429
  • 智能体
    +关注

    关注

    1

    文章

    671

    浏览量

    11681

原文标题:正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Google为Gemma 4系列发布MTP草稿模型

    上个月,我们推出Gemma 4 —— 我们迄今为止最强大的开放模型。在发布之初的短短几周内,Gemma
    的头像 发表于 05-20 14:43 466次阅读
    Google为<b class='flag-5'>Gemma</b> <b class='flag-5'>4</b>系列发布MTP草稿<b class='flag-5'>模型</b>

    模态模型 前沿算法与实战应用 第一季》精品课程简介

    优化 模态模型参数量大,需采用混合精度训练(FP16+FP32)和梯度累积技术减少显存占用。例如在训练视频理解模型时,可将batch size从16降至
    发表于 05-01 17:46

    海康威视推出森林防火模态智能研判大模型产品

    海康威视公共服务行业软件特推出森林防火模态智能研判大模型产品,依托海康威视观澜大模型能力,对不同等级的火情分类处理,减少90%的无效告警²
    的头像 发表于 04-14 15:26 1012次阅读

    Google正式推出最新开放模型Gemma 4

    今天,我们正式推出 Gemma 4 —— 这是我们迄今为止最智能的开放模型Gemma 4 专为
    的头像 发表于 04-08 10:06 812次阅读
    Google正式<b class='flag-5'>推出</b>最新开放<b class='flag-5'>模型</b><b class='flag-5'>Gemma</b> <b class='flag-5'>4</b>

    海光DCU完成Qwen3.5模态MoE模型全量适配

    近日,海光DCU完成Qwen3.5-397B MoE旗舰模态模型、Qwen3.5-35B-A3B MoE
    的头像 发表于 03-26 09:35 983次阅读

    谷歌推出TranslateGemma全新开放翻译模型系列

    我们已正式推出 TranslateGemma,这一全新的开放翻译模型系列基于 Gemma 3 构建,并提供 4B12B 和 27
    的头像 发表于 02-26 10:22 862次阅读

    商汤科技正式开源模态自主推理模型SenseNova-MARS

    今日,商汤正式开源模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在
    的头像 发表于 01-30 10:13 910次阅读
    商汤科技正式开源<b class='flag-5'>多</b><b class='flag-5'>模态</b>自主推理<b class='flag-5'>模型</b>SenseNova-MARS

    谷歌正式发布Gemma Scope 2模型

    大语言模型 (LLM) 具备令人惊叹的推理能力,但其内部决策过程在很大程度上仍然不透明。如果系统未按预期运行,对其内部运作机制缺乏可见性将难以准确定位问题根源。过去,我们通过发布 Gemma
    的头像 发表于 01-24 14:01 855次阅读

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova 模态
    的头像 发表于 12-08 11:19 1285次阅读
    商汤科技正式发布并开源全新<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>模型</b>架构NEO

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 464次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    谷歌推出AI模型Gemma 3 270M

    过去几个月,Gemma 开放模型系列的发展是激动人心的。我们推出Gemma 3 和 Gemma 3 QAT,为单一云端和桌面加速器带来了
    的头像 发表于 09-11 15:09 1449次阅读

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    案例:支持图像和文本交互 步骤 1:环境准备 步骤 2:模型的获取、验证与格式转换 步骤 3:修改代码并交叉编译可执行文件并上传到板子上 步骤 4:上传文件到开发板 性能测试 Tips
    发表于 08-29 18:08

    谷歌Gemma 3n模型的新功能

    从第一个 Gemma 模型于去年年初推出以来,已逐渐发展为生机勃勃的 Gemmaverse 生态系统,累计下载量突破 1.6 亿。这个生态系统包括十余款专业模型系列,涵盖从安全防护到医
    的头像 发表于 07-25 10:16 1848次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemma</b> 3n<b class='flag-5'>模型</b>的新功能

    谷歌Gemma 3n预览版全新发布

    Gemma 3 和 Gemma 3 QAT 的成功发布之后,我们的先进开放模型系列具备了在单一云端或桌面加速器上运行的能力,我们正在进一步推进我们对可访问 AI 的愿景。Gemma
    的头像 发表于 06-26 17:18 1202次阅读

    商汤日日新SenseNova融合模态模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI模态模型首轮评估。 商汤日日新SenseNova融合模态模型在所有
    的头像 发表于 06-11 11:57 1669次阅读