谷歌全新推出开放式视觉语言模型PaliGemma-电子发烧友网

作者 / 产品管理总监 Tris Warkentin;高级研究员翟晓华;产品经理 Ludovic Peran

在 Google，我们相信合作和开放研究能够推动创新。我们非常感谢社区对 Gemma 的支持，使其自发布短短几个月以来就获得了数百万的下载量。

这种热烈的反响非常鼓舞人心，开发者们打造了一系列多样的项目，例如用于印度语言的多语言变体 Navarasa，以及设备端侧动作模型 Octopus v2。开发者们展示了 Gemma 在打造极具影响力且易于使用的 AI 解决方案方面的巨大潜力。

这种探索和创造精神也促使我们开发了 CodeGemma (具有强大的代码补全和生成能力) 和 RecurrentGemma (在高效推理和研究领域极具潜力)。

Gemma 是先进的轻量级开放模型系列，采用了与创建 Gemini 模型相同的研究和技术。今天，我们非常高兴地推出强大的开放式视觉语言模型 (VLM) PaliGemma，进一步扩展 Gemma 系列。同时我们将介绍 Gemma 2 的相关信息，让您抢先了解即将推出的全新功能。此外，我们通过更新 Responsible Generative AI 工具包，为开发者提供用于评估模型安全性和过滤有害内容的全新和增强型工具，进一步落实在负责任 AI 方面的承诺。

PaliGemma: 全新推出的

开放式视觉语言模型

PaliGemma 是一个强大的开放式 VLM，其灵感源自 PaLI-3。PaliGemma 基于开放式组件 (包括 SigLIP 视觉模型和 Gemma 语言模型) 构建，可在广泛的视觉语言任务中实现卓越的微调性能。这包括为图片和短视频描述生成、视觉问答、理解图像中的文本、对象检测和对象分割。

我们将提供支持多种分辨率且经过预训练和微调检查点，以及专门针对多种任务进行微调的检查点，供您立即探索。

为了促进开放式探索和研究，PaliGemma 可通过多种平台和资源使用。欢迎您立即通过 Kaggle 和 Colab 笔记本等免费方式开始探索!在视觉语言研究领域寻求突破的学术研究人员还可以申请 Google Cloud 积分，更好地开展工作。

立即开始使用 PaliGemma。您可以在 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和 ai.nvidia.com (通过 TensoRT-LLM 加速) 中找到 PaliGemma，并可通过 JAX 和 Hugging Face Transformers 轻松集成该模型。Keras 集成方式即将推出，您还可以通过此 Hugging Face Space 与该模型交互。

Gemma 2 推出:

性能和效率再上新台阶

我们非常高兴地宣布，新一代 Gemma 模型 Gemma 2 即将发布。Gemma 2 将提供新的模型大小，以满足广泛的 AI 开发者用例的需求;此外，它还将采用全新架构来实现突破性的性能和效率，带来以下优势:

卓越性能: Gemma 2 具有 270 亿个参数，其性能可与 Llama 3 70B 相媲美，但大小却不到 Llama 3 70B 的一半。这种突破性的效率为开放模型领域树立了新的标杆。

更低部署成本: Gemma 2 采用高效设计，最低所需的计算资源不到同级别模型的一半。27B 模型经过专门优化，可在 NVIDIA 的 GPU 上运行，也可在 Vertex AI 中的单个 TPU 主机上高效运行，让更多的用户能够更方便、更经济高效地部署该模型。

多元化调优工具链: Gemma 2 提供多元化的平台和工具生态系统，让开发者可从中选用稳健的调优功能。从 Google Cloud 等云端解决方案到 Axolotl 等热门社区工具，丰富多样的选择让微调 Gemma 2 变得更加简单。此外，Gemma 2 与 Hugging Face、NVIDIA TensorRT-LLM 等众多合作伙伴实现了无缝整合，同时还集成了 Google JAX 和 Keras，让您可以优化性能，并在各种硬件配置中实现高效部署。

扩展 Responsible Generative AI 工具包

为了迎接该模型的发布，我们将开源发布 LLM Comparator 来扩展 Responsible Generative AI 工具包，以便开发者进行更稳健的模型评估。LLM Comparator 是一种新的交互式视觉工具，能够进行有效的并排评估，以评估模型响应的质量和安全性。您可以查看 LLM Comparator 的实际应用演示，了解 Gemma 1.1 和 Gemma 1.0 的对比情况。

我们希望 LLM Comparator 可以进一步推进该工具包的使命，助力开发者打造兼具创新性和安全性且负责任的 AI 应用。

我们将不断扩展 Gemma 开放模型系列，并一如既往地营造协作环境，让前沿 AI 技术与负责任的开发齐头并进。我们对您将利用这些新工具打造的应用充满期待，与您共赴 AI 美好未来!

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉