0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌全新推出开放式视觉语言模型PaliGemma

谷歌开发者 来源:谷歌开发者 2024-10-15 17:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者 / 产品管理总监 Tris Warkentin;高级研究员翟晓华;产品经理 Ludovic Peran

在 Google,我们相信合作和开放研究能够推动创新。我们非常感谢社区对 Gemma 的支持,使其自发布短短几个月以来就获得了数百万的下载量。

这种热烈的反响非常鼓舞人心,开发者们打造了一系列多样的项目,例如用于印度语言的多语言变体 Navarasa,以及设备端侧动作模型 Octopus v2。开发者们展示了 Gemma 在打造极具影响力且易于使用的 AI 解决方案方面的巨大潜力。

这种探索和创造精神也促使我们开发了 CodeGemma (具有强大的代码补全和生成能力) 和 RecurrentGemma (在高效推理和研究领域极具潜力)。

Gemma 是先进的轻量级开放模型系列,采用了与创建 Gemini 模型相同的研究和技术。今天,我们非常高兴地推出强大的开放式视觉语言模型 (VLM) PaliGemma,进一步扩展 Gemma 系列。同时我们将介绍 Gemma 2 的相关信息,让您抢先了解即将推出的全新功能。此外,我们通过更新 Responsible Generative AI 工具包,为开发者提供用于评估模型安全性和过滤有害内容的全新和增强型工具,进一步落实在负责任 AI 方面的承诺。

PaliGemma: 全新推出的

开放式视觉语言模型

PaliGemma 是一个强大的开放式 VLM,其灵感源自 PaLI-3。PaliGemma 基于开放式组件 (包括 SigLIP 视觉模型和 Gemma 语言模型) 构建,可在广泛的视觉语言任务中实现卓越的微调性能。这包括为图片和短视频描述生成、视觉问答、理解图像中的文本、对象检测和对象分割。

我们将提供支持多种分辨率且经过预训练和微调检查点,以及专门针对多种任务进行微调的检查点,供您立即探索。

为了促进开放式探索和研究,PaliGemma 可通过多种平台和资源使用。欢迎您立即通过 Kaggle 和 Colab 笔记本等免费方式开始探索!在视觉语言研究领域寻求突破的学术研究人员还可以申请 Google Cloud 积分,更好地开展工作。

立即开始使用 PaliGemma。您可以在 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和 ai.nvidia.com (通过 TensoRT-LLM 加速) 中找到 PaliGemma,并可通过 JAX 和 Hugging Face Transformers 轻松集成该模型。Keras 集成方式即将推出,您还可以通过此 Hugging Face Space 与该模型交互。

Gemma 2 推出:

性能和效率再上新台阶

我们非常高兴地宣布,新一代 Gemma 模型 Gemma 2 即将发布。Gemma 2 将提供新的模型大小,以满足广泛的 AI 开发者用例的需求;此外,它还将采用全新架构来实现突破性的性能和效率,带来以下优势:

卓越性能: Gemma 2 具有 270 亿个参数,其性能可与 Llama 3 70B 相媲美,但大小却不到 Llama 3 70B 的一半。这种突破性的效率为开放模型领域树立了新的标杆。

更低部署成本: Gemma 2 采用高效设计,最低所需的计算资源不到同级别模型的一半。27B 模型经过专门优化,可在 NVIDIA 的 GPU 上运行,也可在 Vertex AI 中的单个 TPU 主机上高效运行,让更多的用户能够更方便、更经济高效地部署该模型。

多元化调优工具链: Gemma 2 提供多元化的平台和工具生态系统,让开发者可从中选用稳健的调优功能。从 Google Cloud 等云端解决方案到 Axolotl 等热门社区工具,丰富多样的选择让微调 Gemma 2 变得更加简单。此外,Gemma 2 与 Hugging Face、NVIDIA TensorRT-LLM 等众多合作伙伴实现了无缝整合,同时还集成了 Google JAX 和 Keras,让您可以优化性能,并在各种硬件配置中实现高效部署。

扩展 Responsible Generative AI 工具包

为了迎接该模型的发布,我们将开源发布 LLM Comparator 来扩展 Responsible Generative AI 工具包,以便开发者进行更稳健的模型评估。LLM Comparator 是一种新的交互式视觉工具,能够进行有效的并排评估,以评估模型响应的质量和安全性。您可以查看 LLM Comparator 的实际应用演示,了解 Gemma 1.1 和 Gemma 1.0 的对比情况。

我们希望 LLM Comparator 可以进一步推进该工具包的使命,助力开发者打造兼具创新性和安全性且负责任的 AI 应用。

我们将不断扩展 Gemma 开放模型系列,并一如既往地营造协作环境,让前沿 AI 技术与负责任的开发齐头并进。我们对您将利用这些新工具打造的应用充满期待,与您共赴 AI 美好未来!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1801

    浏览量

    60263
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296504
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11253

原文标题:全新推出 PaliGemma、Gemma 2 和升级扩展 Responsible AI 工具包

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    芯原与谷歌联合推出开源Coral NPU IP

    芯原股份近日宣布与谷歌联合推出面向始终在线、超低能耗端侧大语言模型应用的Coral NPU IP。
    的头像 发表于 11-13 11:24 281次阅读
    芯原与<b class='flag-5'>谷歌</b>联合<b class='flag-5'>推出</b>开源Coral NPU IP

    亚马逊云科技现已上线OpenAI开放权重模型

    开放权重模型,向数百万亚马逊云科技客户开放。 客户可利用这些全新开放权重模型的先进推理能力,支持Agentic工作流、代码生成、科学分析和数
    的头像 发表于 08-06 19:29 673次阅读

    英伟达GTC2025亮点 NVIDIA推出Cosmos世界基础模型和物理AI数据工具的重大更新

    、Figure AI、Skild AI 是最早采用该技术的公司。 NVIDIA 宣布推出全新 NVIDIA Cosmos 世界基础模型 (WFM) 的重大更新,该模型引入了
    的头像 发表于 03-20 19:01 1175次阅读

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能
    的头像 发表于 03-17 15:32 7571次阅读
    ​VLM(<b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    海康威视推出视觉模型系列摄像机

    依托海康观澜大模型技术体系,海康威视将大模型能力直接部署至端侧,推出一系列视觉模型摄像机。
    的头像 发表于 03-05 14:06 1254次阅读

    TO系列开放式传感器产品参考说明书

    开放式传感器利用时间飞行法的原理,当交流的电信号输入到传感器上时,传感器将发出超声波信号,超声波信号在空气中传播,遇到障碍物时信号被发射回来,并被传感器接收,利用中间的时间差可以计算得出距离障碍物的距离,或在范围区域内是否存在障碍物。开放式传感器常用于ROA系统、定向音响
    发表于 02-27 13:47 0次下载

    Ironwood开放式顶部BGA插座凸轮驱动杆

    Ironwood开放式顶部BGA插座凸轮驱动杆 Ironwood的BGA芯片寿命通常可通过浴槽曲线来典型地展示。鉴于BGA制造工艺的固有属性,极少数BGA在初期使用阶段就可能失效,而在其正常使用期
    发表于 02-17 09:36

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3239次阅读
    一文详解<b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    Hugging Face推出最小AI视觉语言模型

    ,SmolVLM-256M-Instruct仅有2.56亿参数,是有史以来发布的最小视觉语言模型,可在内存低于1GB的PC上运行并提供卓越性能。SmolVLM-500M-Instruct有5亿参数,主要针对硬件资源
    的头像 发表于 01-24 14:15 1431次阅读

    VCE05系列封装和开放式框架宽输入AC-DC电源XP POWER

    VCE05系列封装和开放式框架宽输入AC-DC电源XP POWERVCE05是XP POWER一系列开放式框架和封装AC-DC单输出电源,专门针对低成本ITE和工业应用需求设计。VCE05系列
    发表于 01-24 08:41

    Traco Power推出全新TXO系列开放式框架AC/DC电源

    在工业领域,电源设备的稳定性和可靠性至关重要。Traco Power全新推出的TXO系列开放式框架AC/DC电源,以高效率、强化隔离和多功能性,为成本敏感型工业应用提供了理想的解决方案。
    的头像 发表于 01-15 16:12 1834次阅读
    Traco Power<b class='flag-5'>推出</b><b class='flag-5'>全新</b>TXO系列<b class='flag-5'>开放式</b>框架AC/DC电源

    NVIDIA推出开放式Llama Nemotron系列模型

    作为 NVIDIA NIM 微服务,开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言
    的头像 发表于 01-09 11:11 1186次阅读

    NVIDIA Jetson Orin Nano开发者套件的新功能

    生成 AI 领域正在迅速发展,每天都有新的大语言模型(LLM)、视觉语言模型(VLM)和
    的头像 发表于 12-23 12:54 1965次阅读
    NVIDIA Jetson Orin Nano开发者套件的新功能

    劢微机器人荣登2024年全球开放式创新百强榜单POC 50

    由璞跃中国(Plug and Play China)与清华大学技术创新研究中心共同策划的2024年全球开放式创新百强榜单,在开放式创新领域,劢微机器人成功入选了备受瞩目的2024年全球开放式创新百强
    的头像 发表于 12-13 17:39 1463次阅读
    劢微机器人荣登2024年全球<b class='flag-5'>开放式</b>创新百强榜单POC 50

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    日前,加州大学的研究人员携手英伟达,共同推出了一款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现出了独特的应用潜力,为智能机
    的头像 发表于 12-13 10:51 956次阅读