0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌全新推出开放式视觉语言模型PaliGemma

谷歌开发者 来源:谷歌开发者 2024-10-15 17:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者 / 产品管理总监 Tris Warkentin;高级研究员翟晓华;产品经理 Ludovic Peran

在 Google,我们相信合作和开放研究能够推动创新。我们非常感谢社区对 Gemma 的支持,使其自发布短短几个月以来就获得了数百万的下载量。

这种热烈的反响非常鼓舞人心,开发者们打造了一系列多样的项目,例如用于印度语言的多语言变体 Navarasa,以及设备端侧动作模型 Octopus v2。开发者们展示了 Gemma 在打造极具影响力且易于使用的 AI 解决方案方面的巨大潜力。

这种探索和创造精神也促使我们开发了 CodeGemma (具有强大的代码补全和生成能力) 和 RecurrentGemma (在高效推理和研究领域极具潜力)。

Gemma 是先进的轻量级开放模型系列,采用了与创建 Gemini 模型相同的研究和技术。今天,我们非常高兴地推出强大的开放式视觉语言模型 (VLM) PaliGemma,进一步扩展 Gemma 系列。同时我们将介绍 Gemma 2 的相关信息,让您抢先了解即将推出的全新功能。此外,我们通过更新 Responsible Generative AI 工具包,为开发者提供用于评估模型安全性和过滤有害内容的全新和增强型工具,进一步落实在负责任 AI 方面的承诺。

PaliGemma: 全新推出的

开放式视觉语言模型

PaliGemma 是一个强大的开放式 VLM,其灵感源自 PaLI-3。PaliGemma 基于开放式组件 (包括 SigLIP 视觉模型和 Gemma 语言模型) 构建,可在广泛的视觉语言任务中实现卓越的微调性能。这包括为图片和短视频描述生成、视觉问答、理解图像中的文本、对象检测和对象分割。

我们将提供支持多种分辨率且经过预训练和微调检查点,以及专门针对多种任务进行微调的检查点,供您立即探索。

为了促进开放式探索和研究,PaliGemma 可通过多种平台和资源使用。欢迎您立即通过 Kaggle 和 Colab 笔记本等免费方式开始探索!在视觉语言研究领域寻求突破的学术研究人员还可以申请 Google Cloud 积分,更好地开展工作。

立即开始使用 PaliGemma。您可以在 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和 ai.nvidia.com (通过 TensoRT-LLM 加速) 中找到 PaliGemma,并可通过 JAX 和 Hugging Face Transformers 轻松集成该模型。Keras 集成方式即将推出,您还可以通过此 Hugging Face Space 与该模型交互。

Gemma 2 推出:

性能和效率再上新台阶

我们非常高兴地宣布,新一代 Gemma 模型 Gemma 2 即将发布。Gemma 2 将提供新的模型大小,以满足广泛的 AI 开发者用例的需求;此外,它还将采用全新架构来实现突破性的性能和效率,带来以下优势:

卓越性能: Gemma 2 具有 270 亿个参数,其性能可与 Llama 3 70B 相媲美,但大小却不到 Llama 3 70B 的一半。这种突破性的效率为开放模型领域树立了新的标杆。

更低部署成本: Gemma 2 采用高效设计,最低所需的计算资源不到同级别模型的一半。27B 模型经过专门优化,可在 NVIDIA 的 GPU 上运行,也可在 Vertex AI 中的单个 TPU 主机上高效运行,让更多的用户能够更方便、更经济高效地部署该模型。

多元化调优工具链: Gemma 2 提供多元化的平台和工具生态系统,让开发者可从中选用稳健的调优功能。从 Google Cloud 等云端解决方案到 Axolotl 等热门社区工具,丰富多样的选择让微调 Gemma 2 变得更加简单。此外,Gemma 2 与 Hugging Face、NVIDIA TensorRT-LLM 等众多合作伙伴实现了无缝整合,同时还集成了 Google JAX 和 Keras,让您可以优化性能,并在各种硬件配置中实现高效部署。

扩展 Responsible Generative AI 工具包

为了迎接该模型的发布,我们将开源发布 LLM Comparator 来扩展 Responsible Generative AI 工具包,以便开发者进行更稳健的模型评估。LLM Comparator 是一种新的交互式视觉工具,能够进行有效的并排评估,以评估模型响应的质量和安全性。您可以查看 LLM Comparator 的实际应用演示,了解 Gemma 1.1 和 Gemma 1.0 的对比情况。

我们希望 LLM Comparator 可以进一步推进该工具包的使命,助力开发者打造兼具创新性和安全性且负责任的 AI 应用。

我们将不断扩展 Gemma 开放模型系列,并一如既往地营造协作环境,让前沿 AI 技术与负责任的开发齐头并进。我们对您将利用这些新工具打造的应用充满期待,与您共赴 AI 美好未来!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1814

    浏览量

    60628
  • AI
    AI
    +关注

    关注

    91

    文章

    41091

    浏览量

    302576
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11341

原文标题:全新推出 PaliGemma、Gemma 2 和升级扩展 Responsible AI 工具包

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    杰理科技联合SANAG塞那打造全新ANC Clip耳夹音频产品

    杰理科技联合SANAG塞那打造全新ANC Clip耳夹音频产品,依托JL7096D强劲性能突破开放式耳机体验瓶颈,为职场、通勤、跨境与学习场景带来一站智能音频解决方案,重新定义高端
    的头像 发表于 04-10 16:21 342次阅读

    深入剖析MDS-100BPS18 BA医疗AC - DC开放式框架电源

    深入剖析MDS-100BPS18 BA医疗AC - DC开放式框架电源 在医疗电子设备的设计中,电源的稳定性和安全性至关重要。今天我们要详细探讨的是MDS-100BPS18 BA这款医疗AC
    的头像 发表于 03-27 18:05 969次阅读

    NVIDIA 扩展开放模型系列,推动代理式、物理和医疗 AI 下一阶段发展

    NVIDIA BioNeMo 平台的一部分,Proteina-Complexa 模型可加速蛋白质药物研发——同时推出全新开放数据集,包含数百万条由 AI 预测的蛋白质复合物结构数据,该数据集由 NVIDIA、
    的头像 发表于 03-17 09:18 505次阅读
    NVIDIA 扩展<b class='flag-5'>开放</b><b class='flag-5'>模型</b>系列,推动代理式、物理和医疗 AI 下一阶段发展

    韶音携开放式滤噪新物种OpenFit Pro,重磅亮相AWE2026

    2026年3月12日至15日,中国家电及消费电子博览会(AWE 2026)在上海新国际博览中心举办,全球领先的开放式耳机品牌Shokz韶音以“重塑开放之声”为主题,携开放式滤噪新物种OpenFit
    的头像 发表于 03-13 10:06 391次阅读
    韶音携<b class='flag-5'>开放式</b>滤噪新物种OpenFit Pro,重磅亮相AWE2026

    谷歌推出TranslateGemma全新开放翻译模型系列

    我们已正式推出 TranslateGemma,这一全新开放翻译模型系列基于 Gemma 3 构建,并提供 4B、12B 和 27B 三种参数规模。TranslateGemma 的问世
    的头像 发表于 02-26 10:22 727次阅读

    从TWS红海突围:开放式耳机市场进入AI重构时代

    近年来,全球可穿戴音频设备正经历一场结构性变革。随着用户对健康、舒适与场景融合体验需求的提升,传统TWS逐渐遭遇同质化,开放式耳机凭借“不堵耳、保环境感知、全天候佩戴无负担”等优势,迅速崛起为行业
    的头像 发表于 02-12 09:18 6544次阅读
    从TWS红海突围:<b class='flag-5'>开放式</b>耳机市场进入AI重构时代

    韶音CES 2026新品发布:OpenFit Pro推出开放式滤噪新方案

    2026年1月6日,全球消费电子盛会CES在美国拉斯维加斯开幕,全球领先的开放式耳机品牌Shokz韶音以“重塑开放之声”为主题,于展会首日举办新品发布会,正式推出旗下首款搭载开放式滤噪
    的头像 发表于 01-12 16:17 569次阅读
    韶音CES 2026新品发布:OpenFit Pro<b class='flag-5'>推出</b><b class='flag-5'>开放式</b>滤噪新方案

    NVIDIA在CES 2026发布全新开放模型、数据和工具

    为扩展开放模型生态,NVIDIA 发布全新开放模型、数据和工具,推动各行业 AI 技术的发展。
    的头像 发表于 01-09 10:42 729次阅读

    NVIDIA 推出 Nemotron 3 系列开放模型

    token 数。 ● Nemotron 通过先进的强化学习技术以及大规模并行多环境后训练,实现了卓越的准确率。 ● NVIDIA 率先推出整套前沿的开放模型、训练数据集及强化学习环境与
    的头像 发表于 12-16 09:27 811次阅读
    NVIDIA <b class='flag-5'>推出</b> Nemotron 3 系列<b class='flag-5'>开放</b><b class='flag-5'>模型</b>

    芯原与谷歌联合推出开源Coral NPU IP

    芯原股份近日宣布与谷歌联合推出面向始终在线、超低能耗端侧大语言模型应用的Coral NPU IP。
    的头像 发表于 11-13 11:24 1259次阅读
    芯原与<b class='flag-5'>谷歌</b>联合<b class='flag-5'>推出</b>开源Coral NPU IP

    开放式超声波传感器:开启智能感知新纪元

    在万物互联的智能时代,传统封闭传感器已难以满足复杂场景的精准感知需求。而开放式超声波传感器凭借其独特的结构设计与技术优势,正成为工业自动化、智能家居、自动驾驶等领域的“感知神经”,重新定义着人
    的头像 发表于 10-20 08:40 668次阅读
    <b class='flag-5'>开放式</b>超声波传感器:开启智能感知新纪元

    华为开放式耳机FreeArc搭载芯导科技P14C5N芯片

    近期,华为再次推出了一款耳挂设计的开放式耳机——HUAWEI FreeArc,采用140° 三角稳固设计、大面积超柔软液态硅胶材质包裹,搭配IP57级防尘抗水性能,不仅满足日常使用需求,还更加适合
    的头像 发表于 08-15 16:43 1933次阅读
    华为<b class='flag-5'>开放式</b>耳机FreeArc搭载芯导科技P14C5N芯片

    亚马逊云科技现已上线OpenAI开放权重模型

    开放权重模型,向数百万亚马逊云科技客户开放。 客户可利用这些全新开放权重模型的先进推理能力,支持Agentic工作流、代码生成、科学分析和数
    的头像 发表于 08-06 19:29 952次阅读

    DC监测技术、3+1麦开放式降噪,荣耀可穿戴新品重构AI边界

    电子发烧友网综合报道 当前,可穿戴设备行业的产品不断迭代,特别是智能手表和耳机等消费类可穿戴设备。就在7月2日,荣耀在荣耀Magic V5暨AI终端生态发布会上,正式发布了新一代开放式耳机——荣耀
    的头像 发表于 07-06 10:52 3112次阅读
    DC监测技术、3+1麦<b class='flag-5'>开放式</b>降噪,荣耀可穿戴新品重构AI边界

    Wi-Fi音频传输+百倍AI性能飞跃!开放式耳机上新高度

    电子发烧友网报道(文/莫婷婷)继小米发布小米Buds 5 Pro入耳耳机首发支持Wi-Fi技术之后,在近期Cleer也发布了旗下首款Wi-Fi耳机——新一代Cleer ARC 5 音弧开放式AI
    的头像 发表于 04-28 00:14 4129次阅读
    Wi-Fi音频传输+百倍AI性能飞跃!<b class='flag-5'>开放式</b>耳机上新高度