0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里国际基于Gemma开放模型探索多模态应用

谷歌开发者 来源:谷歌开发者 2025-06-11 10:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者 / 开发者品牌和声誉营销部 Francesca Di Felice

阿里巴巴集团是一家全球化的科技公司,其目标简单而明确:让天下没有难做的生意。自 1999 年以来,该集团创建了一系列工具和基础设施来支持中小企业。如今,阿里国际运营着全球规模最大的零售商业业务之一。

阿里巴巴为其连接全球买家和供应商的国际电子商务平台构建了一系列多模态大模型 (MLLM)。这个名为 Ovis 的模型系列能够感知和理解视觉信息,允许用户输入图像或视频请求并获得文本输出结果。其性能最佳的模型之一Ovis1.6-Gemma2-9B是基于 Gemma 构建的。

挑战

阿里巴巴的开发者希望为公司的国际电子商务平台创建一个有效的多模态大模型,但在寻找一个能够胜任多种任务且易于集成的基础模型时遇到了困难。在对现有开放模型进行初步实验时,团队发现这些模型在多模态推理和文本生成等关键领域存在多种性能差距。

经过全面测试,Gemma 2 的指令调优 9B 参数模型 (gemma-2-9b-it) 展现出最佳的综合性能,具备卓越的指令遵循能力和强大的文本生成能力。它在数学和编程等语言任务方面的优势使其成为多模态模型的理想基础。然而,无缝集成视觉和文本嵌入又增加了任务的复杂度。团队需要创新,以确保模型能够在基于图像的产品发布等关键业务应用中高效运行。

Gemma 在通用语言任务上表现尤为出色,特别是在数学和编程方面。我们利用 Gemma 的语言能力来提升我们在多模态任务上的表现。

解决方案

使用gemma-2-9b-it作为 Ovis 的基础语言模型,为构建多模态架构奠定了坚实的基础,弥补了视觉和文本输入之间的差距。Ovis 采用独特的方法:首先,它将连续的视觉特征转换为概率性的视觉令牌 (Token)。然后,通过加权索引,Ovis 将这些令牌组装成视觉嵌入。在此基础上,Gemma 的 Transformer 架构将这些嵌入与文本输入集成,确保多模态数据无缝流动。

Gemma 2 在数学和逻辑方面的优势显著提升了 Ovis 在推理和理解任务上的能力,使阿里巴巴团队能够将这一新模型部署到各种业务运营中。例如,阿里国际数字商业平台用户现在可以使用 Ovis 根据产品图像来识别产品类别和属性或添加标签。这大大减少了手动输入的需求,让用户能够更高效地创建商品详情。

Ovis 的功能还扩展到了其他使用场景,如检测文本与图像之间的一致性问题、评估图像质量以及生成结构化输出。这些功能彰显了 Ovis 的多功能性及其适应各种任务的能力。

影响

Ovis 显著改进了阿里国际数字商业平台上的产品生产工作流程,并在推理过程中展现出卓越的效率,为多模态 AI 设定了新的标准。自发布以来,Ovis 已在 GitHub、Hugging Face、Model Scope 和 OpenCompass 等平台上获得了广泛的认可和应用,甚至在 Hugging Face 首页获得推荐展示。

未来计划

阿里巴巴计划优化并扩展 Ovis 系列以适应新的应用场景,同时与其他开发者和社区分享团队的研究成果和见解,推动创新。

扩展产品系列

阿里巴巴希望引入更多样化的新型 Ovis 模型,以满足更多业务需求,例如为资源有限的团队提供较小规模的模型。开发团队基于 gemma-2-27b 模型发布了30B 参数版本,并且已经在为未来的迭代做准备。

新用例

基于社区反馈,阿里巴巴将改进 Ovis 系列的光学字符识别、视觉理解和通用多模态理解能力,为用户提供更多使用模型的方式。团队还计划利用模型出色的图像-文本理解能力,在 Ovis 中加入照片分析、健身指导和美容建议等功能。

知识共享

阿里巴巴致力于与更广泛的 AI 社区分享研究成果。团队希望推动多模态技术领域中研究人员和开发者之间的协作与创新,进一步巩固 Ovis 作为全球商业变革性工具的地位。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40926

    浏览量

    302511
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1648

    浏览量

    49320
  • 模型
    +关注

    关注

    1

    文章

    3810

    浏览量

    52253

原文标题:Gemmaverse 开发者故事 | 阿里国际基于 Gemma 开放模型探索多模态应用

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Google正式推出最新开放模型Gemma 4

    今天,我们正式推出 Gemma 4 —— 这是我们迄今为止最智能的开放模型Gemma 4 专为高级推理和智能体 (Agentic) 工作流而设计,实现了单位参数下前所未有的智能水平。
    的头像 发表于 04-08 10:06 400次阅读
    Google正式推出最新<b class='flag-5'>开放</b><b class='flag-5'>模型</b><b class='flag-5'>Gemma</b> 4

    海光DCU完成Qwen3.5模态MoE模型全量适配

    近日,海光DCU完成Qwen3.5-397B MoE旗舰模态模型、Qwen3.5-35B-A3B MoE模态
    的头像 发表于 03-26 09:35 621次阅读

    天数智芯完成阿里云通义千问Qwen3.5系列模态模型全量适配

    近日,天数智芯携手众智FlagOS 社区完成阿里云通义千问 Qwen3.5 系列模态模型全量适配,实现模型精度精准对齐与端到端无缝部署,再
    的头像 发表于 03-26 09:25 1386次阅读

    谷歌正式发布Gemma Scope 2模型

    Scope 工具包推动了可解释性科学的发展,该工具旨在帮助研究人员理解我们轻量级开放模型系列 Gemma 2 的内部运作机制。
    的头像 发表于 01-24 14:01 709次阅读

    模态感知大模型驱动的密闭空间自主勘探系统的应用与未来发展

        模态感知大模型驱动的密闭空间自主勘探系统    北京华盛恒辉模态感知大模型驱动的密闭
    的头像 发表于 12-29 11:27 407次阅读

    模态模型驱动的复杂环境精准导航避障系统平台的应用

    模态模型驱动的复杂环境精准导航避障系统平台的应用
    的头像 发表于 12-22 13:15 386次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>驱动的复杂环境精准导航避障系统平台的应用

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova 模态
    的头像 发表于 12-08 11:19 1141次阅读
    商汤科技正式发布并开源全新<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>模型</b>架构NEO

    格灵深瞳模态模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本、图像、音频乃至视频,实现跨
    的头像 发表于 11-02 15:56 1834次阅读
    格灵深瞳<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 354次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    中科曙光助力紫东太初4.0大模型重磅发布

    近日,全球首个“深度推理+模态”大模型——“紫东太初”4.0在2025东湖国际人工智能高峰论坛上正式发布。中科曙光作为核心生态伙伴,依托中国首个AI计算
    的头像 发表于 09-24 09:33 785次阅读

    谷歌推出AI模型Gemma 3 270M

    过去几个月,Gemma 开放模型系列的发展是激动人心的。我们推出了 Gemma 3 和 Gemma 3 QAT,为单一云端和桌面加速器带来了
    的头像 发表于 09-11 15:09 1293次阅读

    商汤日日新V6.5模态模型登顶全球权威榜单

    Pro)模态模型以82.2的综合成绩登顶榜首,领先Gemini 2.5 Pro以及GPT-5等国际顶尖模型
    的头像 发表于 09-10 09:55 924次阅读

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单一的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这一进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“机器可读教材
    的头像 发表于 09-05 13:49 2714次阅读

    商汤日日新SenseNova融合模态模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI模态模型首轮评估。 商汤日日新SenseNova融合模态模型在所有
    的头像 发表于 06-11 11:57 1550次阅读

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的模态大模MiniCP
    的头像 发表于 04-21 10:56 3662次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>