阿里国际基于Gemma开放模型探索多模态应用-电子发烧友网

作者 / 开发者品牌和声誉营销部 Francesca Di Felice

阿里巴巴集团是一家全球化的科技公司，其目标简单而明确：让天下没有难做的生意。自 1999 年以来，该集团创建了一系列工具和基础设施来支持中小企业。如今，阿里国际运营着全球规模最大的零售商业业务之一。

阿里巴巴为其连接全球买家和供应商的国际电子商务平台构建了一系列多模态大模型 (MLLM)。这个名为 Ovis 的模型系列能够感知和理解视觉信息，允许用户输入图像或视频请求并获得文本输出结果。其性能最佳的模型之一Ovis1.6-Gemma2-9B是基于 Gemma 构建的。

挑战

阿里巴巴的开发者希望为公司的国际电子商务平台创建一个有效的多模态大模型，但在寻找一个能够胜任多种任务且易于集成的基础模型时遇到了困难。在对现有开放模型进行初步实验时，团队发现这些模型在多模态推理和文本生成等关键领域存在多种性能差距。

经过全面测试，Gemma 2 的指令调优 9B 参数模型 (gemma-2-9b-it) 展现出最佳的综合性能，具备卓越的指令遵循能力和强大的文本生成能力。它在数学和编程等语言任务方面的优势使其成为多模态模型的理想基础。然而，无缝集成视觉和文本嵌入又增加了任务的复杂度。团队需要创新，以确保模型能够在基于图像的产品发布等关键业务应用中高效运行。

Gemma 在通用语言任务上表现尤为出色，特别是在数学和编程方面。我们利用 Gemma 的语言能力来提升我们在多模态任务上的表现。

解决方案

使用gemma-2-9b-it作为 Ovis 的基础语言模型，为构建多模态架构奠定了坚实的基础，弥补了视觉和文本输入之间的差距。Ovis 采用独特的方法：首先，它将连续的视觉特征转换为概率性的视觉令牌 (Token)。然后，通过加权索引，Ovis 将这些令牌组装成视觉嵌入。在此基础上，Gemma 的 Transformer 架构将这些嵌入与文本输入集成，确保多模态数据无缝流动。

Gemma 2 在数学和逻辑方面的优势显著提升了 Ovis 在推理和理解任务上的能力，使阿里巴巴团队能够将这一新模型部署到各种业务运营中。例如，阿里国际数字商业平台用户现在可以使用 Ovis 根据产品图像来识别产品类别和属性或添加标签。这大大减少了手动输入的需求，让用户能够更高效地创建商品详情。

Ovis 的功能还扩展到了其他使用场景，如检测文本与图像之间的一致性问题、评估图像质量以及生成结构化输出。这些功能彰显了 Ovis 的多功能性及其适应各种任务的能力。

影响

Ovis 显著改进了阿里国际数字商业平台上的产品生产工作流程，并在推理过程中展现出卓越的效率，为多模态 AI 设定了新的标准。自发布以来，Ovis 已在 GitHub、Hugging Face、Model Scope 和 OpenCompass 等平台上获得了广泛的认可和应用，甚至在 Hugging Face 首页获得推荐展示。

未来计划

阿里巴巴计划优化并扩展 Ovis 系列以适应新的应用场景，同时与其他开发者和社区分享团队的研究成果和见解，推动创新。

扩展产品系列

阿里巴巴希望引入更多样化的新型 Ovis 模型，以满足更多业务需求，例如为资源有限的团队提供较小规模的模型。开发团队基于 gemma-2-27b 模型发布了30B 参数版本，并且已经在为未来的迭代做准备。

新用例

基于社区反馈，阿里巴巴将改进 Ovis 系列的光学字符识别、视觉理解和通用多模态理解能力，为用户提供更多使用模型的方式。团队还计划利用模型出色的图像-文本理解能力，在 Ovis 中加入照片分析、健身指导和美容建议等功能。

知识共享

阿里巴巴致力于与更广泛的 AI 社区分享研究成果。团队希望推动多模态技术领域中研究人员和开发者之间的协作与创新，进一步巩固 Ovis 作为全球商业变革性工具的地位。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉