0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

格灵深瞳多模态大模型Glint-ME让图文互搜更精准

格灵深瞳 来源:格灵深瞳 2025-11-02 15:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的多模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本、图像、音频乃至视频,实现跨模态检索。

与此同时,CLIP框架也存在多种技术局限性。10月25日,在由DataFun技术社区策划的DACon数智大会分论坛上,格灵深瞳技术副总裁、灵感实验室负责人冯子勇博士分享专题演讲:《多模态特征嵌入的数据生成和技术前沿》,介绍多模态基础模型的应用场景、技术短板,以及灵感团队的解题方法与技术细节——灵感图文多模态表征模型系列(Glint-ME)。

“大模型前沿技术探索”分论坛现场

数据生成:丰富又优质的多模态表征数据

多模态模型训练需文本和图片成对出现,但现有数据文本质量不佳。为此,灵感团队提出了一个多样化描述生成框架,将Transformer的有效并行训练与RNN的有效推理相结合,利用大型语言模型来精炼原始文本、合成字幕和检测标签等信息,以产生语义丰富的描述文本。

为解决训练数据冗余的问题,灵感团队提出了一种简单但有效的图像语义平衡方法,能够在保持卓越性能的同时,从LAION 400M数据集中移除43.7%的图像-文本对。

为挖掘现实中大量未配对的多模态数据,例如图文交织的文档,灵感团队提出了一种有效且可扩展的多模态交错文档转换范式,构建了RealSyn数据集,可以将此类数据用于CLIP预训练。

团队首先建立了一套真实数据提取流程,能够从图文交错的文档中提取高质量的图像和文本。在此基础上,构建了检索增强生成框架,基于高质量的文本和图片库,为每一张图片匹配现实文本和合成文本。

RealSyn数据集包含15M、30M、100M三个规模。大量实验证明:RealSyn具有良好的数据缩放和模型缩放能力,相关数据、代码和模型均已开源:

技术报告:

https://arxiv.org/abs/2502.12513

代码:

https://github.com/deepglint/RealSyn

项目主页:

https://garygutc.github.io/RealSyn/

数据集:

https://huggingface.co/datasets/Kaichengalex/RealSyn100M

多模态特征嵌入模型:更强大的跨模态表达能力

尽管最近的多模态大型语言模型(MLLMs)在通用视觉-语言理解方面取得了显著进展,但在学习可迁移的多模态表征方面,潜力尚未充分发挥。

为此,灵感团队提出了一个面向MLLMs的两阶段训练框架UniME(Universal Multimodal Embedding,通用多模态嵌入),并优化迭代至V2版本——聚焦如何借助MLLMs强大的理解能力来助力统一多模态表征学习。

经过MMEB基准测试和在多个检索任务(包括长短文本跨模态检索和组合检索)上的大量实验,结果表明UniME-V2在多项任务中均实现了稳定的性能提升,展现了卓越的判别能力和组合理解能力。

64cf86cc-b643-11f0-8c8f-92fbcf53809c.png

UniME-V2在MMEB Benchmark的表现

6531cbfc-b643-11f0-8c8f-92fbcf53809c.png

UniME-V2在长短文本跨模态检索和组合检索上优于UniME-V1和其他模型

UniME系列论文、代码、权重均已开源:

UniME-V1

技术报告:

https://arxiv.org/abs/2504.17432

代码:

https://github.com/deepglint/UniME

模型:

https://huggingface.co/DeepGlint-AI/UniME-LLaVA-OneVision-7B

项目主页:

https://garygutc.github.io/UniME/

UniME-V2

技术报告:

https://arxiv.org/abs/2504.17432

代码:

https://github.com/GaryGuTC/UniME-v2

模型:

https://huggingface.co/collections/TianchengGu/unime-v2-68ef708ac48066353b4a0806

项目主页:

https://garygutc.github.io/UniME-v2/

近期,灵感实验室联合LMMs-Lab发布了全流程开源的多模态大模型LLaVA-OneVision-1.5,复现路径清晰,8B模型预训练只需4天、1.6万美元。

LLaVA-OneVision-1.5

技术报告:

https://arxiv.org/abs/2509.23661

代码:

https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

模型:

https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

Demo:

https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

数据集:

Pretrain Data:https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

Instruct Data:https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data

未来,灵感实验室将持续聚焦视觉及多模态特征表达与应用,推动多模态技术在多元化应用场景的落地与创新。欢迎关注团队的最新技术进展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 格灵深瞳
    +关注

    关注

    1

    文章

    78

    浏览量

    5900
  • 大模型
    +关注

    关注

    2

    文章

    3449

    浏览量

    4974

原文标题:AI 如何学会“看图说话”?多模态大模型 Glint-ME 让图文互搜更精准 | Glint Tech

文章出处:【微信号:shentongzhineng,微信公众号:格灵深瞳】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    受邀参加百度世界2025大会

    11月13日,百度世界2025大会将在北京国家会议中心二期举行。在分论坛环节,灵感实验室负责人冯子勇、
    的头像 发表于 11-14 15:47 387次阅读

    邀您相约百度世界2025大会

    11月13日,百度世界2025大会将在北京国家会议中心二期举行,主题为“效果涌现 | AI In Action”。在公开课环节,副总裁罗楷、研发副总裁闫梓祯将分别围绕金融视觉演
    的头像 发表于 11-12 16:57 688次阅读

    与奥瑞德达成战略合作

    近日,与奥瑞德光电股份有限公司达成战略合作。双方将重点围绕大模型技术应用及解决方案,整合各自优势,向国内外客户提供高效能的智能算力服
    的头像 发表于 10-11 17:32 1514次阅读

    视觉基础模型Glint-MVT的发展脉络

    此前,8月28-30日,2025百度云智大会在北京举办。在算力平台专题论坛上,技术副总裁、算法研究院院长冯子勇分享了《视觉基座:通向世界模型
    的头像 发表于 09-05 17:13 1316次阅读
    <b class='flag-5'>格</b><b class='flag-5'>灵</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>视觉基础<b class='flag-5'>模型</b><b class='flag-5'>Glint</b>-MVT的发展脉络

    加入海光产业生态合作组织

    近日,正式加入海光产业生态合作组织(简称“光合组织”),成为该组织成员单位。
    的头像 发表于 08-25 16:10 592次阅读

    智慧金融产品家族全新升级

    智能体时代,如何打造能用、好用、有持续成长性的智慧金融产品?这是探索 AI+金融深度融合的实践方向。
    的头像 发表于 08-19 17:53 1042次阅读

    智慧体育产品全新升级

    智慧体育产品家族,近期迎来全新升级。
    的头像 发表于 08-14 11:51 1196次阅读

    视觉基础模型Glint-MVT升级

    近日,灵感实验室和华为伦敦研究所发布最新版视觉基础模型——Glint-MVT v1.5(
    的头像 发表于 07-31 11:01 1219次阅读
    <b class='flag-5'>格</b><b class='flag-5'>灵</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>视觉基础<b class='flag-5'>模型</b><b class='flag-5'>Glint</b>-MVT升级

    与您相约WAIC 2025

    7月26-29日,2025世界人工智能大会(WAIC)将在上海世博中心和世博展览馆举行。将在第一现场,联合华为昇腾、百度、飞腾等生态合作伙伴,展示金融全系列整体解决方案、墨刃A
    的头像 发表于 07-26 16:14 962次阅读

    六篇论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,团队共有6篇论文入选。
    的头像 发表于 07-07 18:23 1309次阅读

    亮相AICon 2025全球人工智能开发与应用大会

    此前,6月27-28日,由极客邦科技旗下InfoQ中国主办的“AICon全球人工智能开发与应用大会”在北京举办。作为行业领先的视觉AI公司,受邀参会。
    的头像 发表于 07-05 16:15 1250次阅读

    与百度智能云达成战略合作,共筑AI算力新基建

    力底座,推动政务、金融、公共安全等领域的智能化升级。 百度智能云泛科技业务部总经理张玮,销售副总裁芦斌代表双方签约,百度集团执行副总裁、百度智能云事业群总裁沈抖,
    的头像 发表于 04-27 10:20 984次阅读

    发布全国产超融合大模型一体机

    近日,人工智能领域的创新者宣布推出全国产化的超融合大模型一体机,该产品在业界引起了广泛关注。这款一体机不仅展现了
    的头像 发表于 02-19 15:37 1081次阅读

    海康威视发布模态模型存储系列产品

    模态模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文
    的头像 发表于 02-18 10:33 1025次阅读

    近期接连斩获8项大奖

    年关将至,喜事连连。凭借前沿的技术产品和行业领先的市场表现,接连斩获八项大奖,持续获得来自政府、行业以及媒体等各界的肯定。
    的头像 发表于 12-26 10:20 792次阅读