0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

格灵深瞳三项成果获得国际顶级学术会议认可

格灵深瞳 来源:格灵深瞳 2025-09-15 14:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

以OpenAI CLIP为代表的多模态预训练模型,为安防、电商等应用场景提供了强大的跨模态理解基础,但也存在多种技术局限性。

格灵深瞳参与研究的3项最新技术成果,涵盖图文检索、高质量图文对数据集、组合概念理解等多模态研究关键领域,突破了现有CLIP框架的局限,多项任务性能达到最先进水平,有效提升多模态表达能力。

3篇论文已入选第33届ACM国际多媒体大会(ACM MM),获得国际顶级学术会议认可。以下是论文的核心内容:

图文互搜更精准!新框架UniME判别力up

对比语言-图像预训练框架CLIP已成为多模态领域的主流方法,广泛应用于“以图搜文”或“以文搜图”等任务中。但CLIP存在三个明显短板:无法处理过长的文本;图像和文本编码器各自独立,交互不足;组合推理能力不足,例如只能看懂单词,却读不懂句子。

尽管最近的多模态大型语言模型(MLLMs)在通用视觉-语言理解方面取得了显著进展,但在学习可迁移的多模态表征方面,潜力尚未充分发挥。

为此,研究团队提出了UniME(Universal Multimodal Embedding,通用多模态嵌入),一个新颖的两阶段训练框架,利用MLLMs学习判别性强、可应用到多样化下游任务的表征向量。在第一阶段,团队借助强大的基于LLM的教师模型,通过知识蒸馏技术,提升多模态大语言模型中的文本嵌入能力;在第二阶段,团队引入困难负样本增强指令微调,进一步增强判别性表示学习。

经过MMEB基准测试和在多个检索任务(包括短长标题检索和组合检索)上的大量实验,结果表明UniME在所有任务中均实现了稳定的性能提升,展现了卓越的判别能力和组合理解能力。

论文题目:Breaking the Modality Barrier:Universal Embedding Learning with Multimodal LLMs

研究团队:格灵深瞳、悉尼大学、通义实验室、帝国理工学院

报告链接:https://arxiv.org/abs/2504.17432

项目主页:https://garygutc.github.io/UniME/

多模态学习新范式:数据集RealSyn解锁海量未配对文档

在海量图文对上进行预训练后,CLIP在各种基准测试中表现出色。但现实中还存在大量非配对的多模态数据,例如图文交织的文档,它们蕴藏丰富的视觉-语言语义信息,尚未得到有效挖掘。

为了充分利用这些未配对文档,研究团队构建了RealSyn数据集——一种高效且可扩展的多模态文档转换新范式。团队首先建立了一套真实数据提取流程,能够从图文交错的文档中提取高质量的图像和文本。在此基础上,通过分层检索方法,高效地将每个图像与多个语义相关的现实文本关联起来。

为进一步增强视觉信息的细粒度表达,RealSyn还引入了图像语义增强生成模块,可生成与图像内容高度契合的合成文本。同时,借助语义均衡采样策略来提高数据集的多样性,让模型更好地学习长尾概念。

基于以上技术突破,团队构建了不同规模的RealSyn数据集(15M、30M 和 100M),融合了真实与合成文本。广泛的实验表明,RealSyn有效地提升了视觉-语言表示学习性能,并展现出强大的可扩展性。相较于现有大规模图文对数据集,模型在RealSyn上预训练后,在多项下游任务中达到了最先进的性能。

论文题目:RealSyn:An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

研究团队:格灵深瞳、悉尼大学、帝国理工学院

报告链接:https://arxiv.org/abs/2502.12513

项目主页:https://garygutc.github.io/RealSyn/

新框架DeGLA:既保留模型通用能力,又提升组合理解性能

通过对齐图像和文本模态,CLIP在多项下游任务中表现出色。然而,全局对比学习的特性限制了CLIP对于组合概念(例如关系和属性)的理解能力。尽管有研究采用困难负样本的方法来提高组合理解能力,但这类方法是在嵌入空间内强制使文本负样本远离图像,会显著损害模型已经掌握的通用能力。

为了解决这一矛盾,研究团队提出了一种名为“ 解耦全局-局部对齐(DeGLA)”的新训练框架,能够显著提升组合理解能力的同时,最大限度保留模型的通用能力。

首先,为保留模型的通用能力,团队在全局对齐过程中整合了自我蒸馏机制,能够有效减轻在微调过程中预训练知识的灾难性遗忘;接下来,为了提高组合理解能力,团队利用大语言模型的上下文学习能力,构建了约200万个高质量、涵盖五种类型的困难负样本,进而提出了基于图像的局部对比(IGC)损失和基于文本的局部对比(TGC)损失,以此增强视觉-语言组合理解能力。

广泛的实验结果证明了DeGLA框架的有效性。与先前的最先进方法相比,DeGLA在VALSE、SugarCrepe和ARO基准测试中平均提升了3.5%。同时,在11个数据集上的零样本分类任务中,性能平均提升了13.0%。

论文题目:Decoupled Global-Local Alignment for Improving Compositional Understanding

研究团队:格灵深瞳、北京理工大学、浙江大学

报告链接:https://arxiv.org/abs/2504.16801

项目主页:https://xiaoxing2001.github.io/DeGLA.github.io/

未来,格灵深瞳将在Glint Tech技术专栏分享更多前沿动态与创新成果,欢迎持续关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51710
  • 格灵深瞳
    +关注

    关注

    1

    文章

    78

    浏览量

    5899

原文标题:格灵深瞳3项成果入选ACM MM25,聚焦多模态表征、图文对数据集及跨模态组合理解 | Glint Tech

文章出处:【微信号:shentongzhineng,微信公众号:格灵深瞳】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    科微电子荣膺三项权威认可

    近期,获得由政府、媒体与专业机构颁发的三项权威认可,覆盖CMOS图像传感器细分市场竞争力、技术创新成果和质量管理体系建设
    的头像 发表于 12-01 16:30 178次阅读

    精彩亮相百度世界2025大会

    11月13日,百度世界2025大会在北京国家会议中心二期举办。活动期间,与百度进行深入交流,并围绕VLM、AI Infra、应用场景
    的头像 发表于 11-19 17:09 462次阅读

    受邀参加百度世界2025大会

    11月13日,百度世界2025大会将在北京国家会议中心二期举行。在分论坛环节,灵感实验室负责人冯子勇、
    的头像 发表于 11-14 15:47 367次阅读

    邀您相约百度世界2025大会

    11月13日,百度世界2025大会将在北京国家会议中心二期举行,主题为“效果涌现 | AI In Action”。在公开课环节,副总
    的头像 发表于 11-12 16:57 678次阅读

    与奥瑞德达成战略合作

    近日,与奥瑞德光电股份有限公司达成战略合作。双方将重点围绕大模型技术应用及解决方案,整合各自优势,向国内外客户提供高效能的智能算力服务,共同构建“端-边-云”一体化算力网络,打
    的头像 发表于 10-11 17:32 1500次阅读

    突破文本人物检索技术难题

    参与研究的GA-DMS框架,为攻破上述技术难题提供了全新解决方案。研究团队通过数据构建和模型架构的协同改进,推动CLIP在人物表征学习中的应用,显著提升了基于文本的人物检索效果
    的头像 发表于 09-28 09:42 410次阅读
    <b class='flag-5'>格</b><b class='flag-5'>灵</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>突破文本人物检索技术难题

    视觉基础模型Glint-MVT的发展脉络

    此前,8月28-30日,2025百度云智大会在北京举办。在算力平台专题论坛上,技术副总裁、算法研究院院长冯子勇分享了《视觉基座:通向世界模型之路——
    的头像 发表于 09-05 17:13 1303次阅读
    <b class='flag-5'>格</b><b class='flag-5'>灵</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>视觉基础模型Glint-MVT的发展脉络

    加入海光产业生态合作组织

    近日,正式加入海光产业生态合作组织(简称“光合组织”),成为该组织成员单位。
    的头像 发表于 08-25 16:10 579次阅读

    智慧金融产品家族全新升级

    智能体时代,如何打造能用、好用、有持续成长性的智慧金融产品?这是探索 AI+金融深度融合的实践方向。
    的头像 发表于 08-19 17:53 1026次阅读

    智慧体育产品全新升级

    智慧体育产品家族,近期迎来全新升级。
    的头像 发表于 08-14 11:51 1186次阅读

    视觉基础模型Glint-MVT升级

    近日,灵感实验室和华为伦敦研究所发布最新版视觉基础模型——Glint-MVT v1.5(RICE)。
    的头像 发表于 07-31 11:01 1203次阅读
    <b class='flag-5'>格</b><b class='flag-5'>灵</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>视觉基础模型Glint-MVT升级

    与您相约WAIC 2025

    7月26-29日,2025世界人工智能大会(WAIC)将在上海世博中心和世博展览馆举行。将在第一现场,联合华为昇腾、百度、飞腾等生态合作伙伴,展示金融全系列整体解决方案、墨刃A
    的头像 发表于 07-26 16:14 955次阅读

    六篇论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,
    的头像 发表于 07-07 18:23 1301次阅读

    发布全国产超融合大模型一体机

    近日,人工智能领域的创新者宣布推出全国产化的超融合大模型一体机,该产品在业界引起了广泛关注。这款一体机不仅展现了
    的头像 发表于 02-19 15:37 1080次阅读

    近期接连斩获8大奖

    年关将至,喜事连连。凭借前沿的技术产品和行业领先的市场表现,接连斩获八大奖,持续获得
    的头像 发表于 12-26 10:20 791次阅读