0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

格灵深瞳突破文本人物检索技术难题

格灵深瞳 来源:格灵深瞳 2025-09-28 09:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对计算机来说,理解“穿红色上衣的长发女性”这类特征性描述,并在海量图片中精准找到对应人物,是一项复杂的技术难题。尽管多模态预训练模型CLIP在多种视觉任务中展示出强大的性能,但其在人物表征学习的应用中,也就是“以文找人”时,面临两个关键挑战:

一是缺乏专注于人物中心图像的大规模训练数据;二是容易受到噪声文本标记的影响。

格灵深瞳参与研究的GA-DMS框架,为攻破上述技术难题提供了全新解决方案。研究团队通过数据构建和模型架构的协同改进,推动CLIP在人物表征学习中的应用,显著提升了基于文本的人物检索效果。该成果已入选EMNLP 2025 主会(自然语言处理领域的顶级国际会议之一)。

首先,团队开发了一个抗噪声的数据构建管道,利用机器学习语言模型(MLLMs)的上下文学习能力,自动过滤和标注网络来源的图像。这产生了一个大规模数据集WebPerson,包含500万高质量的人物中心图像-文本对。

其次,团队引入了梯度-注意力引导的双重遮蔽协同(GA-DMS)框架,用来改善跨模态对齐。

此外,团队还加入了遮蔽标记预测目标,让模型能够预测信息丰富的文本标记,增强细粒度语义表征学习。

广泛的实验表明,GA-DMS在多个基准测试中达到了最先进的性能,实现了更精准的“以文找人”检索能力——在CUHK-PEDES数据集上的准确率达到77.6%,在RSTPReid上准确率达到71.25%。

7c9b6aa8-9543-11f0-8c8f-92fbcf53809c.png

GA-DMS技术示意图

关于技术报告的更多细节,可点击下方链接体验。

论文题目:Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

研究团队:格灵深瞳、东北大学、华南理工大学

报告链接:https://arxiv.org/pdf/2509.09118

项目主页:https://github.com/Multimodal-Representation-Learning-MRL/GA-DMS

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41976

    浏览量

    303075
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137421
  • 格灵深瞳
    +关注

    关注

    1

    文章

    102

    浏览量

    6031

原文标题:让AI读懂人物描写!新框架GA-DMS突破“以文找人”技术难题 | Glint Tech

文章出处:【微信号:shentongzhineng,微信公众号:格灵深瞳】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亮相2026 ITES深圳工业展

    3月31日-4月3日,第27届ITES深圳工业展暨高端装备产业集群展在深圳宝安举行。在工创联企业家交流会圆桌环节,CEO吴一洲围绕主题“AI的生产力在哪里”,分享AI
    的头像 发表于 04-08 15:36 395次阅读

    与佳都科技达成授权合作协议

    3月27日,与佳都科技集团股份有限公司(简称“佳都科技”)达成授权合作协议,双方将围绕
    的头像 发表于 03-30 11:21 332次阅读

    荣获量子位2025人工智能年度领航企业

    12月10日,量子位发布“2025人工智能年度榜单”。入选“2025人工智能年度领航企业”。
    的头像 发表于 12-17 15:23 763次阅读

    受邀参加百度世界2025大会

    11月13日,百度世界2025大会将在北京国家会议中心二期举行。在分论坛环节,灵感实验室负责人冯子勇、
    的头像 发表于 11-14 15:47 880次阅读

    邀您相约百度世界2025大会

    11月13日,百度世界2025大会将在北京国家会议中心二期举行,主题为“效果涌现 | AI In Action”。在公开课环节,副总裁罗楷、研发副总裁闫梓祯将分别围绕金融视觉演
    的头像 发表于 11-12 16:57 1086次阅读

    与奥瑞德达成战略合作

    近日,与奥瑞德光电股份有限公司达成战略合作。双方将重点围绕大模型技术应用及解决方案,整合各自优势,向国内外客户提供高效能的智能算力服
    的头像 发表于 10-11 17:32 2036次阅读

    视觉基础模型Glint-MVT的发展脉络

    此前,8月28-30日,2025百度云智大会在北京举办。在算力平台专题论坛上,技术副总裁、算法研究院院长冯子勇分享了《视觉基座:通向
    的头像 发表于 09-05 17:13 1963次阅读
    <b class='flag-5'>格</b><b class='flag-5'>灵</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>视觉基础模型Glint-MVT的发展脉络

    加入海光产业生态合作组织

    近日,正式加入海光产业生态合作组织(简称“光合组织”),成为该组织成员单位。
    的头像 发表于 08-25 16:10 1065次阅读

    智慧金融产品家族全新升级

    智能体时代,如何打造能用、好用、有持续成长性的智慧金融产品?这是探索 AI+金融深度融合的实践方向。
    的头像 发表于 08-19 17:53 1499次阅读

    智慧体育产品全新升级

    智慧体育产品家族,近期迎来全新升级。
    的头像 发表于 08-14 11:51 1694次阅读

    视觉基础模型Glint-MVT升级

    近日,灵感实验室和华为伦敦研究所发布最新版视觉基础模型——Glint-MVT v1.5(RICE)。
    的头像 发表于 07-31 11:01 1733次阅读
    <b class='flag-5'>格</b><b class='flag-5'>灵</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>视觉基础模型Glint-MVT升级

    与您相约WAIC 2025

    7月26-29日,2025世界人工智能大会(WAIC)将在上海世博中心和世博展览馆举行。将在第一现场,联合华为昇腾、百度、飞腾等生态合作伙伴,展示金融全系列整体解决方案、墨刃A
    的头像 发表于 07-26 16:14 1299次阅读

    六篇论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,团队共有6篇论文入选。
    的头像 发表于 07-07 18:23 1807次阅读

    亮相AICon 2025全球人工智能开发与应用大会

    此前,6月27-28日,由极客邦科技旗下InfoQ中国主办的“AICon全球人工智能开发与应用大会”在北京举办。作为行业领先的视觉AI公司,受邀参会。
    的头像 发表于 07-05 16:15 1659次阅读

    AI技术助力体育教育事业高质量发展

    随着体育中考分值的提升与政策持续加码,如何突破传统考试模式效率低、公平性争议大、数据管理难等问题,成为教育现代化的关键议题。以自主创
    的头像 发表于 06-04 11:44 1187次阅读