格灵深瞳突破文本人物检索技术难题-电子发烧友网

对计算机来说，理解“穿红色上衣的长发女性”这类特征性描述，并在海量图片中精准找到对应人物，是一项复杂的技术难题。尽管多模态预训练模型CLIP在多种视觉任务中展示出强大的性能，但其在人物表征学习的应用中，也就是“以文找人”时，面临两个关键挑战：

一是缺乏专注于人物中心图像的大规模训练数据;二是容易受到噪声文本标记的影响。

格灵深瞳参与研究的GA-DMS框架，为攻破上述技术难题提供了全新解决方案。研究团队通过数据构建和模型架构的协同改进，推动CLIP在人物表征学习中的应用，显著提升了基于文本的人物检索效果。该成果已入选EMNLP 2025 主会(自然语言处理领域的顶级国际会议之一)。

首先，团队开发了一个抗噪声的数据构建管道，利用机器学习语言模型(MLLMs)的上下文学习能力，自动过滤和标注网络来源的图像。这产生了一个大规模数据集WebPerson，包含500万高质量的人物中心图像-文本对。

其次，团队引入了梯度-注意力引导的双重遮蔽协同(GA-DMS)框架，用来改善跨模态对齐。

此外，团队还加入了遮蔽标记预测目标，让模型能够预测信息丰富的文本标记，增强细粒度语义表征学习。

广泛的实验表明，GA-DMS在多个基准测试中达到了最先进的性能，实现了更精准的“以文找人”检索能力——在CUHK-PEDES数据集上的准确率达到77.6%，在RSTPReid上准确率达到71.25%。

GA-DMS技术示意图

关于技术报告的更多细节，可点击下方链接体验。

论文题目：Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

研究团队：格灵深瞳、东北大学、华南理工大学

报告链接：https://arxiv.org/pdf/2509.09118

项目主页：https://github.com/Multimodal-Representation-Learning-MRL/GA-DMS

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

原文标题：让AI读懂人物描写！新框架GA-DMS突破“以文找人”技术难题 | Glint Tech

文章出处：【微信号：shentongzhineng，微信公众号：格灵深瞳】欢迎添加关注！文章转载请注明出处。

格灵深瞳突破文本人物检索技术难题