近日,国际计算机视觉大会(ICCV 2025)举办了第七届大型视频目标分割挑战赛(LSVOS Challenge),传音TEX AI团队凭借自主研发的创新技术方案,在复杂视频目标分割和语言指引视频目标分割两个赛道中均荣获全球第二名,击败众多国内外强队,充分展示了团队在复杂视频理解与多模态视频目标分割领域的深厚积累与世界级竞争力。
ICCV是由IEEE(电气与电子工程师协会)每两年举办一次的研究大会,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称为计算机视觉领域的三大顶级会议。LSVOS Challenge 作为国际计算机视觉领域的重要赛事之一,旨在推动视频目标分割技术的创新与落地应用,为多模态视频理解、视频编辑等方向的发展提供重要的学术研究与产业落地参考。本次赛事吸引了来自清华大学、牛津大学、上海交通大学、上海人工智能实验室、汉阳大学、南京理工大学、香港中文大学(深圳)、武汉大学、加利福尼亚大学默塞德分校、南洋理工大学、德国亚琛工业大学、荷兰埃因霍温理工大学、网易等国内外知名机构团队参赛。
复杂视频目标分割任务旨在在跨越数百至数千帧的长时复杂视频中,持续追踪并精确分割特定目标,即使在目标多次消失重现、外观剧烈变化、小尺寸目标、重度遮挡等困难场景下仍需保持时序一致性;语言指引视频目标分割则需根据自然语言描述在视频中定位并分割目标,既要理解外观信息,还需对动作、时序和多模态语义进行匹配。两个任务均具有高度不确定性与挑战性,考验算法在真实场景中的鲁棒性、泛化能力及跨模态理解水平。本届比赛分别使用 MOSE(长视频+复杂场景分割)与 MeViS(动作描述驱动的目标分割)等高难度数据集进行评测,对参赛方案的整体表现提出了极高要求。
在 VOS 赛道中,传音TEX AI团队在SAM2Long 框架基础上引入伪标签增强的领域自适应训练策略(如图所示),先采用 SAM2Long(基础模型来自 SAM2)生成 MOSE 测试集的高质量伪标签,再与训练集融合重新微调 SAM2 以此缩小域差异。推理阶段并行使用概念驱动的Segment Concept(SeC)模型,并通过级联决策机制动态融合两路预测结果,兼顾长时稳定性与外观变化适应性,最终在 MOSE 测试集上取得J&F 0.8616的成绩,距离冠军仅差 0.0021 分。

图. 传音TEX AI团队在VOS任务上提出的算法技术方案示意图
在 RVOS 赛道中,团队在Sa2VA框架基础上进行了深度优化,提出Video-Language Checker(VLC)利用视觉多模态大语言模型 Qwen2.5-VL 验证视频语义与语言描述的一致性,将测试集进行分类;并设计Key-Frame Sampler(KFS)将首段连续采样与全局均匀采样结合,提升捕捉目标和保持时序上下文的能力;最终由强化的 SEG token 驱动 SAM2 对关键帧进行分割,并将结果传播至全视频,实现时序一致的分割输出。在未进行额外微调或伪标签训练的前提下,该方案在 MeViS 测试集获得J&F 0.6465,位列第二 。

图. 传音TEX AI团队在RVOS任务上提出的算法技术方案示意图
未来,团队将进一步将视频目标分割技术应用到视频与动图(live Photos)的目标消除,通过算法智能填补缺失区域、去除干扰物、恢复复杂场景内容,实现更加自然流畅的视觉呈现。该能力可赋能视频编辑、老影片修复、运动场景遮挡消除及创意特效制作等多样化应用场景,传音TEX AI 团队将持续在视频理解与目标分割技术领域攻坚突破,推动全球行业技术发展。
-
计算机
+关注
关注
19文章
7841浏览量
93464 -
AI
+关注
关注
91文章
41115浏览量
302607 -
传音控股
+关注
关注
1文章
132浏览量
8602
原文标题:传音TEX AI团队斩获ICCV 2025大型视频目标分割挑战赛双料亚军
文章出处:【微信号:TranssionHoldings,微信公众号:传音控股】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
北京人形具身天工3.0斩获全球首个全自主机器人勇士挑战赛冠军
思必驰斩获Interspeech 2026音频推理挑战赛智能体赛道亚军
芯导科技荣获传音控股2025年度鼎立支持奖
摩尔线程在SIGGRAPH Asia 2025斩获3DGS重建挑战赛银奖
2025 全国人工智能应用场景创新挑战赛AI Agent全球专项赛线下半决赛新闻发布会在深圳召开
东风睿立达斩获NEVC 2025中国新能源商用车挑战赛六项大奖
传音携手Google Cloud打造下一代AI智能生态
2025 EDA精英挑战赛华大九天赛题发布
2025 EDA精英挑战赛紫光同创赛题发布
传音斩获WMT 2025国际机器翻译大赛四项冠军
传音多媒体团队揽获CVPR NTIRE 2025两项挑战赛冠亚军,推动视频画质升级
传音多媒体团队揽获CVPR NTIRE 2025两项挑战赛冠亚军
传音TEX AI团队斩获ICCV 2025大型视频目标分割挑战赛双料亚军
评论