0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

传音TEX AI团队斩获ICCV 2025大型视频目标分割挑战赛双料亚军

传音控股 来源:传音控股 2025-10-31 09:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,国际计算机视觉大会(ICCV 2025)举办了第七届大型视频目标分割挑战赛(LSVOS Challenge),传音TEX AI团队凭借自主研发的创新技术方案,在复杂视频目标分割和语言指引视频目标分割两个赛道中均荣获全球第二名,击败众多国内外强队,充分展示了团队在复杂视频理解与多模态视频目标分割领域的深厚积累与世界级竞争力。

ICCV是由IEEE(电气电子工程师协会)每两年举办一次的研究大会,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称为计算机视觉领域的三大顶级会议。LSVOS Challenge 作为国际计算机视觉领域的重要赛事之一,旨在推动视频目标分割技术的创新与落地应用,为多模态视频理解、视频编辑等方向的发展提供重要的学术研究与产业落地参考。本次赛事吸引了来自清华大学、牛津大学、上海交通大学、上海人工智能实验室、汉阳大学、南京理工大学、香港中文大学(深圳)、武汉大学、加利福尼亚大学默塞德分校、南洋理工大学、德国亚琛工业大学、荷兰埃因霍温理工大学、网易等国内外知名机构团队参赛。

复杂视频目标分割任务旨在在跨越数百至数千帧的长时复杂视频中,持续追踪并精确分割特定目标,即使在目标多次消失重现、外观剧烈变化、小尺寸目标、重度遮挡等困难场景下仍需保持时序一致性;语言指引视频目标分割则需根据自然语言描述在视频中定位并分割目标,既要理解外观信息,还需对动作、时序和多模态语义进行匹配。两个任务均具有高度不确定性与挑战性,考验算法在真实场景中的鲁棒性、泛化能力及跨模态理解水平。本届比赛分别使用 MOSE(长视频+复杂场景分割)与 MeViS(动作描述驱动的目标分割)等高难度数据集进行评测,对参赛方案的整体表现提出了极高要求。

在 VOS 赛道中,传音TEX AI团队在SAM2Long 框架基础上引入伪标签增强的领域自适应训练策略(如图所示),先采用 SAM2Long(基础模型来自 SAM2)生成 MOSE 测试集的高质量伪标签,再与训练集融合重新微调 SAM2 以此缩小域差异。推理阶段并行使用概念驱动的Segment Concept(SeC)模型,并通过级联决策机制动态融合两路预测结果,兼顾长时稳定性与外观变化适应性,最终在 MOSE 测试集上取得J&F 0.8616的成绩,距离冠军仅差 0.0021 分。

249e59d4-b319-11f0-8c8f-92fbcf53809c.png

图. 传音TEX AI团队在VOS任务上提出的算法技术方案示意图

在 RVOS 赛道中,团队在Sa2VA框架基础上进行了深度优化,提出Video-Language Checker(VLC)利用视觉多模态大语言模型 Qwen2.5-VL 验证视频语义与语言描述的一致性,将测试集进行分类;并设计Key-Frame Sampler(KFS)将首段连续采样与全局均匀采样结合,提升捕捉目标和保持时序上下文的能力;最终由强化的 SEG token 驱动 SAM2 对关键帧进行分割,并将结果传播至全视频,实现时序一致的分割输出。在未进行额外微调或伪标签训练的前提下,该方案在 MeViS 测试集获得J&F 0.6465,位列第二 。

24f6342e-b319-11f0-8c8f-92fbcf53809c.png

图. 传音TEX AI团队在RVOS任务上提出的算法技术方案示意图

未来,团队将进一步将视频目标分割技术应用到视频与动图(live Photos)的目标消除,通过算法智能填补缺失区域、去除干扰物、恢复复杂场景内容,实现更加自然流畅的视觉呈现。该能力可赋能视频编辑、老影片修复、运动场景遮挡消除及创意特效制作等多样化应用场景,传音TEX AI 团队将持续在视频理解与目标分割技术领域攻坚突破,推动全球行业技术发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7841

    浏览量

    93464
  • AI
    AI
    +关注

    关注

    91

    文章

    41115

    浏览量

    302607
  • 传音控股
    +关注

    关注

    1

    文章

    132

    浏览量

    8602

原文标题:传音TEX AI团队斩获ICCV 2025大型视频目标分割挑战赛双料亚军

文章出处:【微信号:TranssionHoldings,微信公众号:传音控股】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    北京人形具身天工3.0斩获全球首个全自主机器人勇士挑战赛冠军

    ,成功通关摆锤穿越、开拓前行、破门清障几个基于现实高危场景设计的项,以最高积分斩获全球首个全自主机器人勇士挑战赛冠军,并赢得勇士智行奖。
    的头像 发表于 04-21 17:28 1016次阅读

    相关研究成果入选计算机视觉顶会CVPR 2026

    持续深化AI领域的产学研协同,积极推动与国内外知名高校的深度合作,围绕AI视觉、语音、语言与大模型等方向推进协同创新。日前,
    的头像 发表于 04-03 17:45 2941次阅读
    <b class='flag-5'>传</b><b class='flag-5'>音</b>相关研究成果入选计算机视觉顶会CVPR 2026

    思必驰斩获Interspeech 2026音频推理挑战赛智能体赛道亚军

    近日,国际语音与语言处理领域顶级赛事Interspeech 2026音频推理挑战赛结果正式揭晓。在这场首次将评估焦点从“答案正确性”转向“推理过程质量”的变革性赛事中,思必驰-上海交通大学联合实验室团队凭借创新的多智能体协同方案,在全球众多顶尖科研
    的头像 发表于 02-28 14:13 828次阅读

    芯导科技荣获控股2025年度鼎立支持奖

    斩获2025鼎立支持奖”,这是控股对双方多年合作成果的高度认可,更是对芯导科技在功率半导体领域综合实力的充分肯定。
    的头像 发表于 01-27 17:52 1251次阅读

    摩尔线程在SIGGRAPH Asia 2025斩获3DGS重建挑战赛银奖

    Challenge(3DGS 重建挑战赛)中凭借自研技术LiteGS出色的算法实力和软硬件协同优化能力,斩获银奖,再次证明摩尔线程在新一代图形渲染技术上的深度积累与全球学术界的高度认可。
    的头像 发表于 12-22 18:01 1967次阅读
    摩尔线程在SIGGRAPH Asia <b class='flag-5'>2025</b><b class='flag-5'>斩获</b>3DGS重建<b class='flag-5'>挑战赛</b>银奖

    2025 全国人工智能应用场景创新挑战赛AI Agent全球专项线下半决赛新闻发布会在深圳召开

    12月10日下午,以“智启未来,星耀深圳”为主题的2025全国人工智能应用场景创新挑战赛AI Agent 全球专项线下半决赛新闻发布会在深圳召开。本次发布会由CICAS 
    的头像 发表于 12-10 18:11 1337次阅读
    <b class='flag-5'>2025</b> 全国人工智能应用场景创新<b class='flag-5'>挑战赛</b><b class='flag-5'>AI</b> Agent全球专项<b class='flag-5'>赛</b>线下半决赛新闻发布会在深圳召开

    东风睿立达斩获NEVC 2025中国新能源商用车挑战赛六项大奖

    9月15日,NEVC2025第十届中国新能源商用车挑战赛颁奖盛典圆满落幕。东风睿立达以卓越表现横扫六项大奖,包括“大面组全能金奖”及四项关键单项冠军,成为本届赛事中最耀眼的新能源商用车之星。
    的头像 发表于 09-16 16:57 1129次阅读

    携手Google Cloud打造下一代AI智能生态

    近日,在备受瞩目的谷歌开发者大会上,TEX AI总经理史团委受邀发表主题演讲,深入分享了
    的头像 发表于 09-02 10:47 1326次阅读

    2025 EDA精英挑战赛华大九天题发布

    中国研究生创“ 芯 ” 大赛·EDA精英挑战赛(以下简称EDA精英挑战赛)是由教育部学位管理与研究生教育司指导,中国学位与研究生教育学会、中国科协青少年科技中心主办的“ 中国研究生创‘芯 ’大赛
    的头像 发表于 08-26 15:00 1850次阅读
    <b class='flag-5'>2025</b> EDA精英<b class='flag-5'>挑战赛</b>华大九天<b class='flag-5'>赛</b>题发布

    2025 EDA精英挑战赛紫光同创题发布

    中国研究生创“ 芯 ” 大赛·EDA精英挑战赛(以下简称EDA精英挑战赛)是由教育部学位管理与研究生教育司指导,中国学位与研究生教育学会、中国科协青少年科技中心主办的“ 中国研究生创‘芯 ’大赛
    的头像 发表于 08-25 09:40 1948次阅读
    <b class='flag-5'>2025</b> EDA精英<b class='flag-5'>挑战赛</b>紫光同创<b class='flag-5'>赛</b>题发布

    斩获WMT 2025国际机器翻译大赛四项冠军

    近日,在由国际计算语言学协会(ACL)主办的WMT 2025国际机器翻译大赛中,在低资源印度语言翻译任务(Low-Resource Indic Language Translation)中
    的头像 发表于 08-06 18:21 1341次阅读

    格灵深瞳六篇论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,格灵深瞳团队共有6篇论文入选。
    的头像 发表于 07-07 18:23 1714次阅读

    多媒体团队揽获CVPR NTIRE 2025两项挑战赛亚军,推动视频画质升级

    近日,在计算机视觉领域最具影响力的国际竞赛CVPRNTIRE2025中,多媒体团队与上海交通大学图像所MediaLab联合团队分别
    的头像 发表于 06-24 17:03 1024次阅读
    <b class='flag-5'>传</b><b class='flag-5'>音</b>多媒体<b class='flag-5'>团队</b>揽获CVPR NTIRE <b class='flag-5'>2025</b>两项<b class='flag-5'>挑战赛</b>冠<b class='flag-5'>亚军</b>,推动<b class='flag-5'>视频</b>画质升级

    多媒体团队揽获CVPR NTIRE 2025两项挑战赛亚军

    近日,在计算机视觉领域最具影响力的国际竞赛 CVPR NTIRE 2025中,多媒体团队与上海交通大学图像所MediaLab联合团队分别
    的头像 发表于 06-24 16:08 1775次阅读
    <b class='flag-5'>传</b><b class='flag-5'>音</b>多媒体<b class='flag-5'>团队</b>揽获CVPR NTIRE <b class='flag-5'>2025</b>两项<b class='flag-5'>挑战赛</b>冠<b class='flag-5'>亚军</b>

    Denodo全新AI SDK认证发布,携手大学挑战赛共筑快速AI应用开发新生态

    ,Denodo学术计划2025年度大学挑战赛“数据与人工智能驱动现实影响力”正式启动,诚邀全球高校学子通过创新实践,展示数据管理与AI技能,推动社会变革。 自2024年11月Denodo Platform
    的头像 发表于 06-24 13:36 903次阅读