0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯优图入选AAAI 2021的论文节选 涵盖动作识别和人脸安全等领域

MEMS 来源:MEMS 作者:MEMS 2020-12-23 15:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,国际人工智能顶级会议AAAI 2021公布了论文录取结果。AAAI是人工智能领域最悠久、涵盖内容最为广泛的国际顶级学术会议之一。AAAI 2021一共收到9034篇论文提交,其中有效审稿的数量为7911篇,最终录取数量为1692篇,录取率为21.4%。

AAAI (Association for the Advance of Artificial Intelligence), 即美国人工智能协会,是人工智能领域的主要学术组织之一,其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,AAAI 均被列为人工智能领域的 A 类顶级会议。

本次AAAI 腾讯优图实验室共入选了11篇论文,涉及动作识别、人群密度估计、人脸安全等领域,展现了腾讯在计算机视觉领域的技术实力。

以下为部分腾讯优图入选AAAI 2021的论文:

01

学习用于动作识别的全面运动特征表达

Learning Comprehensive Motion Representation for Action Recognition

运动特征在动作识别中起到非常重要的作用。基于2D CNN的方法虽然高效,但是由于对每一帧都采用相同的二维卷积核,会产生大量的冗余和重复特征。近期有一些工作通过建立帧间的联系获取运动信息,但是依然存在感受野有限的问题。此外,特征的增强依旧只在通道或者空间维度单独进行。

为了解决这些问题,我们首先提出了一个通道特征增强模块(CME)自适应地增强与运动相关的通道。增强系数通过分析整段视频的信息获得。根据相邻特征图之间的点对点相似性,我们进一步提出了一种空间运动增强(SME)模块,以指导模型集中于包含运动关键目标的区域,其背后的直觉是背景区域的变化通常比视频的运动区域慢。通过将CME和SME集成到现成的2D网络中,我们最终获得了用于动作识别的全面运动特征学习方法。

我们的方法在三个公共数据集上取得了有竞争力的表现:Something-Something V1&V2和Kinetics-400。特别是在时序推理数据集Something-Something V1和V2上,当使用16帧作为输入时,我们的方法比之前最好的方法高2.3%和1.9%。

02

选择还是融合?基于自适应尺度选择的人群密度估计ToChooseortoFuse?ScaleSelectionforCrowdCounting

本文提出了一种高效地充分利用网络内部多尺度特征表示的方法,能够有效解决人群密度估计中的大范围尺度变化问题。具体的,考虑到每层特征都有各自最擅长预测的人群尺度范围,本文提出了一种图像块级别的特征层选择策略来实现尽可能小的计数误差。显然,在没有人群尺度标注信息的情况下,任何人工指定人群尺度与特征层对应关系的方法都是次优的并会带来额外误差。

相反,本文提出的尺度自适应选择网络SASNet可以自动地学习这种对应关系,并通过软选择的方式来缓解离散的特征层与连续的人群尺度变化之间的矛盾。由于SASNet为同一图像块内相似尺度的人群选择同一特征层,直接使用传统的像素级损失函数会忽略图像块内部不同样本间各异的学习难度。

因此,本文还提出了一种金字塔区域感知损失(PRALoss),从图像块级别开始以一种自上而下的方式迭代地选择最困难的样本来优化。鉴于PRA Loss能够根据上层父图像块是过预测还是欠预测来选择困难样本,因此还能够缓解业界普遍面临的训练目标最小化和计数误差最小化之间不一致的问题。我们的方法在多达四个公开数据集上取得了优异的性能。

03

解耦场景和运动的无监督视频表征学习

Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion

相比于图像表征学习,视频表征学习中的一个重要因素是物体运动信息(Object Motion)。然而我们发现, 在当前主流的视频数据集中, 一些动作类别会和发生的场景强相关, 导致模型往往只关注了场景信息。比如,模型可能仅仅因为发生的场景是足球场,就将拉拉队员在足球场上跳舞的视频判断成了踢足球。

这违背了视频表征学习最初的目的,即学习物体运动信息,并且不容忽视的是,不同的数据集可能会带来不同的场景偏见(Scene Bias)。为了解决这个问题, 我们提出了用两个简单的操作来解耦合场景和运动(Decoupling the Scene and the Motion, DSM),以此来到达让模型更加关注运动信息的目的。

具体来说,我们为每段视频都会构造一个正样本和一个负样本,相比于原始视频, 正样本的运动信息没有发生变化,但场景被破坏掉了,而负样本的运动信息发生了改变,但场景信息基本被保留了下来。构造正负样本的操作分别叫做Spatial Local Disturbance和Temporal Local Disturbance。

我们的优化目标是在隐空间在拉近正样本和原始视频的同时,推远负样本。用这种方式,场景带来的负面影响被削弱掉了,而模型对时序也变得更加敏感。我们在两个任务上,用不同的网络结构、不同的预训练数据集进行了实验验证,发现我们方法在动作识别任务上,在UCF101以及HMDB51数据集上分别超越当前学界领先水平8.1%以及8.8%。

04

面向真实图像超分辨率的频率一致性自适应方法

FrequencyConsistentAdaptationforRealWorldSuperResolution

最近的基于深度学习的超分辨率(SR)方法在具有已知降质的图像上取得了卓越的性能。但是,这些方法在现实世界中总是会失败,因为理想退化(例如,双三次降采样)之后的低分辨率(LR)图像会偏离真实源域。在频率密度上可以清楚地观察到LR图像和真实世界图像之间的域间隙,这启发我们显式地缩小由于不正确的降质而导致的间隙。

从这个角度出发,我们设计了一种新颖的频率一致性自适应方法(FCA),能够确保将现有SR方法应用于真实场景时保持频域一致性。我们从无监督的图像中估计退化内核,并生成相应的LR图像。为了给核估计提供有用的梯度信息,我们提出了通过区分不同尺度图像的频率密度的频率密度比较器(FDC)。

基于域一致的LR-HR对,我们训练了易于实现的卷积神经网络(CNN)SR模型。大量实验表明,所提出的FCA在真实环境下提高了SR模型的性能,以高保真度和合理的感知度获得了最先进的结果,从而为实际SR应用提供了一种新颖有效的框架。

05

混合域活体检测中的通用表征学习

Generalizable Representation Learning for Mixture Domain Face Anti-Spoofing

基于域泛化的活体检测技术对未知场景有更好的泛化性,受到了工业界和学术界的广泛关注。已有的域泛化方法需要域标签的支持,然而在实际场景中,所收集到的往往是域信息不可知的混合数据。在这种场景下,大多数已有的方法是不可用的。而且域划分的方式可以有多种,因此单一固定的划分方法可能只是次优解。

为解决实际混合数据问题,我们提出了一种基于迭代式无监督子域划分的元学习方法。该方法无需域标签,通过高鉴别性的域特征实现子域划分,并通过元学习的方式进行模型的优化。具体来说,我们基于实例正则化定义了域信息表示,并设计了域表示学习模块(DRLM)来提取高鉴别性的域特征用以精准的域聚类。

此外,为了缓解离群点对聚类的阻碍,我们采用最大均值差异(MMD)来校正样本特征分布与先验分布的差异,以增强聚类的可靠性。实验结果表明我们的方法(D2AM)优于传统的域泛化方法,包括使用域标签的方法,为实际场景下活体技术的应用提供了有效框架。

06

基于局部关联学习的人脸伪造检测

Local Relation Learning for Face Forgery Detection

随着人脸编辑技术的快速发展,人脸内容取证引起了广泛的关注。大多数现有方法往往利用二值类别标签或伪造区域等监督信息来解决人脸伪造检测任务。然而,由于没有考虑到局部区域间的关联,这些全局监督信息不足以学习到泛化性强的特征,往往容易过拟合。

为了解决这个问题,我们提出了一种通过局部关联学习来进行人脸伪造检测的新方法。具体而言,我们提出了一个多尺度局部相似性模块(MPSM),该模块通过衡量局部区域特征间的相似性来构造一种泛化性强、鲁棒性高的相似模式。

此外,我们还提出了一个RGB-频域注意力模块(RFAM)来融合RGB图像和频域信息,从而得到更全面的局部特征表示,进一步提高了相似模式的可靠性。大量的实验表明我们所提出的方法在多个数据集上优于现有的方法,同时详细的可视化也充分证明了我们方法的鲁棒性和可解释性。

07

基于可泛化样本选择的行人重识别方法

OneforMore:SelectingGeneralizableSamplesforGeneralizableReIDModel

现有行人重新识别(ReID)模型的训练目标是在当前批次样本上模型的损失减少,而与其他批次样本的性能无关。它将不可避免地导致模型过拟合到某些样本(例如,不平衡类中的头部数据,简单样本或噪声样本)。

目前有基于采样的方法通过设计特定准则来选择特定样本来解决该问题,这些方法对某些类型的数据(例如难样本,尾部数据)施加了更多的关注,这不适用于真实的ReID数据分布。

因此,本文将所选样本的泛化能力作为损失函数,并学习一个采样器来自动选择可泛化样本,而不是简单地推测哪些样本更有意义。更重要的是,我们提出的基于可泛化能力的采样器可以无缝集成到ReID训练框架中,该框架能够以端到端的方式同时训练ReID模型和采样器。实验结果表明,该方法可以有效地改善ReID模型的训练,提高ReID模型的性能。

08

基于对比学习的小样本植入模型

Learning a Few-shot Embedding Model by Contrastive Learning

小样本学习是根据少量的先验信息去对于目标目标类别进行分类。这些信息一般沉淀在一个深度模型中,用来对支持集和问询集进行匹配。本文的目标是利用对比学习的方法学习一个小样本植入模型,具体贡献如下:

1 我们深入研究噪声对比估计方法,并利用它来训练小样本植入模型;
2 我们提出一个名为infoPatch的植入模型方法,智能挖掘局部的联系,保证稳步提升小样本分类的能力;
3 我们在文章中展示了infoPatch的有效性;
4 我们的模型的指标在三个常用数据集miniImageNet,tieredImageNet和ewshot-CIFAR100上都达到了顶尖水准。

09

基于Transformer结构层内-

层间联合全局表示的图像描述

Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network

本论文由腾讯优图实验室与厦门大学合作完成。

基于Transformer的结构近来在图像描述任务中取得了巨大的成功, 这些模型的范式都是将目标regions编码成隐含特征实现描述的解码。然而,我们发现这些隐含特征仅仅涵盖了region级别的局部特征,忽略了考虑整张图片的全局特征的建模,使得模型难以进一步拓展在图像描述中的复杂多模态推理能力。

因此,这篇文章我们提出了一个新的模型GET,同时提取更为综合的全局信息并将全局信息作为自适应引导信号生成更为高质量的图像描述。具体而言,在该模型中,我们首先设计了一个全局加强的编码器和全局自适应的解码器,其中前者利用Transformer层级结构特点,提取层内-层间联合全局特征,后者则利用全局自适应控制器,控制全局特征融入解码器来指导图像描述的生成。本文在MS COCO数据集上的实验证明了我们相对于当前最先进模型的优势。

10

基于双层级特征协同Transformer的图像描述生成

Dual-level Collaborative Transformer for Image Captioning

本论文由腾讯优图实验室与厦门大学合作完成。

由目标检测网络提取的区域特征在图像描述生成的发展中起着重要的作用。然而,这种特征中缺乏上下文信息和细粒度细节,而这正是网格特征的优点。本文提出了一种新的双层级特征协同Transformer,以实现两者的优势互补。

具体地说,在DLCT中,我们首先使用DWSA来挖掘它们的内在特性,并在其中引入综合关系注意力机制来嵌入几何信息。此外,我们还提出了LCCA模块,目的是解决这两个特征直接融合所产生的语义噪声问题,通过构造几何对齐图来精确对齐和增强区域和网格特征。

为了验证我们的模型,我们在基准数据集MS-COCO上进行了大量的实验,并在本地和在线测试集上实现了SOTA性能,在Karpathy 测试集上达到133.8%的CIDEr得分,在官方测试集上达到135.4%的CIDEr得分。

11

图博弈嵌入

Graph Game Embedding

本论文由腾讯优图实验室与南京理工大学合作完成。

图嵌入旨在将节点/边编码为低维连续特征,已成为图分析的重要工具并被应用于图/节点分类,链接预测等任务。在本文中,我们提出了一种新颖的名为图博弈嵌入的图学习框架,以学习具有判别性的节点表示并对图结构进行编码。

受博弈学习理论的启发,节点嵌入被转换为博弈过程中玩家策略的选择/搜索过程,其中每个节点对应一个玩家,而每条边对应于两个玩家之间的交互。然后,定义了一个在理论上满足纳什均衡的收益函数以衡量图演化过程中参与玩家(节点)的收益/损失。

更进一步地,引入了一种合作与竞争机制以提高该框架的判别学习能力。在上述图博弈嵌入框架下,考虑节点的不同交互方式,我们提出了两种具体模型,即对交互图博弈嵌入模型和群组图博弈嵌入模型。

与现有的图嵌入方法相比,本文所提出的框架具有两个优点:(1)所设计的收益函数保证了图网络的稳定演化,满足纳什均衡且具有收敛性的理论保证;(2)所引入的协作和竞争机制可指导每个节点学习到区别于其他节点的优化策略,从而赋予图博弈嵌入框架以学习具有判别性特征的能力。我们在三个关于引文网络的公共数据集上对所提出的方法进行了评测,实验结果验证了其有效性。

责任编辑:xj

原文标题:腾讯优图11篇论文入选AAAI,涵盖动作识别和人脸安全等领域

文章出处:【微信公众号:MEMS】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38340

    浏览量

    297434
  • 人脸识别
    +关注

    关注

    77

    文章

    4119

    浏览量

    87855
  • 人体动作识别

    关注

    0

    文章

    5

    浏览量

    2385

原文标题:腾讯优图11篇论文入选AAAI,涵盖动作识别和人脸安全等领域

文章出处:【微信号:MEMSensor,微信公众号:MEMS】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    地平线五篇论文入选NeurIPS 2025与AAAI 2026

    近日,两大顶级学术会议录用结果相继揭晓,地平线凭借在机器人算法领域的深度钻研,共有5篇论文从全球数万份投稿中脱颖而出,分别入选NeurIPS 2025与AAAI 2026。
    的头像 发表于 11-27 11:39 598次阅读
    地平线五篇<b class='flag-5'>论文</b><b class='flag-5'>入选</b>NeurIPS 2025与<b class='flag-5'>AAAI</b> 2026

    后摩智能六篇论文入选四大国际顶会

    2025年以来,后摩智能在多项前沿研究领域取得突破性进展,近期在NeurIPS、ICCV、AAAI、ACMMM四大国际顶会上有 6 篇论文入选。致力于大模型的推理优化、微调、部署等关键
    的头像 发表于 11-24 16:42 800次阅读
    后摩智能六篇<b class='flag-5'>论文</b><b class='flag-5'>入选</b>四大国际顶会

    理想汽车12篇论文入选全球五大AI顶会

    2025年三季度以来,理想汽车基座模型团队在国际顶级AI学术会议上取得重大突破,共有12篇高质量研究论文入选AAAI、NeurIPS、EMNLP、ACM MM、ICCV五大顶会。
    的头像 发表于 11-21 14:44 486次阅读
    理想汽车12篇<b class='flag-5'>论文</b><b class='flag-5'>入选</b>全球五大AI顶会

    摩尔线程新一代大语言模型对齐框架URPO入选AAAI 2026

    近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新一代大语言模型对齐框架——URPO统一奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这一
    的头像 发表于 11-17 16:03 260次阅读
    摩尔线程新一代大语言模型对齐框架URPO<b class='flag-5'>入选</b><b class='flag-5'>AAAI</b> 2026

    Nullmax端到端轨迹规划论文入选AAAI 2026

    11月8日,全球人工智能顶会 AAAI 2026 公布论文录用结果,Nullmax 研发团队的端到端轨迹规划论文成功入选。该论文创新提出一种
    的头像 发表于 11-12 10:53 601次阅读

    如何挑选人脸识别终端?人脸识别一体机品牌排行榜

    挑选人脸识别终端时需要注意稳定性、人脸识别算法可靠性、兼容性、安全性、软件管理、维护与安装以及产品外观与价格等多个因素。另外,在挑选
    的头像 发表于 08-18 10:44 1620次阅读
    如何挑选<b class='flag-5'>人脸</b><b class='flag-5'>识别</b>终端?<b class='flag-5'>人脸</b><b class='flag-5'>识别</b>一体机品牌排行榜

    人脸方向识别算法

    人脸识别
    深蕾半导体
    发布于 :2025年07月22日 09:58:29

    理想汽车八篇论文入选ICCV 2025

    近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,理想汽车共有8篇论文入选,其中5篇来自自动驾驶团队,3篇来自基座模型团队。ICCV作为计算机视觉领域的顶级学术会议,每两
    的头像 发表于 07-03 13:58 868次阅读

    基于LockAI视觉识别模块:C++人脸识别

    与已知人脸数据库中的数据比对来确认个人身份。被广泛应用于安全监控、门禁系统、移动设备解锁及社交媒体等领域。 1.2 人脸识别常用方法
    发表于 07-01 12:01

    后摩智能四篇论文入选三大国际顶会

    2025 年上半年,继年初被 AAAI、ICLR、DAC 三大国际顶会收录 5 篇论文后,后摩智能近期又有 4 篇论文入选CVPR、ICML、ACL三大国际顶会,面向大模型的编码、量化
    的头像 发表于 05-29 15:37 1113次阅读

    筑牢人脸信息安全防线|安全芯片如何赋能《人脸识别技术应用安全管理办法》落地

    一、政策背景人脸识别安全挑战催生技术变革近日《人脸识别技术应用安全管理办法》(以下简称《办法》)正式公布,并自2025年6月1日起施行。该《
    的头像 发表于 04-28 09:33 1352次阅读
    筑牢<b class='flag-5'>人脸</b>信息<b class='flag-5'>安全</b>防线|<b class='flag-5'>安全</b>芯片如何赋能《<b class='flag-5'>人脸</b><b class='flag-5'>识别</b>技术应用<b class='flag-5'>安全</b>管理办法》落地

    后摩智能5篇论文入选国际顶会

    2025年伊始,后摩智能在三大国际顶会(AAAI、ICLR、DAC)中斩获佳绩,共有5篇论文被收录,覆盖大语言模型(LLM)推理优化、模型量化、硬件加速等前沿方向。
    的头像 发表于 02-19 14:02 1222次阅读
    后摩智能5篇<b class='flag-5'>论文</b><b class='flag-5'>入选</b>国际顶会

    人脸识别技术在安全监控中的应用

    在现代社会,安全监控是维护公共安全和社会秩序的重要手段。随着技术的进步,传统的监控手段已经无法满足日益增长的安全需求。人脸识别技术作为一种新
    的头像 发表于 02-06 17:25 1586次阅读

    人脸识别技术的应用场景

    领域人脸识别技术被用来监控和预防犯罪。通过在公共场所安装摄像头,结合人脸识别系统,可以实时识别
    的头像 发表于 02-06 17:20 3832次阅读

    校园人脸识别闸机通道的应用

    随着科技的飞速发展,人脸识别技术正逐步渗透到我们生活的各个领域,其中,教育领域的应用尤为引人注目。在校园内,人脸
    的头像 发表于 01-15 15:02 855次阅读
    校园<b class='flag-5'>人脸</b><b class='flag-5'>识别</b>闸机通道的应用