0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVPR2019新作:一种基于视频流的自监督特征表达方法

nlfO_thejiangme 来源:lq 2019-10-01 16:31 次阅读

本文为新栏目——将门好声音第5期。

作者是来自将门计算机视觉社群的群友、中科院计算技术研究所VIPL课题组博士生——李勇。本文中,他将为大家介绍中科院计算所VIPL组的CVPR2019新作:一种基于视频流的自监督特征表达方法,通过利用巧妙的自监督约束信号,得到提纯的面部动作特征用于微表情识别。

如果你也想与广大群友分享自己的研究工作、文章观点、出坑经验,随时与群主小姐姐联系!只要内容合适,我“门”送你头条出道!

著名心理学家Paul Ekman和研究伙伴W.V.Friesen,通过对脸部肌肉动作与对应表情关系的研究,于1976年创制了“面部运动编码系统”,而利用微表情的“读心术”正是基于这一研究体系。由于该领域有限的数据集和高昂的标注成本,有监督学习的方法往往会导致模型过拟合。本文中,将为大家介绍中科院计算所VIPL组的CVPR2019新作:作者提出了一种基于视频流的自监督特征表达方法,通过利用巧妙的自监督约束信号,得到提纯的面部动作特征用于微表情识别。

李勇,中国科学院计算技术研究所视觉信息处理与课题组博士研究生,导师为常虹副研究员以及山世光研究员,研究方向为开放场景下的人脸表情分析。在攻读博士学位期间,李勇在 CVPR, TIP 等会议及期刊上发表过多篇学术论文,其已发表的会议文章均被录取为口头报告。此外,李勇获得ACM Multimedia 2017 亲属关系识别国际竞赛冠军。

论文信息:

Yong Li, Jiabei Zeng, Shiguang Shan, Xilin Chen. “Self-Supervised Representation Learning From Videos for Facial Action Unit Detection”, CVPR 2019, pp. 10924-10933, Long Beach, California, USA, June 16-20, 2019.

论文链接:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Self-Supervised_Representation_Learning_From_Videos_for_Facial_Action_Unit_Detection_CVPR_2019_paper.pdf

一、研究背景

面部运动编码系统(FACS,Facial Action Coding System)从人脸解剖学的角度,定义了44个面部动作单元(Action Unit,简称AU)用于描述人脸局部区域的肌肉运动。

图1. 面部动作单元示例

如图1所示,AU9表示“皱鼻”,AU12表示“嘴角拉伸”。各种动作单元之间可以自由组合,对应不同的表情。如“AU4(降低眉毛)+AU5(上眼睑上升)+AU24(嘴唇相互按压)”这一组合对应“愤怒”这一情绪状态。

面部动作单元能够客观、精确、细粒度地描述人脸表情。然而昂贵的标注代价在很大程度上限制了AU识别问题的研究进展,其原因在于不同的AU分布在人脸的不同区域,表现为不同强度、不同尺度的细微变化。具体来说,为一分钟的人脸视频标注一个AU,需要耗费一名AU标注专家30分钟。目前学术界已发布的AU数据集只包含了有限的采集对象,以及有限的人脸图像(如2017年CMU发布的GFT数据集有96个人,约35,000张人脸图像)。

当前已有的工作多采用人脸区域分块、注意力机制等方法学习人脸局部区域的AU特征,这类方法在训练阶段需要利用精确标注的AU标签,由于目前业界发布的AU数据集人数及图像总量不足,采用监督学习方法训练得到的模型往往呈现出在特定数据集上的过拟合现象,这无疑限制了其实际使用效果。

我们提出了一种能够在不依赖AU标签的前提下,从人脸视频数据中自动学习AU表征的方法(Twin-Cycle Autoencoder,简称TCAE)。TCAE用于后续的AU识别任务时,只需要利用训练数据训练一个分类器即可,显著减少了所需的训练数据,并提升了模型的泛化能力。

二、方法概述

如图2所示,该方法以两帧人脸图像(源图,目标图)之间的运动信息为监督信号,驱使模型提取出用于解码运动信息的图像特征。这个方法的理念在于,模型只有感知并理解了人脸图像中各个面部动作单元的状态(AU是否激活),才能够将源图的面部动作转换为目标图像的面部动作。

图2. TCAE 设计图

考虑到两帧人脸图像之间的运动信息包含了AU以及头部姿态的运动分量,TCAE通过利用巧妙的自监督约束信号,使得模型能够分离出AU变化引起的运动分量,以及头部姿态变化引起的运动分量,从而得到提纯的AU特征。与其他监督方法,TCAE可以利用大量的无标注人脸视频,这类视频是海量的。与半监督或者弱监督方法相比, TCAE采用了自监督信号进行模型训练,避免了对数据或者标签的分布做出任何假设。

三、算法详解

如图3所示,TCAE包含四个阶段,分别是特征解耦,图像重建,AU循环变换,以及姿态(pose)循环变换。

图3. TCAE的四个阶段示意图,四个阶段分别是特征解耦,图像重建,AU循环变换,以及姿态循环变换。

给定两张人脸图像,TCAE在特征解耦阶段使用编码器得到每张图像的AU特征以及姿态特征,随后,两帧图像的AU特征被送入AU解码器,用于解码出AU位移场;两帧图像的姿态特征被送入姿态解码器,用于解码出姿态位移场。考虑到AU的变化是稀疏的,且AU位移场的数值与姿态位移场相比更小,我们为AU位移场添加了L1约束:

在目标图重建阶段,TCAE通过线性组合AU位移场和pose位移场,得到源图和目标图之间的整体位移场,进行图像重建:

在AU循环变换阶段,仅变换了AU的人脸图像被重新变换到源图,由此我们获得一个像素层面的一致性约束:

另外,对于变换了AU的人脸图像,其AU特征应该接近目标图像的AU特征,其姿态特征应该和源图的姿态特征一致,由此我们获得一个特征层面的一致性约束:

同理,在pose循环变化阶段,我们同样可以获得类似的像素及特征层面的一致性约束:

四、实验结果

多个数据集上的实验证明,TCAE能够成功提取出人脸图像的AU及姿态特征。如图4所示,给定两张人脸图像(源图,目标图),TCAE能够仅仅改变源图的AU或者头部姿态。可视化的AU位移场呈现出运动方向的多样性。

图4. 可视化结果在AU识别任务上,TCAE取得了与监督方法可比的性能。

表1及表2的结果表明,TCAE明显优于其他自监督方法。在GFT数据集(该数据集存在大范围的头部姿态变化)上,TCAE的性能优于其他监督方法。

表1. BP4D及DISFA数据集评测结果

(评测标准:F1 值 (%))

表2. GFT及EmotioNet数据集评测结果(评测标准:F1 值 (%) )

五、总结与展望

TCAE通过自监督的方法学习到了鲁棒的AU表征,实验证明该AU表征是鲁棒的,适用于AU分类任务的。可视化结果表明,TCAE具有潜在的人脸表情编辑价值。另外,TCAE在训练阶段使用了大量的无标签数据(近6000人,约10,000,000张图像),由此可见使用自监督方法训练模型时数据利用的效率需要进一步提高,这一点在BERT的实验分析中也得到了印证:

Good results on pre-training is 》1,000x to 100,000 more expensive than supervised training.

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1575

    浏览量

    45555
  • 视频数据
    +关注

    关注

    0

    文章

    17

    浏览量

    10932
  • 数据集
    +关注

    关注

    4

    文章

    1174

    浏览量

    24285

原文标题:将门好声音 | CVPR2019 “识面知心”——基于自监督学习的微表情特征表达

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    语言模型的弱监督视频异常检测方法

    了局部Transformer的mask,从时序上将输入视频特征分割为多个等长块,令自注意力计算局限于块内,减少了冗余信息建模,降低计算复杂度。
    的头像 发表于 01-02 15:20 202次阅读
    语言模型的弱<b class='flag-5'>监督</b><b class='flag-5'>视频</b>异常检测<b class='flag-5'>方法</b>

    基于神经辐射场的自监督多相机占用预测

    本研究提出了一种监督的多摄相机3D占据预测方法,名为OccNeRF。该方法旨在解决无界场景的建模问题。
    的头像 发表于 01-02 14:53 164次阅读
    基于神经辐射场的自<b class='flag-5'>监督</b>多相机占用预测

    基于transformer和自监督学习的路面异常检测方法分享

    铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法,有助于定位异常区域。
    的头像 发表于 12-06 14:57 686次阅读
    基于transformer和自<b class='flag-5'>监督</b>学习的路面异常检测<b class='flag-5'>方法</b>分享

    一种利用几何信息的自监督单目深度估计框架

    本文方法一种监督的单目深度估计框架,名为GasMono,专门设计用于室内场景。本方法通过应用多视图几何的方式解决了室内场景中帧间大旋转和低纹理导致自
    发表于 11-06 11:47 153次阅读
    <b class='flag-5'>一种</b>利用几何信息的自<b class='flag-5'>监督</b>单目深度估计框架

    Java Lambda表达式的新特性

    Java Lambda表达式是Java 8中最重要的新特性之一。 它们是一种可传递的匿名函数,可以作为参数传递给方法或存储在变量中,因此可以在需要的时候调用它们。 基础 1. 简介 Lambda
    的头像 发表于 09-30 10:29 2265次阅读

    CVPR 2023 | 完全无监督视频物体分割 RCF

    TLDR: 视频分割一直是重标注的一个 task,这篇 CVPR 2023 文章研究了完全不需要标注的视频物体分割。仅使用 ResNet,RCF模型在 DAVIS16/STv2/FBMS59 上提升
    的头像 发表于 07-16 20:45 294次阅读
    <b class='flag-5'>CVPR</b> 2023 | 完全无<b class='flag-5'>监督</b>的<b class='flag-5'>视频</b>物体分割 RCF

    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

    本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。 简介 本文介绍了一种名为Side
    的头像 发表于 07-10 10:05 526次阅读
    <b class='flag-5'>CVPR</b> 2023 | 华科&amp;MSRA<b class='flag-5'>新作</b>:基于CLIP的轻量级开放词汇语义分割架构

    中国团队包揽CVPR 2021弱光人脸检测挑战赛前三名!高分论文已公开播

    CVPR 2021 UG2+挑战赛——弱光条件下(半)监督人脸检测赛道中,国内的「TAL-ai」团队以mAP 74.89的高分夺得第一,领先第
    的头像 发表于 07-02 15:35 297次阅读
    中国团队包揽<b class='flag-5'>CVPR</b> 2021弱光人脸检测挑战赛前三名!高分论文已公开播

    基于隐式表达的大规模三维建图的方法

    /PRBonn/SHINE_mapping    该工作提出了 一种基于隐式表达的大规模三维建图的方法 ,它利用分层八叉树的结构来存储可学习的局部特征,并通过共享的浅层MLP将局部
    的头像 发表于 06-27 11:01 469次阅读
    基于隐式<b class='flag-5'>表达</b>的大规模三维建图的<b class='flag-5'>方法</b>

    深兰团队已连续5年在CVPR挑战赛中斩获冠军

    ”的好成绩。自2019年起,深兰团队已经连续5年在CVPR挑战赛中有冠军斩获。 CVPR是计算机视觉领域的一个权威学术会议,由IEEE(Institute of Electrical and Electronics Engine
    的头像 发表于 06-26 11:11 319次阅读

    是否有一种方法可以使用Arduino的代码块IDE与ESP MCU起工作?

    你知道是否有一种方法可以使用 Arduino 的代码块 IDE 与 ESP MCU 起工作?Code Blocks 是个非常好的轻量级 IDE,已经适用于几乎所有的 Arduino 开发板。
    发表于 06-09 08:35

    是否有一种简单的方法将esp连接到openhab并发送特殊命令?

    嗨, (首先抱歉我的英语不好) 个月以来我直在玩 ESP,我真的很喜欢它! 但现在我想更进步,将 ESP 连接到 Openhab 并控制灯、RGB-LED 等。 所以我的问题:是否有一种
    发表于 05-24 08:14

    电源恒压恒和负载自适应电流是同一种电源吗?

    电源恒压恒和负载自适应电流是同一种电源吗?
    发表于 05-06 17:30

    使用Arduino和网络摄像头的基本视频

    非常喜欢 OctoPi 的基本视频功能但独立(不在所有 3D 打印 gubbins 中)。 TL:DR: 在个理想的世界中,我所追求的是一种通过 Arduino 通过 WiFi 从网络摄像头流式传输
    发表于 05-04 06:51

    一种控制Linux (Yocto) 的方法

    亲爱的团队,我的客户希望在 Wayland/Weston 支持下具有远程控制能力。你能推荐一种控制 Linux (Yocto) 的方法,比如 anydesk 吗?
    发表于 03-31 06:56