0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于视频流的自监督特征表达方法

5b9O_deeplearni 来源:深度学习大讲堂 2019-12-08 07:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

编者按:著名心理学家Paul Ekman和研究伙伴W.V.Friesen,通过对脸部肌肉动作与对应表情关系的研究,于1976年创制了“面部运动编码系统”,而利用微表情的“读心术”正是基于这一研究体系。由于该领域有限的数据集和高昂的标注成本,有监督学习的方法往往会导致模型过拟合。本文中,将为大家介绍中科院计算所VIPL组的CVPR2019新作:作者提出了一种基于视频流的自监督特征表达方法,通过利用巧妙的自监督约束信号, 得到提纯的面部动作特征用于微表情识别。

1.研究背景

面部运动编码系统 (FACS,Facial Action Coding System)从人脸解剖学的角度,定义了44个面部动作单元(Action Unit,简称AU)用于描述人脸局部区域的肌肉运动,如图1所示,AU9表示“皱鼻”,AU12表示“嘴角拉伸”。各种动作单元之间可以自由组合,对应不同的表情。如“AU4(降低眉毛)+AU5(上眼睑上升)+AU24(嘴唇相互按压)”这一组合对应“愤怒”这一情绪状态。

面部动作单元能够客观、精确、细粒度地描述人脸表情。然而昂贵的标注代价在很大程度上限制了AU识别问题的研究进展,其原因在于不同的AU分布在人脸的不同区域,表现为不同强度、不同尺度的细微变化。具体来说,为一分钟的人脸视频标注一个AU,需要耗费一名AU标注专家30分钟。目前学术界已发布的AU数据集只包含了有限的采集对象,以及有限的人脸图像(如2017年CMU发布的GFT数据集有96个人,约35,000张人脸图像)。

图1. 面部动作单元示例

当前已有的工作多采用人脸区域分块、注意力机制等方法学习人脸局部区域的AU特征,这类方法在训练阶段需要利用精确标注的AU标签,由于目前业界发布的AU数据集人数及图像总量不足,采用监督学习方法训练得到的模型往往呈现出在特定数据集上的过拟合现象,这无疑限制了其实际使用效果。

我们提出了一种能够在不依赖AU标签的前提下,从人脸视频数据中自动学习AU表征的方法(Twin-Cycle Autoencoder,简称TCAE)。TCAE用于后续的AU识别任务时,只需要利用训练数据训练一个分类器即可,显著减少了所需的训练数据,并提升了模型的泛化能力。

2.方法概述

如图2所示,该方法以两帧人脸图像(源图,目标图)之间的运动信息为监督信号,驱使模型提取出用于解码运动信息的图像特征。这个方法的理念在于,模型只有感知并理解了人脸图像中各个面部动作单元的状态(AU是否激活),才能够将源图的面部动作转换为目标图像的面部动作。

图2. TCAE 设计图

考虑到两帧人脸图像之间的运动信息包含了AU以及头部姿态的运动分量,TCAE通过利用巧妙的自监督约束信号,使得模型能够分离出AU变化引起的运动分量,以及头部姿态变化引起的运动分量,从而得到提纯的AU特征。与其他监督方法,TCAE可以利用大量的无标注人脸视频,这类视频是海量的。与半监督或者弱监督方法相比, TCAE采用了自监督信号进行模型训练,避免了对数据或者标签的分布做出任何假设。

3.算法详解

如图3所示,TCAE包含四个阶段,分别是特征解耦,图像重建,AU循环变换,以及姿态(pose)循环变换。

给定两张人脸图像,TCAE在特征解耦阶段使用编码器得到每张图像的AU特征以及姿态特征,随后,两帧图像的AU特征被送入AU解码器,用于解码出AU位移场;两帧图像的姿态特征被送入姿态解码器,用于解码出姿态位移场。考虑到AU的变化是稀疏的,且AU位移场的数值与姿态位移场相比更小,我们为AU位移场添加了L1约束:

在目标图重建阶段,TCAE通过线性组合AU位移场和pose位移场,得到源图和目标图之间的整体位移场,进行图像重建:

在AU循环变换阶段,仅变换了AU的人脸图像被重新变换到源图,由此我们获得一个像素层面的一致性约束:

另外,对于变换了AU的人脸图像,其AU特征应该接近目标图像的AU特征,其姿态特征应该和源图的姿态特征一致,由此我们获得一个特征层面的一致性约束:

同理,在pose循环变化阶段,我们同样可以获得类似的像素及特征层面的一致性约束:

图3. TCAE的四个阶段示意图,四个阶段分别是特征解耦,图像重建,AU循环变换,以及pose循环变换。

4.实验结果

多个数据集上的实验证明,TCAE能够成功提取出人脸图像的AU及姿态特征。如图4所示,给定两张人脸图像(源图,目标图),TCAE能够仅仅改变源图的AU或者头部姿态。可视化的AU位移场呈现出运动方向的多样性。

在AU识别任务上,TCAE取得了与监督方法可比的性能。表1及表2的结果表明,TCAE明显优于其他自监督方法。在GFT数据集(该数据集存在大范围的头部姿态变化)上,TCAE的性能优于其他监督方法。

图4. 可视化结果

表1. BP4D及DISFA数据集评测结果

(评测标准:F1 值 (%))

表2. GFT及EmotioNet数据集评测结果

(评测标准:F1 值 (%) )

5.总结与展望

TCAE通过自监督的方法学习到了鲁棒的AU表征,实验证明该AU表征是鲁棒的,适用于AU分类任务的。可视化结果表明,TCAE具有潜在的人脸表情编辑价值。另外,TCAE在训练阶段使用了大量的无标签数据(近6000人,约10,000,000张图像),由此可见使用自监督方法训练模型时数据利用的效率需要进一步提高,这一点在BERT的实验分析中也得到了印证:Good results on pre-training is >1,000x to 100,000 more expensive than supervised training。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1202

    浏览量

    42859
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42154
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:【CVPR2019】“识面知心”——基于自监督学习的微表情特征表达

文章出处:【微信号:deeplearningclass,微信公众号:深度学习大讲堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    指令集测试的一种纠错方法

    本文描述在进行指令集测试的一种纠错方法 1.打开测试指令集对应的dump文件 dump文件是指由汇编文件进行反汇编之后,可以供人阅读指令的反汇编文件。其包含了每条指令的具体操作的信息。指令集测试
    发表于 10-24 14:04

    一种新的无刷直流电机反电动势检测方法

    无位置传感器无刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用无刷直流电机的数学模型,根据反电动势检测原理,提出了一种新的线反电动势检测方法
    发表于 08-07 14:29

    一种新的无刷直流电机反电动势检测方法

    无位置传感器无刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用无刷直流电机的数学模型,根据反电动势检测原理,提出了一种新的线反电动势检测方法
    发表于 08-04 14:59

    一种基于PWM的电压输出DAC电路设计

    误差的方法,论文给出了两从PWM到0~5V电压输出的电路实现方法,第2电路具有很高的转换精度。 纯分享帖,点击下方附件免费获取完整资料~~~ 内容有帮助可以关注、点赞、评论支
    发表于 08-04 14:58

    一种带通滤波器在无位置传感器转子检测中的应用

    摘 要:论文研究了一种直流无刷电机的无位置传感器的转子位置的硬件电路检测方法。结合传统“反电动势\"方法,分析并设计了一种新的带通滤波器延时检测电路。该电路不仅可以抑制高频分量和消除直
    发表于 08-04 14:56

    一种无序超均匀固体器件的网格优化方法

    近日,天津大学精密仪器与光电子工程学院的光子芯片实验室研发了一种无序超均匀固体器件的网格优化方法,成果获中国发明专利(ZL202410659505.2)授权。
    的头像 发表于 07-28 16:10 727次阅读
    <b class='flag-5'>一种</b>无序超均匀固体器件的网格优化<b class='flag-5'>方法</b>

    如何保存al视频中的帧照片?

    如何保存al视频中的帧照片
    发表于 07-11 08:07

    使用MATLAB进行无监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1174次阅读
    使用MATLAB进行无<b class='flag-5'>监督</b>学习

    FCX3上的视频乱码怎么解决?

    我们在使用 CX3 和 1.3.5 EzUSB SDK 运行视频传感器时遇到了些间歇性问题。 打开视频任意时间后,视频
    发表于 05-16 07:32

    一种实时多线程VSLAM框架vS-Graphs介绍

    针对现有VSLAM系统语义表达不足、地图可解释性差的问题,本文提出vS-Graphs,一种实时多线程VSLAM框架。该方案显著提升了重建地图的语义丰富度、可解释性及定位精度。实验表明
    的头像 发表于 04-19 14:07 721次阅读
    <b class='flag-5'>一种</b>实时多线程VSLAM框架vS-Graphs介绍

    一种永磁电机用转子组件制作方法

    一种永磁电机所使用的转子组件,是由磁钢与芯轴组装而成,产品工作转速80 000 r /mi n,磁钢相对于芯轴的同轴度要小于O.015 mm。现有的装配方法是:先在芯轴两端面制作中心孔,然后直接
    发表于 03-25 15:20

    一种基于点、线和消失点特征的单目SLAM系统设计

    本文提出了一种稳健的单目视觉SLAM系统,该系统同时利用点、线和消失点特征来进行精确的相机位姿估计和地图构建,有效解决了传统基于点特征的SLAM的局限性。
    的头像 发表于 03-21 17:07 833次阅读
    <b class='flag-5'>一种</b>基于点、线和消失点<b class='flag-5'>特征</b>的单目SLAM系统设计

    一种基于基础模型对齐的监督三维空间理解方法

    三维空间理解是推动自动驾驶、具身智能等领域中智能系统实现环境感知、交互的核心任务,其中3D语义占据预测 (Semantic Occupancy Prediction) 对三维场景进行精准的体素级建模。然而,当前主流方法严重依赖大规模标注数据,制约了模型的可扩展性和泛化能力。
    的头像 发表于 03-18 15:01 740次阅读
    <b class='flag-5'>一种</b>基于基础模型对齐的<b class='flag-5'>自</b><b class='flag-5'>监督</b>三维空间理解<b class='flag-5'>方法</b>

    纸基微控芯片的加工方法和优势

    纸基微控芯片的加工方法主要包括激光切割、压印技术、喷墨打印技术、层压技术和表面改性技术等。以下是这些加工方法的具体介绍: 激光切割 激光切割是一种利用激光束对材料进行切削的加工
    的头像 发表于 02-26 15:15 804次阅读

    一种降低VIO/VSLAM系统漂移的新方法

    本文提出了一种方法,通过使用点到平面匹配将VIO/VSLAM系统生成的稀疏3D点云与数字孪生体进行对齐,从而实现精确且全球致的定位,无需视觉数据关联。所提方法为VIO/VSLAM系
    的头像 发表于 12-13 11:18 1182次阅读
    <b class='flag-5'>一种</b>降低VIO/VSLAM系统漂移的新<b class='flag-5'>方法</b>