0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

博士生范丽凤可让机器识别视频人物的心智想法

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2021-06-23 14:15 次阅读

这几天,计算机视觉和模式识别领域的顶级会议 CVPR 2021(Computer Vision and Pattern Recognition)正在火热进行中,刚刚从加州大学洛杉矶分校(UCLA)博士毕业的石家庄女生范丽凤,提及此次被录用的论文表示:“在 CV 和 AI 领域,中国人的贡献和力量是毋庸置疑和不容小觑的。”

在最终评审中她获得了接近满分的成绩,三位审稿人中两位给了 “Strong Accept”,一位给了 “Accept”。

范丽凤是计算机视觉大牛朱松纯教授的博士生。2020 年,朱松纯全职回国并入职北大,还牵头成立了北京通用人工智能研究院,一度曾在国内引起过热议。

最近刚刚博士毕业的范丽凤也即将跟随导师朱松纯教授回国工作,其表示:“朱老师肯定希望我们可以回去支持国内的 AI 事业,我自己也觉得国内有巨大的发展空间,也更喜欢国内的文化环境,并且在朱老师的研究院我还可以继续推进一直以来的研究工作,这是一个很好的机遇。”

范丽凤本科和博士期间学的都是统计学。2012 年,她从河北辛集中学考入浙江大学数学科学学院,主修统计学,在四年的本科学习训练中掌握了统计建模和编程实现的基本能力。

2015 年大三暑假,她参加了 UCLA-CSST 暑期科研训练项目,在 Hongjing Lu 教授(UCLA 心理系和统计系教授)的指导下开展了一项关于动作识别的研究。自那时起,范丽凤开始对计算机视觉产生了浓厚的兴趣。

项目快结束时,她特意写邮件并去实验室拜访了时任 UCLA 统计系和计算机科学系教授的朱松纯。经过交谈,朱教授鼓励她多读实验室的相关论文、多学点计算机视觉的基础课程,为进行科研打下坚实的基础。

回到浙大后,范丽凤利用大四的时间,积极主动修习了计算机视觉的相关课程,阅读了一些基础的专业书籍和论文。经过再三考虑,她下定决心申请了朱教授的博士,最终如愿获得了录取,来到 UCLA VCLA 实验室进行了为期五年的博士生科研训练,获得了巨大的成长。

基于真实视频,研究高级 AI 任务

谈及本次论文的立项原因,她表示是因为朱教授一直都在鼓励她做更难、更有挑战性和前瞻性的工作。

虽然近几年得益于深度学习,计算机视觉领域获得了突破性的进展,但大多研究都还是在解决比较底层的任务,比如人脸识别、动作识别等等,而更高级的任务,比如心智理论建模等等,还远未得到解决。

现有的解决更高层次任务的尝试,也大都不是基于真实视频:比如,有一些工作在 2D 网格状世界里面进行基于强化学习的理论建模研究,有一些工作则在简单游戏中进行多智能体的交互博弈策略优化,对游戏中涉及到的多智能体心智理论进行建模研究。

范丽凤说上述两类研究中,一类是基于真实视频做低层次任务,另一类虽然在做高层次任务,但目前还只是停留在简单模拟环境或博弈游戏中。

而她的研究则弥补了这个空缺,在真实视频上进行复杂的心智建模,推测视频背后人物的心智活动。

基于 “共同心智” 提出 “五心” 模型

范丽凤说,自然语言处理(Natural Language Processing)目前已经是一个非常成熟的研究领域,高级人工智能的实现当然离不开自然语言处理技术的进步;但非语言交流(nonverbal communication)在人与人的社会交互中也扮演着十分重要的角色,传递着丰富的信息,是对语言交流的很好补充。

这里,非语言交流指的是除自然语言之外的所有其它交流形式,比如眼神、身体体态和空间朝向、头部姿势以及手势等等。

通过让机器从视频中学习非语言交流背后的三元信念动态变化(Triadic Belief Dynamics),就可以破解非语言交流的密码,捕捉到这些隐含的丰富的社会交互信息。

结合不同的非语言交流信号,范丽凤的工作对纯视频输入中人与人的社会交互以及背后的动态信念变化进行了建模学习和推断,并基于 “共同心智” 提出了 “五心”(“five minds”)模型。

“五心” 具体指的是什么呢?当 A、B 两个人在一个空间交流时,A 对于世界有自己的看法和认知,这是他自己的大脑 M1, B 也有一个自己的大脑 M2;

同时,A 对 B 的大脑 M2 有一个模拟估计的大脑 M12,B 也有对 A 的大脑 M1 有自己的估计 M21;

此外,A 和 B 所共享的那些 “透明” 的信息则被称为两个人的共同心智(common mind),记为 Mc。这便是 “五心” 模型的五个 “心”(mind)。

心智理论比较关心信念(belief)、注意力(attention)和意图(intention)等模块,当前的 “五心” 模型主要研究了信念(belief)这一心智模块。

也就是说,范丽凤的工作主要研究了在社会交互过程中两个人对于世界认知信念的动态变化。

基于贝叶斯能量模型,使用图结构解析社交视频

范丽凤为研究这个任务,专门拍摄收集了一个数据集,并进行了全面丰富的标注。目前该数据集已经在 GitHub 上公开。

范丽凤提出了一个基于贝叶斯的能量模型来解决五心模型中信念动态变化的学习和推测问题,通过对视频构建一个六层的解析图,来分层次地解析视频中的社会交互场景。

在这个六层的解析图中,最底层是检测到的人和物体以及提取出来的关键特征;这些人和物体组成视频的每一帧;再往上一层,是视频时序上的分段;

再往上,可以知道在每一段中发生的具体的交流事件的类型(一共有三种基本交流事件,分别是 no communication, attention following 和 joint attention);

继续往上一层,是相应的交流事件导致了什么样的信念变化(一共有四种基本的信念变化,分别是 occur, disappear, update 和 null)。

通过这样一个多层次的解析图,就从底层的模式识别进入到了高层次的认知理解。因为机器还无法达到人类的智能高度,无法直接感知到模式背后的心智变化,必须从最底层的模式识别(比如物体识别和人体识别)开始,然后慢慢往上推,往更高层的任务去走。

如此就能知道这些检测到的人和物体合起来发生了怎样的相对交互,具体发生了怎样的交流事件,以及导致了怎样的信念变化。

范丽凤说,她的工作正是这样由低到高地使用图结构去解析社交视频。在实验中,范丽凤提出的模型获得了比其他方法更好的信念动态变化预测表现。

在社交互动视频的总结摘要上表现较好

当前的视频总结摘要大多基于比较表面的模式识别来提取视频关键帧,这样的方法在一些简单的视频中比较奏效,比如一个人坐下、站起来、走路,当前的做法可以区分不同的动作,从而提出比较好的视频总结。

但是一旦涉及到有更加丰富复杂的社会交互视频时,当前的做法可能就不如五心模型表现好。

因为,在这样的视频中基于人物的心智变化比基于底层的特征变化能更加准确地捕捉、概括到故事的语义精髓。 比如在一段丰富的社会交互视频中,人物可能有很多动作,但那不是这个故事的最关键的内容,如果按照这些底层特征来提取关键帧,结果可能是冗余且不关键的。

相较于底层的特征变化,人物在这个过程中心智发生了变化的那些时刻才是语义更丰富更核心的内容,基于这些提出的关键帧自然能更好地传达这个视频故事的本质。

范丽凤的工作给出了定性比较实验和人类评价实验,结果均证明了五心模型在丰富社会交互视频摘要任务上的优势。

当机器看见你、理解你

范丽凤告诉 DeepTech,人工智能真的要发展,肯定要做更难的任务。当前的人脸识别等底层任务并不能满足我们对于视频的深度理解的要求。

除了识别一个人是谁,科学家们还想让机器学会识别视频中人物的心智想法。

比如,以经典暑期剧《西游记》为例,正常人类看到孙悟空的表情再结合剧情,瞬间就能判断他看到了什么、在想什么、以及预测出他接下来要做什么。

虽然人类观众可以瞬间就能挖掘到这些隐含的信息,但如果让此前的计算机视觉模型来做,结果大概还只是相当于人类的婴儿阶段。所以要实现更高水平的通用人工智能,仍然是任重而道远。

在应用方面,“五心” 模型除了能帮助机器更深地理解视频,还可以提出更准确的视频摘要。比如在处理海量视频时,可把其精简成几帧总结,这样用户只需观看浓缩视频,就能基本了解全部视频信息,从而节省更多时间。

此外,“五心” 模型还有一些其它潜在的应用,比如给视频生成更好的文字描述解说,帮助用户快速掌握视频内容等等。

今年27岁的范丽凤谈及未来即将到北京和朱松纯老师一起工作,她表示十分期待,北京是一个充满魅力的城市,她非常希望能够这里投身到中国这一波人工智能发展浪潮之中,开创出属于自己的事业!

原文标题:90海归女生CVPR论文几近满分,可让机器识别视频人物的心智想法,即将追随导师朱松纯回国发展 | 专访

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    6652

    浏览量

    84573
  • AI
    AI
    +关注

    关注

    87

    文章

    26473

    浏览量

    264107
  • 人工智能
    +关注

    关注

    1776

    文章

    43899

    浏览量

    230647

原文标题:90海归女生CVPR论文几近满分,可让机器识别视频人物的心智想法,即将追随导师朱松纯回国发展 | 专访

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    毕超博士:基于RISC-V的机器人电机控制芯片

    机器人电机控制芯片”主题演讲。峰岹科技首席技术官毕超博士一、机器人对电机控制芯片的挑战很多人希望了解,电机控制和机器人控制到底有什么区别?它们的内在联系是什么?
    的头像 发表于 04-03 08:14 1168次阅读
    毕超<b class='flag-5'>博士</b>:基于RISC-V的<b class='flag-5'>机器</b>人电机控制芯片

    博士生团队提升Apple Silicon芯片神经网络性能

     据悉,该项目主要由博士生特里斯坦·比洛特(Tristan Bilot)、弗朗切斯科·法里纳(Francesco Farina)以及MLX团队联手推动。MLX是专门面向Apple Silicon发行的图形神经网络库。
    的头像 发表于 02-21 14:18 158次阅读

    用于机器人物识别和滑动检测的磁敏触觉传感器

    据麦姆斯咨询报道,近日,中国科学院空天信息创新研究院陈嘉民研究团队开发了一种柔性磁敏触觉传感器,这种传感器模仿了人类皮肤毛发的结构,能够精确地感知接触力,在机器人物识别和滑动检测方面表现出色,开启了智能机器人感知世界的新篇章。
    的头像 发表于 01-26 10:23 719次阅读
    用于<b class='flag-5'>机器人物</b>体<b class='flag-5'>识别</b>和滑动检测的磁敏触觉传感器

    ChatGPT入选自然杂志年度十大人物

    在《自然》的2023年度十大人物榜单中发现,除了从全球的重大科学事件中评选出的十位人物,还有一个非常火爆的事情,ChatGPT上榜。同时OpenAI的首席科学家、人工智能先驱伊利亚
    的头像 发表于 12-14 19:05 693次阅读

    NVIDIA 向博士生颁发 6 万美元研究奖学金

    多年来, NVIDIA 研究生奖学金计划 一直在为 NVIDIA 技术相关的杰出工作提供支持。日前,该计划宣布向参与研究的 10 名博士生颁发每人高达 6 万美元的奖学金,他们的研究范围涵盖了所有计算创新领域。 这 10 位获奖者从诸多优秀申请人中脱颖而出,他们将在该奖学金年度
    的头像 发表于 12-11 21:15 438次阅读

    什么是AI视频识别分析

    视频AI识别分析是指利用人工智能技术对视频数据进行智能化检测、分析和提取有用信息的过程。通过视频AI分析,可以自动化地识别、检测和理解
    的头像 发表于 12-02 08:26 868次阅读
    什么是AI<b class='flag-5'>视频</b><b class='flag-5'>识别</b>分析

    进博人物 | 西井张波博士团队在泰国乘“出海”之风,破“数智”之浪

    西井科技的全时无人驾驶新能源商用车Q-Truck 开始穿梭作业于这一港口的新建码头Terminal D。彼时,西井科技高级副总裁张波博士率领团队第一次出海。 这是一支平均年龄不足30岁的团队,但他们拥有出色的学习能力、执行力和合作精神,同时具备国际化的视
    的头像 发表于 11-02 19:25 429次阅读

    机器识别指纹与人工识别指纹的区别与联系

    发表于 11-02 08:34 0次下载
    <b class='flag-5'>机器识别</b>指纹与人工<b class='flag-5'>识别</b>指纹的区别与联系

    ChatGPT真的产生心智了吗?ChatGPT是如何产生心智的?

    来自斯坦福大学的最新研究结论,一经发出就造成了学术圈的轰动,“原本认为是人类独有的心智理论(Theory of Mind,ToM),已经出现在ChatGPT背后的AI模型上”。
    的头像 发表于 10-19 09:58 564次阅读
    ChatGPT真的产生<b class='flag-5'>心智</b>了吗?ChatGPT是如何产生<b class='flag-5'>心智</b>的?

    航顺HK32MCU在长虹卫博士智能扫吸机器人上的应用

    航顺HK32MCU在长虹卫博士智能扫吸机器人上的应用
    的头像 发表于 09-27 15:27 421次阅读
    航顺HK32MCU在长虹卫<b class='flag-5'>博士</b>智能扫吸<b class='flag-5'>机器</b>人上的应用

    基于Keras在NuMicro M480系列微控制器上实施汽车牌照识别

    提供给数学数据模型,可以分为监督、不受监督和强化学习。机器学习的想法几乎可以在每一个领域实现;社交媒体特写、互联网产品建议、图像识别和语言翻译都是机器学习的范例。 与支持
    发表于 08-29 06:46

    nuc505 demo板在设备管理器识别不出仿真器驱动是为什么?

    刚拿到新唐nuc505 demo板,升级官网上的最新的Nu-Link_Keil_Driver 1.28.6386和NuMicro ICP Programming Tool 1.28.6386驱动后,在设备管理器识别不出仿真器驱动来,完全不知道缺少什么驱动文件,
    发表于 08-24 07:09

    卷积神经网络用于图像识别的原理

    机器视觉领域,图像识别是指软件识别人物、场景、物体、动作和图像写入的能力。为了实现图像识别,计算机可以结合人工智能软件和摄像机使用机器视觉
    发表于 08-20 09:56 900次阅读
    卷积神经网络用于图像<b class='flag-5'>识别</b>的原理

    机器视觉与生物特征识别的关系

    生物信息的学习和分析,通过特定传感器识别人体独有特征并进行认证和识别。这两个领域之间存在着千丝万缕的联系,因此两者的结合可以产生一些非常有用的应用。 机器视觉是通过摄像头、扫描仪等设备采集图像信息,并利用算法
    的头像 发表于 08-09 17:43 498次阅读

    伟景智能:为机器人赋予“慧眼”,推动机器人“自然学习”

    “在我们创业的时候,那时的机器视觉领域普遍是应用在工业生产流水线上的平面视觉,生产线中的瑕疵检测被很多厂家作为经典案例,例如宣传自己的精度、识别率、识别速度等,然而面对更为复杂的场景,如自动驾驶等需要
    的头像 发表于 05-18 10:08 548次阅读