0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

博士生范丽凤可让机器识别视频人物的心智想法

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2021-06-23 14:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这几天,计算机视觉和模式识别领域的顶级会议 CVPR 2021(Computer Vision and Pattern Recognition)正在火热进行中,刚刚从加州大学洛杉矶分校(UCLA)博士毕业的石家庄女生范丽凤,提及此次被录用的论文表示:“在 CV 和 AI 领域,中国人的贡献和力量是毋庸置疑和不容小觑的。”

在最终评审中她获得了接近满分的成绩,三位审稿人中两位给了 “Strong Accept”,一位给了 “Accept”。

范丽凤是计算机视觉大牛朱松纯教授的博士生。2020 年,朱松纯全职回国并入职北大,还牵头成立了北京通用人工智能研究院,一度曾在国内引起过热议。

最近刚刚博士毕业的范丽凤也即将跟随导师朱松纯教授回国工作,其表示:“朱老师肯定希望我们可以回去支持国内的 AI 事业,我自己也觉得国内有巨大的发展空间,也更喜欢国内的文化环境,并且在朱老师的研究院我还可以继续推进一直以来的研究工作,这是一个很好的机遇。”

范丽凤本科和博士期间学的都是统计学。2012 年,她从河北辛集中学考入浙江大学数学科学学院,主修统计学,在四年的本科学习训练中掌握了统计建模和编程实现的基本能力。

2015 年大三暑假,她参加了 UCLA-CSST 暑期科研训练项目,在 Hongjing Lu 教授(UCLA 心理系和统计系教授)的指导下开展了一项关于动作识别的研究。自那时起,范丽凤开始对计算机视觉产生了浓厚的兴趣。

项目快结束时,她特意写邮件并去实验室拜访了时任 UCLA 统计系和计算机科学系教授的朱松纯。经过交谈,朱教授鼓励她多读实验室的相关论文、多学点计算机视觉的基础课程,为进行科研打下坚实的基础。

回到浙大后,范丽凤利用大四的时间,积极主动修习了计算机视觉的相关课程,阅读了一些基础的专业书籍和论文。经过再三考虑,她下定决心申请了朱教授的博士,最终如愿获得了录取,来到 UCLA VCLA 实验室进行了为期五年的博士生科研训练,获得了巨大的成长。

基于真实视频,研究高级 AI 任务

谈及本次论文的立项原因,她表示是因为朱教授一直都在鼓励她做更难、更有挑战性和前瞻性的工作。

虽然近几年得益于深度学习,计算机视觉领域获得了突破性的进展,但大多研究都还是在解决比较底层的任务,比如人脸识别、动作识别等等,而更高级的任务,比如心智理论建模等等,还远未得到解决。

现有的解决更高层次任务的尝试,也大都不是基于真实视频:比如,有一些工作在 2D 网格状世界里面进行基于强化学习的理论建模研究,有一些工作则在简单游戏中进行多智能体的交互博弈策略优化,对游戏中涉及到的多智能体心智理论进行建模研究。

范丽凤说上述两类研究中,一类是基于真实视频做低层次任务,另一类虽然在做高层次任务,但目前还只是停留在简单模拟环境或博弈游戏中。

而她的研究则弥补了这个空缺,在真实视频上进行复杂的心智建模,推测视频背后人物的心智活动。

基于 “共同心智” 提出 “五心” 模型

范丽凤说,自然语言处理(Natural Language Processing)目前已经是一个非常成熟的研究领域,高级人工智能的实现当然离不开自然语言处理技术的进步;但非语言交流(nonverbal communication)在人与人的社会交互中也扮演着十分重要的角色,传递着丰富的信息,是对语言交流的很好补充。

这里,非语言交流指的是除自然语言之外的所有其它交流形式,比如眼神、身体体态和空间朝向、头部姿势以及手势等等。

通过让机器从视频中学习非语言交流背后的三元信念动态变化(Triadic Belief Dynamics),就可以破解非语言交流的密码,捕捉到这些隐含的丰富的社会交互信息。

结合不同的非语言交流信号,范丽凤的工作对纯视频输入中人与人的社会交互以及背后的动态信念变化进行了建模学习和推断,并基于 “共同心智” 提出了 “五心”(“five minds”)模型。

“五心” 具体指的是什么呢?当 A、B 两个人在一个空间交流时,A 对于世界有自己的看法和认知,这是他自己的大脑 M1, B 也有一个自己的大脑 M2;

同时,A 对 B 的大脑 M2 有一个模拟估计的大脑 M12,B 也有对 A 的大脑 M1 有自己的估计 M21;

此外,A 和 B 所共享的那些 “透明” 的信息则被称为两个人的共同心智(common mind),记为 Mc。这便是 “五心” 模型的五个 “心”(mind)。

心智理论比较关心信念(belief)、注意力(attention)和意图(intention)等模块,当前的 “五心” 模型主要研究了信念(belief)这一心智模块。

也就是说,范丽凤的工作主要研究了在社会交互过程中两个人对于世界认知信念的动态变化。

基于贝叶斯能量模型,使用图结构解析社交视频

范丽凤为研究这个任务,专门拍摄收集了一个数据集,并进行了全面丰富的标注。目前该数据集已经在 GitHub 上公开。

范丽凤提出了一个基于贝叶斯的能量模型来解决五心模型中信念动态变化的学习和推测问题,通过对视频构建一个六层的解析图,来分层次地解析视频中的社会交互场景。

在这个六层的解析图中,最底层是检测到的人和物体以及提取出来的关键特征;这些人和物体组成视频的每一帧;再往上一层,是视频时序上的分段;

再往上,可以知道在每一段中发生的具体的交流事件的类型(一共有三种基本交流事件,分别是 no communication, attention following 和 joint attention);

继续往上一层,是相应的交流事件导致了什么样的信念变化(一共有四种基本的信念变化,分别是 occur, disappear, update 和 null)。

通过这样一个多层次的解析图,就从底层的模式识别进入到了高层次的认知理解。因为机器还无法达到人类的智能高度,无法直接感知到模式背后的心智变化,必须从最底层的模式识别(比如物体识别和人体识别)开始,然后慢慢往上推,往更高层的任务去走。

如此就能知道这些检测到的人和物体合起来发生了怎样的相对交互,具体发生了怎样的交流事件,以及导致了怎样的信念变化。

范丽凤说,她的工作正是这样由低到高地使用图结构去解析社交视频。在实验中,范丽凤提出的模型获得了比其他方法更好的信念动态变化预测表现。

在社交互动视频的总结摘要上表现较好

当前的视频总结摘要大多基于比较表面的模式识别来提取视频关键帧,这样的方法在一些简单的视频中比较奏效,比如一个人坐下、站起来、走路,当前的做法可以区分不同的动作,从而提出比较好的视频总结。

但是一旦涉及到有更加丰富复杂的社会交互视频时,当前的做法可能就不如五心模型表现好。

因为,在这样的视频中基于人物的心智变化比基于底层的特征变化能更加准确地捕捉、概括到故事的语义精髓。 比如在一段丰富的社会交互视频中,人物可能有很多动作,但那不是这个故事的最关键的内容,如果按照这些底层特征来提取关键帧,结果可能是冗余且不关键的。

相较于底层的特征变化,人物在这个过程中心智发生了变化的那些时刻才是语义更丰富更核心的内容,基于这些提出的关键帧自然能更好地传达这个视频故事的本质。

范丽凤的工作给出了定性比较实验和人类评价实验,结果均证明了五心模型在丰富社会交互视频摘要任务上的优势。

当机器看见你、理解你

范丽凤告诉 DeepTech,人工智能真的要发展,肯定要做更难的任务。当前的人脸识别等底层任务并不能满足我们对于视频的深度理解的要求。

除了识别一个人是谁,科学家们还想让机器学会识别视频中人物的心智想法。

比如,以经典暑期剧《西游记》为例,正常人类看到孙悟空的表情再结合剧情,瞬间就能判断他看到了什么、在想什么、以及预测出他接下来要做什么。

虽然人类观众可以瞬间就能挖掘到这些隐含的信息,但如果让此前的计算机视觉模型来做,结果大概还只是相当于人类的婴儿阶段。所以要实现更高水平的通用人工智能,仍然是任重而道远。

在应用方面,“五心” 模型除了能帮助机器更深地理解视频,还可以提出更准确的视频摘要。比如在处理海量视频时,可把其精简成几帧总结,这样用户只需观看浓缩视频,就能基本了解全部视频信息,从而节省更多时间。

此外,“五心” 模型还有一些其它潜在的应用,比如给视频生成更好的文字描述解说,帮助用户快速掌握视频内容等等。

今年27岁的范丽凤谈及未来即将到北京和朱松纯老师一起工作,她表示十分期待,北京是一个充满魅力的城市,她非常希望能够这里投身到中国这一波人工智能发展浪潮之中,开创出属于自己的事业!

原文标题:90海归女生CVPR论文几近满分,可让机器识别视频人物的心智想法,即将追随导师朱松纯回国发展 | 专访

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7764

    浏览量

    92680
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296547
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261497

原文标题:90海归女生CVPR论文几近满分,可让机器识别视频人物的心智想法,即将追随导师朱松纯回国发展 | 专访

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    CW32L012小型机器人控制评估板活动 四足机器人+智能小车 开箱评测

    一、评测前言 非常感谢CW32态社区,开源分享了许多比较好玩、优质的项目。这次活动都尾声了还能有幸申请购买到 四足机器人+小车-智能小车(套件数量不多)的评测套件,多谢C32态社区的大力支持
    发表于 11-24 23:44

    亿纬锂能受邀出席北大国际博士生学术论坛

    10月26日,北京大学“博雅材思”国际博士生学术论坛在燕园举行,亿纬锂能人力资源中心总监张清刚博士受邀出席,并发表《亿纬锂能材料学人才职业发展》专题报告。
    的头像 发表于 10-31 12:36 411次阅读

    中汽中心智能网联科技创新基地建设项目正式开工

    李春在致辞中表示,中汽中心智能网联科技创新基地落地东,是政企双方深度合作的重要成果,对加快推动区域产业转型升级、打造创新发展新引擎具有关键作用。期待双方继续携手并进,共同推动东丽区汽车产业实现跨越式发展。
    的头像 发表于 10-28 10:47 499次阅读

    中汽中心智能网联科技创新基地落户天津

    2025年9月12日,由中汽智能科技(天津)有限公司(以下简称“中汽智能科技”)主办的“2025年智能网联汽车技术发展论坛暨中汽中心智能网联科技创新基地启动仪式”(以下简称“论坛”)在天津成功举办。
    的头像 发表于 09-15 10:17 523次阅读

    AI视频识别系统的应用领域

    一、城市治理现代化 AI视频识别技术 正深度重构城市管理体系。在城市安防领域,系统通过行为模式分析实现异常事件主动预警,对人员聚集、异常滞留等场景进行智能识别;交通治理中实时监测车流密度、违法行为
    的头像 发表于 07-24 11:06 926次阅读

    山西大学实现一种压缩激光新型光源

    lasing through the parametric coupling”发表于物理学顶级期刊Physical Review Letters上。山西大学为第一单位和通讯单位。其中,山西大学光电研究所博士生
    的头像 发表于 07-17 09:44 303次阅读
    山西大学实现一种压缩激光新型光源

    云知声黄伟荣膺2024年度感动海淀文明人物

    近日,领潮向善丨2024“感动海淀”年度文明人物(集体)颁奖典礼在中关村展示中心颐和厅盛大举行。云知声智能科技股份有限公司(以下简称“云知声”)创始人&CEO黄伟博士凭借在智慧生活、智慧医疗等领域的杰出贡献,以及在科技创新中勤耕不辍的进取精神,荣膺2024年度感动海淀文明
    的头像 发表于 05-13 14:30 691次阅读

    edge浏览器识别 latex语法插件

    默认的浏览器是没有latex识别功能的,容易显示为乱码或者源码,无法正常识别。本插件需要在浏览器的扩展程序菜单下安装,能在edge下完美运行。本插件是免费插件。
    发表于 03-17 18:03 1次下载

    开关电源设计指南(完整版)

    了功率因数校正、印制电路设计、热设计、噪声控制和电磁干扰抑制等内容。 可供从事开关电源开发的工程技术人员参考使用,也可作为高等院校电力电子技术专业及相关专业高年级大学生、硕士博士生和教师的参考书使用。 (如果内容有帮助可以关注、点赞、评论支持一下哦~) 获取完整文档资
    发表于 03-17 14:18

    现代(Hyundai)机器人物联网平台可以实现什么功能

    现代(Hyundai)机器人物联网平台一般可以实现以下功能: 设备接入与管理 多协议接入 :支持多种通信协议如 MQTT、CoAP、HTTPS 等,以及多种网络类型包括 2G/3G/4G/5G
    的头像 发表于 02-08 16:05 478次阅读

    鸣荣登国家“卓越级智能工厂”首批名单

    近日,备受瞩目的国家工信部“卓越级智能工厂(第一批)项目名单”正式揭晓,新鸣集团凭借其“化纤全产业链协同智能工厂”项目成功入选,成为全国235家上榜企业之一。同时,新鸣也是浙江省内13家上榜企业
    的头像 发表于 01-20 10:34 709次阅读

    中微公司董事长尹志尧博士荣膺2024年度中国经济新闻人物

    凭借突出的行业贡献和杰出的影响力,中微公司董事长兼总经理尹志尧博士荣膺2024年度中国经济新闻人物(十大经济年度人物)。
    的头像 发表于 01-16 13:56 1421次阅读

    阿里妈妈“淘宝星辰·图视频”商用上线

    近日,阿里妈妈宣布其自研的淘宝星辰视频生成大模型已成功转化为商用级应用——淘宝星辰·图视频。这一创新性的AI工具现已正式对淘宝、天猫商家开放使用,标志着电商内容创作领域迈入了一个全新的智能化阶段
    的头像 发表于 01-16 10:43 1084次阅读

    聚焦AI语音!声扬科技张伟彬博士受邀为中山大学深圳校区师生作分享

    近日,声扬科技联合创始人、总经理张伟彬博士受邀前往中山大学深圳校区,为学校师生作“声纹识别技术及其产业化应用”主题分享。凭借深厚的专业知识,结合前沿的产业落地实践,张伟彬博士深入浅出地分享了声纹
    的头像 发表于 12-31 10:45 1352次阅读
    聚焦AI语音!声扬科技张伟彬<b class='flag-5'>博士</b>受邀为中山大学深圳校区师生作分享

    光学超构表面+MEMS:可切换涡旋激光器

    作者为北京邮电大学博士生王传硕,北京邮电大学电子工程学院徐坤教授、桂教授与南丹麦大学纳米光学中心Sergey I. Bozhevolnyi院士(丹麦自然
    的头像 发表于 12-26 09:41 1006次阅读
    光学超构表面+MEMS:可切换涡旋激光器