0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于人类视觉理解机理

智能感知与物联网技术研究所 来源:通信信号处理研究所 作者:通信信号处理研究 2020-07-04 09:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,上海交通大学卢策吾团队在《自然 - 机器智能》子刊上发表了关于高维度视觉序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

与此同时,该团队将论文代码与近两年在视频理解领域的先进成果开源为视频理解工具箱 AlphaVideo。

AlphaVideo 在物体跟踪任务(MOT)和行为理解(AVA 单模型)上都达到最高准确率,相比 SlowFast (AVA 单模型)有 12.6% 的性能提升。

动作理解任务的时空信息特征图。左:输入序列;右:空间特征更关注物体形状,时间特征更关注物体运动趋势。

AlphaVideo 中的行为理解(Alphaction)

时空概念提取展示

人类视觉理解机理

在人类的视觉认知过程中,时间和空间概念是解耦的。神经科学领域的研究发现在人类的记忆形成过程中,时间信息与空间上下文信息通过两个相对独立的信息通路到达海马体,进而形成完整的记忆。

新技能:自主学习时空概念

通过模仿人类的认知机制,卢策吾团队提出了应用于高维度信息的半耦合结构模型(SCS)。

SCS 自主发掘(awareness)时间 - 空间概念,并让他们耦合协作以理解序列信息。这种能力代表着机器学习模型自主掌握了时空的概念,这是一种更高层的智能。更进一步,时空信息概念的分离也让「概念编辑」成为可能。

半耦合结构模型(SCS)

半耦合结构首先解耦时空信息(模仿人脑中的两条信息通路),并在分别处理时间和空间信息之后将二者耦合(模仿海马体):

该研究通过堆叠这种半耦合的元结构来构建深度模型,其中时空信息始终以先解耦再融合的模式向后流动。

为了让 h_s 和 h_t 各司其职,研究者将 h_s 和 h_t 设计为不对称的结构,同时,使用两个特殊的监督目标 r_s、r_t 来进一步约束二者关注各自的工作。

该研究进一步提出了一种训练注意力机制。这种注意力机制控制模型在优化过程中学习哪种信息。例如在视频信息中,模型可以优先将注意力集中在空间信息上,待空间信息有效且稳定时,再逐步将模型训练的注意力转换到时间信息上。

SCS 的表现如何?

该研究展示了 SCS 在多项任务中与传统 LSTM 的性能对比结果:

SCS 在视频动作分类、自动驾驶、天气预报等 4 个任务上的性能均超越传统的序列模型。

概念编辑

有了时空分离的能力,SCS 就可以初步做到「概念编辑」。比如,通过编辑空间概念且保留时间概念,我们可以让一个原本用于预测狗运动轨迹的模型来预测猫的轨迹。这样就能以较小的代价实现模型的泛化,同时也拓宽了模型的使用场景,降低了部署难度。

概念编辑 demo

研究者让计算机看 Flappy Bird 的视频,然后看一张静态的 Mario 图片(外观形象)。在这个过程中,模型并没有接触到任何 Mario 在管道中穿梭的运动信息。但通过「概念编辑」,在测试时 SCS 可以准确地预测 Mario 的运动轨迹。

视频理解工具箱 AlphaVideo

在视频理解工具箱 AlphaVideo 中,除了上述 SCS 时空概念分解,研究者还提供了单阶段端对端训练的多目标跟踪模型 TubeTK 和视频动作检测模型 AlphAction。使用一行代码,即可调用预训好的各类模型。

AlphAction

AlphAction 是面向行为理解的开源系统,基于 MVIG 提出的交互理解与异步训练策略 在 AVA 数据集上达到最优准确率,速度达到 10 帧每秒。其中包含的 15 个开源常见行为基本模型的 mAP 达到约 70%,接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 组提出的基于 Bounding-Tube 的单阶段训练模型(CVPR2020-oral),是首个单阶段端对端训练的多目标跟踪模型。它在 MOT-16 数据集上达到了 66.9 MOTA 的精度,是目前 online 模型仅在 MOT 训练数据下达到的最高精度

TubeTK 可视化结果

Bounding-Tube 示意图。使用 bounding-tube 可以轻松跟踪到 bounding-box 无法检测到的被遮挡目标(图中黄色框)。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解耦
    +关注

    关注

    0

    文章

    43

    浏览量

    12168
  • 自动驾驶
    +关注

    关注

    791

    文章

    14669

    浏览量

    176495
  • 机器智能
    +关注

    关注

    0

    文章

    55

    浏览量

    8900
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    迷人的相似之处:人类内耳与村田MEMS传感器

    信息。而人体内恰好存在与这两种设备功能相近的感知结构。在实现人类任务自动化(如自动驾驶)时,理解自身传感器的运作原理至关重要。在探讨自动驾驶技术与计算机视觉之前,我
    的头像 发表于 12-01 12:02 443次阅读
    迷人的相似之处:<b class='flag-5'>人类</b>内耳与村田MEMS传感器

    安防监控系统如何成为城市的“智慧视觉中枢”

    安防监控系统,曾经只是记录事件的“电子眼”,如今已演进为能够理解、分析和预测的“智慧视觉中枢”。它不再仅仅回答“发生了什么”,更开始回答“正在发生什么”以及“可能发生什么”,这背后是一场从纯视觉感知
    的头像 发表于 09-30 11:18 263次阅读

    iTOF技术,多样化的3D视觉应用

    视觉传感器对于机器信息获取至关重要,正在从二维(2D)发展到三维(3D),在某些方面模仿并超越人类视觉能力,从而推动创新应用。3D 视觉解决方案大致分为立体
    发表于 09-05 07:24

    机器视觉系统工业相机的成像原理及如何选型

    机器视觉系统是一种模拟人类视觉功能,通过光学装置和非接触式传感器获取图像数据,并进行分析和处理,以实现对目标物体的识别、测量、检测和定位等功能的智能化系统。其目的是让机器能够理解和解释
    的头像 发表于 08-07 14:14 1016次阅读
    机器<b class='flag-5'>视觉</b>系统工业相机的成像原理及如何选型

    一文带你了解什么是机器视觉网卡

    机器视觉网卡通常指的是在机器视觉系统中用于连接工业相机到计算机的以太网卡。它的核心作用是实现高速、稳定、低延迟的图像数据传输。以下是关于机器视觉网卡的关键信息:1.核心功能:高速图像传
    的头像 发表于 07-09 16:18 416次阅读
    一文带你了解什么是机器<b class='flag-5'>视觉</b>网卡

    基于LockAI视觉识别模块:C++图像的基本运算

    在图像处理中,理解图像的基本操作是掌握计算机视觉技术的关键。本文章将介绍基于LockAI视觉识别模块下OpenCV中图像的基本运算方法,包括像素操作、逻辑运算和差值运算,并通过一个综合示例展示其实际应用。
    的头像 发表于 05-06 16:20 529次阅读
    基于LockAI<b class='flag-5'>视觉</b>识别模块:C++图像的基本运算

    基于MindSpeed MM玩转Qwen2.5VL多模态理解模型

    多模态理解模型是让AI像人类一样,通过整合多维度信息(如视觉、语言、听觉等),理解数据背后的语义、情感、逻辑或场景,从而完成推理、决策等任务。
    的头像 发表于 04-18 09:30 2665次阅读
    基于MindSpeed MM玩转Qwen2.5VL多模态<b class='flag-5'>理解</b>模型

    详解半导体集成电路的失效机理

    半导体集成电路失效机理中除了与封装有关的失效机理以外,还有与应用有关的失效机理
    的头像 发表于 03-25 15:41 1550次阅读
    详解半导体集成电路的失效<b class='flag-5'>机理</b>

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型,能够理解并生成与视觉内容相关的自然语言。以下
    的头像 发表于 03-17 15:32 7571次阅读
    ​VLM(<b class='flag-5'>视觉</b>语言模型)​详细解析

    工业自动化中机器视觉技术的演变和未来发展趋势

    机器视觉是一项使机器或工业设备能够解释和分析视觉数据的技术,它将计算机科学与图像处理技术相结合,实现了自动化的视觉检查和分析。你也可以把它看作是一种赋予机器看到和理解周围环境的能力。
    的头像 发表于 03-06 11:39 1651次阅读
    工业自动化中机器<b class='flag-5'>视觉</b>技术的演变和未来发展趋势

    DLP160CP DMD是否可以应用于机器视觉应用?

    关于DLP160CPDMD芯片有一个疑问, 请问该芯片是否可以应用在机器3D视觉(结构光)场景应用呢?我在TI TLP机器视觉,“3D扫描视觉机器
    发表于 02-20 07:39

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3240次阅读
    一文详解<b class='flag-5'>视觉</b>语言模型

    IGBT的导热机理详解

    影响其性能和寿命。因此,了解IGBT的导热机理对于确保其长期稳定运行至关重要。本文将详细探讨IGBT的导热机理,包括热量产生、传导路径、散热材料以及热管理策略等方面。
    的头像 发表于 02-03 14:26 1041次阅读

    马斯克预言:AI将全面超越人类智力

    近日,科技巨头马斯克作出了一个关于人工智能(AI)的大胆预测。他断言,AI的发展速度将超乎人类的想象,并将在不久的将来全面超越人类的智力。 马斯克在X平台上明确表示,AI的迅猛进步不容忽视。他预测
    的头像 发表于 12-28 14:23 1159次阅读

    超越人类视觉!昱感微“多维像素”多模态超级摄像头方案产品赋能超凡感知力

    如今人工智能发展之日新月异,令人不由感叹也许科幻电影里仿生人的应用不再是遥不可及,那么未来AI会超越人类甚至取代人类吗?也许现在AI的大脑还无法做到,但眼睛已经做到,机器视觉的感知力已全面超越
    的头像 发表于 12-12 17:17 1270次阅读
    超越<b class='flag-5'>人类</b><b class='flag-5'>视觉</b>!昱感微“多维像素”多模态超级摄像头方案产品赋能超凡感知力