0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于人类视觉理解机理

智能感知与物联网技术研究所 来源:通信信号处理研究所 作者:通信信号处理研究 2020-07-04 09:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,上海交通大学卢策吾团队在《自然 - 机器智能》子刊上发表了关于高维度视觉序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

与此同时,该团队将论文代码与近两年在视频理解领域的先进成果开源为视频理解工具箱 AlphaVideo。

AlphaVideo 在物体跟踪任务(MOT)和行为理解(AVA 单模型)上都达到最高准确率,相比 SlowFast (AVA 单模型)有 12.6% 的性能提升。

动作理解任务的时空信息特征图。左:输入序列;右:空间特征更关注物体形状,时间特征更关注物体运动趋势。

AlphaVideo 中的行为理解(Alphaction)

时空概念提取展示

人类视觉理解机理

在人类的视觉认知过程中,时间和空间概念是解耦的。神经科学领域的研究发现在人类的记忆形成过程中,时间信息与空间上下文信息通过两个相对独立的信息通路到达海马体,进而形成完整的记忆。

新技能:自主学习时空概念

通过模仿人类的认知机制,卢策吾团队提出了应用于高维度信息的半耦合结构模型(SCS)。

SCS 自主发掘(awareness)时间 - 空间概念,并让他们耦合协作以理解序列信息。这种能力代表着机器学习模型自主掌握了时空的概念,这是一种更高层的智能。更进一步,时空信息概念的分离也让「概念编辑」成为可能。

半耦合结构模型(SCS)

半耦合结构首先解耦时空信息(模仿人脑中的两条信息通路),并在分别处理时间和空间信息之后将二者耦合(模仿海马体):

该研究通过堆叠这种半耦合的元结构来构建深度模型,其中时空信息始终以先解耦再融合的模式向后流动。

为了让 h_s 和 h_t 各司其职,研究者将 h_s 和 h_t 设计为不对称的结构,同时,使用两个特殊的监督目标 r_s、r_t 来进一步约束二者关注各自的工作。

该研究进一步提出了一种训练注意力机制。这种注意力机制控制模型在优化过程中学习哪种信息。例如在视频信息中,模型可以优先将注意力集中在空间信息上,待空间信息有效且稳定时,再逐步将模型训练的注意力转换到时间信息上。

SCS 的表现如何?

该研究展示了 SCS 在多项任务中与传统 LSTM 的性能对比结果:

SCS 在视频动作分类、自动驾驶、天气预报等 4 个任务上的性能均超越传统的序列模型。

概念编辑

有了时空分离的能力,SCS 就可以初步做到「概念编辑」。比如,通过编辑空间概念且保留时间概念,我们可以让一个原本用于预测狗运动轨迹的模型来预测猫的轨迹。这样就能以较小的代价实现模型的泛化,同时也拓宽了模型的使用场景,降低了部署难度。

概念编辑 demo

研究者让计算机看 Flappy Bird 的视频,然后看一张静态的 Mario 图片(外观形象)。在这个过程中,模型并没有接触到任何 Mario 在管道中穿梭的运动信息。但通过「概念编辑」,在测试时 SCS 可以准确地预测 Mario 的运动轨迹。

视频理解工具箱 AlphaVideo

在视频理解工具箱 AlphaVideo 中,除了上述 SCS 时空概念分解,研究者还提供了单阶段端对端训练的多目标跟踪模型 TubeTK 和视频动作检测模型 AlphAction。使用一行代码,即可调用预训好的各类模型。

AlphAction

AlphAction 是面向行为理解的开源系统,基于 MVIG 提出的交互理解与异步训练策略 在 AVA 数据集上达到最优准确率,速度达到 10 帧每秒。其中包含的 15 个开源常见行为基本模型的 mAP 达到约 70%,接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 组提出的基于 Bounding-Tube 的单阶段训练模型(CVPR2020-oral),是首个单阶段端对端训练的多目标跟踪模型。它在 MOT-16 数据集上达到了 66.9 MOTA 的精度,是目前 online 模型仅在 MOT 训练数据下达到的最高精度

TubeTK 可视化结果

Bounding-Tube 示意图。使用 bounding-tube 可以轻松跟踪到 bounding-box 无法检测到的被遮挡目标(图中黄色框)。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解耦
    +关注

    关注

    0

    文章

    43

    浏览量

    12265
  • 自动驾驶
    +关注

    关注

    795

    文章

    15060

    浏览量

    182014
  • 机器智能
    +关注

    关注

    0

    文章

    55

    浏览量

    8954
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器视觉工业相机与智能相机的区别

    机器视觉系统就类似于人类视觉功能,依托光学设备与非接触传感器采集图像信息,再通过智能分析与运算处理数据,完成目标识别、尺寸测量、缺陷检测、精准定位等核心工作。它赋予机器解析、读懂视觉
    的头像 发表于 04-22 17:46 1345次阅读
    机器<b class='flag-5'>视觉</b>工业相机与智能相机的区别

    人工智能多模态与视觉大模型开发实战 - 2026必会

    凭空出现,其背后蕴含着深厚的理论基础与复杂的架构设计。从基础原理来看,它借鉴了人类视觉系统的运作机制,通过模拟人眼对图像的感知和理解过程,让计算机能够自动识别、分析和解读图像内容。 在架构层面,
    发表于 04-15 16:06

    智能机器人从0到1系统入门课程 带源码课件 百度网盘下载

    :赋予机器人空间智慧 视觉识别是机器人感知物理世界的另一只眼睛。在入门实践中,视觉技术的应用早已超越了简单的物体分类,向着更复杂的空间理解和场景分析演进。 借助视觉语言模型,机器人能够
    发表于 04-11 16:41

    论马斯克的预言:AI使人类边缘化

    当地时间3月11日,在“Abundance Summit”科技峰会上,马斯克谈及AI进展时表示,AI已经进入自我改进阶段,在超高量级AI面前,人类终将走向边缘化。以下是对这一预言的相关分析: 预言
    发表于 03-14 05:27

    商汤科技NEO-unify如何打造原生视觉语言理解与生成

    当前,多模态模型普遍采用“视觉编码器(VE)用于理解,变分自编码器(VAE)用于生成”的组合式设计。这套范式虽行之有效,却也内在割裂了感知与创造,常面临模块协同与效率权衡的挑战。
    的头像 发表于 03-10 14:37 491次阅读
    商汤科技NEO-unify如何打造原生<b class='flag-5'>视觉</b>语言<b class='flag-5'>理解</b>与生成

    为什么光照对纯视觉自动驾驶影响较大?

    在自动驾驶的技术路线中,纯视觉方案因其模仿人类驾驶逻辑与低廉的硬件成本,一直是很多车企的选择。但这种高度依赖摄像头的感知方式,在夜幕降临、车辆驶入幽暗的隧道,或是遭遇强烈的逆光直射、漫天的雨雪浓雾时,感知能力会发生断崖式下跌。为什么光照对纯
    的头像 发表于 03-09 17:06 1146次阅读

    机器视觉系统之工业相机解读

    机器视觉系统是一种模拟人类视觉功能,通过光学装置和非接触式传感器获取图像数据,并进行分析和处理,以实现对目标物体的识别、测量、检测和定位等功能的智能化系统。其目的是让机器能够理解和解释
    的头像 发表于 02-11 17:02 765次阅读
    机器<b class='flag-5'>视觉</b>系统之工业相机解读

    迷人的相似之处:人类内耳与村田MEMS传感器

    信息。而人体内恰好存在与这两种设备功能相近的感知结构。在实现人类任务自动化(如自动驾驶)时,理解自身传感器的运作原理至关重要。在探讨自动驾驶技术与计算机视觉之前,我
    的头像 发表于 12-01 12:02 956次阅读
    迷人的相似之处:<b class='flag-5'>人类</b>内耳与村田MEMS传感器

    安防监控系统如何成为城市的“智慧视觉中枢”

    安防监控系统,曾经只是记录事件的“电子眼”,如今已演进为能够理解、分析和预测的“智慧视觉中枢”。它不再仅仅回答“发生了什么”,更开始回答“正在发生什么”以及“可能发生什么”,这背后是一场从纯视觉感知
    的头像 发表于 09-30 11:18 578次阅读

    集成电路制造中封装失效的机理和分类

    随着封装技术向小型化、薄型化、轻量化演进,封装缺陷对可靠性的影响愈发凸显,为提升封装质量需深入探究失效机理与分析方法。
    的头像 发表于 09-22 10:52 1562次阅读
    集成电路制造中封装失效的<b class='flag-5'>机理</b>和分类

    iTOF技术,多样化的3D视觉应用

    视觉传感器对于机器信息获取至关重要,正在从二维(2D)发展到三维(3D),在某些方面模仿并超越人类视觉能力,从而推动创新应用。3D 视觉解决方案大致分为立体
    发表于 09-05 07:24

    机器视觉系统工业相机的成像原理及如何选型

    机器视觉系统是一种模拟人类视觉功能,通过光学装置和非接触式传感器获取图像数据,并进行分析和处理,以实现对目标物体的识别、测量、检测和定位等功能的智能化系统。其目的是让机器能够理解和解释
    的头像 发表于 08-07 14:14 1997次阅读
    机器<b class='flag-5'>视觉</b>系统工业相机的成像原理及如何选型

    励展博览集团与机器视觉产业联盟(CMVU)关于VisionChina(深圳)达成战略合作

    在全球制造业加速智能化、自动化转型的浪潮中,机器视觉技术作为智能制造领域的关键技术之一,正成为推动产业升级的关键力量。励展博览集团(以下简称“励展”)与机器视觉产业联盟(以下简称“CMVU
    的头像 发表于 07-17 16:47 1661次阅读
    励展博览集团与机器<b class='flag-5'>视觉</b>产业联盟(CMVU)<b class='flag-5'>关于</b>VisionChina(深圳)达成战略合作

    一文带你了解什么是机器视觉网卡

    机器视觉网卡通常指的是在机器视觉系统中用于连接工业相机到计算机的以太网卡。它的核心作用是实现高速、稳定、低延迟的图像数据传输。以下是关于机器视觉网卡的关键信息:1.核心功能:高速图像传
    的头像 发表于 07-09 16:18 950次阅读
    一文带你了解什么是机器<b class='flag-5'>视觉</b>网卡

    自动驾驶纯视觉方案到底有哪些弊端?

    [首发于智驾最前沿微信公众号]随着人工智能与传感器技术的快速发展,自动驾驶汽车逐步走入公众视野。其中,关于感知系统的技术路线选择,始终是大家争论的焦点。尤其是“纯视觉方案”,也就是主要依赖摄像头进行
    的头像 发表于 06-23 09:27 1407次阅读
    自动驾驶纯<b class='flag-5'>视觉</b>方案到底有哪些弊端?