关于人类视觉理解机理-电子发烧友网

近期，上海交通大学卢策吾团队在《自然 - 机器智能》子刊上发表了关于高维度视觉序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

与此同时，该团队将论文代码与近两年在视频理解领域的先进成果开源为视频理解工具箱 AlphaVideo。

AlphaVideo 在物体跟踪任务（MOT）和行为理解（AVA 单模型）上都达到最高准确率，相比 SlowFast （AVA 单模型）有 12.6% 的性能提升。

动作理解任务的时空信息特征图。左：输入序列；右：空间特征更关注物体形状，时间特征更关注物体运动趋势。

AlphaVideo 中的行为理解（Alphaction）

时空概念提取展示

人类视觉理解机理

在人类的视觉认知过程中，时间和空间概念是解耦的。神经科学领域的研究发现在人类的记忆形成过程中，时间信息与空间上下文信息通过两个相对独立的信息通路到达海马体，进而形成完整的记忆。

新技能：自主学习时空概念

通过模仿人类的认知机制，卢策吾团队提出了应用于高维度信息的半耦合结构模型（SCS）。

SCS 自主发掘（awareness）时间 - 空间概念，并让他们耦合协作以理解序列信息。这种能力代表着机器学习模型自主掌握了时空的概念，这是一种更高层的智能。更进一步，时空信息概念的分离也让「概念编辑」成为可能。

半耦合结构模型（SCS）

半耦合结构首先解耦时空信息（模仿人脑中的两条信息通路），并在分别处理时间和空间信息之后将二者耦合（模仿海马体）：

该研究通过堆叠这种半耦合的元结构来构建深度模型，其中时空信息始终以先解耦再融合的模式向后流动。

为了让 h_s 和 h_t 各司其职，研究者将 h_s 和 h_t 设计为不对称的结构，同时，使用两个特殊的监督目标 r_s、r_t 来进一步约束二者关注各自的工作。

该研究进一步提出了一种训练注意力机制。这种注意力机制控制模型在优化过程中学习哪种信息。例如在视频信息中，模型可以优先将注意力集中在空间信息上，待空间信息有效且稳定时，再逐步将模型训练的注意力转换到时间信息上。

SCS 的表现如何？

该研究展示了 SCS 在多项任务中与传统 LSTM 的性能对比结果：

SCS 在视频动作分类、自动驾驶、天气预报等 4 个任务上的性能均超越传统的序列模型。

概念编辑

有了时空分离的能力，SCS 就可以初步做到「概念编辑」。比如，通过编辑空间概念且保留时间概念，我们可以让一个原本用于预测狗运动轨迹的模型来预测猫的轨迹。这样就能以较小的代价实现模型的泛化，同时也拓宽了模型的使用场景，降低了部署难度。

概念编辑 demo

研究者让计算机看 Flappy Bird 的视频，然后看一张静态的 Mario 图片（外观形象）。在这个过程中，模型并没有接触到任何 Mario 在管道中穿梭的运动信息。但通过「概念编辑」，在测试时 SCS 可以准确地预测 Mario 的运动轨迹。

视频理解工具箱 AlphaVideo

在视频理解工具箱 AlphaVideo 中，除了上述 SCS 时空概念分解，研究者还提供了单阶段端对端训练的多目标跟踪模型 TubeTK 和视频动作检测模型 AlphAction。使用一行代码，即可调用预训好的各类模型。

AlphAction

AlphAction 是面向行为理解的开源系统，基于 MVIG 提出的交互理解与异步训练策略在 AVA 数据集上达到最优准确率，速度达到 10 帧每秒。其中包含的 15 个开源常见行为基本模型的 mAP 达到约 70%，接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 组提出的基于 Bounding-Tube 的单阶段训练模型（CVPR2020-oral），是首个单阶段端对端训练的多目标跟踪模型。它在 MOT-16 数据集上达到了 66.9 MOTA 的精度，是目前 online 模型仅在 MOT 训练数据下达到的最高精度。

TubeTK 可视化结果

Bounding-Tube 示意图。使用 bounding-tube 可以轻松跟踪到 bounding-box 无法检测到的被遮挡目标（图中黄色框）。
责任编辑:pj

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解耦

解耦

+关注

关注
0

文章
40

浏览量
11815
自动驾驶

自动驾驶

+关注

关注
773

文章
13028

浏览量
163202
机器智能

机器智能

+关注

关注
0

文章
55

浏览量
8513

计算机视觉：AI如何识别与理解图像

计算机视觉是人工智能领域的一个重要分支，它致力于让机器能够像人类一样理解和解释图像。随着深度学习和神经网络的发展，人们对于如何让AI识别和理解图像产生了浓厚的兴趣。本文将探讨计算机

发表于 01-12 08:27 •633次阅读

计算机<b class='flag-5'>视觉</b>：AI如何识别与<b class='flag-5'>理解</b>图像

机器视觉原理及常用工具库

对于人类来讲，90%以上的信息都是通过视觉获取的，眼睛就是获取大量视觉信息的传感器，然后再交给大脑这个“处理器”进行处理，之后我们才能理解外部环境，建立世界观。

发表于 01-08 10:27 •1352次阅读

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

近期的大语言模型（LLM）在自然语言理解和生成上展现出了接近人类的强大能力，远远优于先前的BERT等预训练模型（PLM）。

发表于 01-04 14:06 •154次阅读

模型与<b class='flag-5'>人类</b>的注意力视角下参数规模扩大与指令微调对模型语言<b class='flag-5'>理解</b>的作用

光学视觉传感器技术研究进展

视觉传感是人类感知外界、认知世界的主要途径，研究表明人类获取的外界信息大约有80%来自于视觉。

发表于 11-27 09:50 •700次阅读

OpenVINO™ 赋能 BLIP 实现视觉语言 AI 边缘部署

通过视觉和语言感知世界。人工智能的一个长期目标是构建智能体，通过视觉和语言输入来理解世界，并通过自然语言与人类交流。比如，在《几行代码加速StableDiffusion，使用OpenV

发表于 09-04 16:21 •396次阅读

OpenVINO™ 赋能 BLIP 实现<b class='flag-5'>视觉</b>语言 AI 边缘部署

OpenVIN赋能BLIP实现视觉语言AI边缘部署

人类通过视觉和语言感知世界。人工智能的一个长期目标是构建智能体，通过视觉和语言输入来理解世界，并通过自然语言与人类交流。比如，在《几行代码加

发表于 09-04 10:54 •9980次阅读

OpenVIN赋能BLIP实现<b class='flag-5'>视觉</b>语言AI边缘部署

什么叫机器视觉？机器视觉和嵌入式有什么关系？

什么叫机器视觉机器视觉（MachineVision），也被称为计算机视觉（ComputerVision），是一种利用计算机技术和算法来模拟和实现人类

发表于 08-07 08:09 •664次阅读

智能视觉技术包括哪些智能视觉中的图像分析过程

视觉不论对生物界还是人类，都起到了至关重要的作用。随着人工智能浪潮的大势来袭，包括机器视觉、计算机视觉等在内的智能视觉也在人工智能领域逐步扮

发表于 07-17 11:33 •1124次阅读

机器视觉在自动驾驶应用有什么

视觉是人类认知世界最重要的功能手段，生物学研究表明，人类获取外界信息75%依靠视觉系统，而在驾驶环境中这一比例甚至高达90%。

发表于 06-20 17:26 •382次阅读

机器视觉及其应用

摘要：介绍了机器视觉的研究内容,比较了机器视觉与人类视觉的差异，分析了机器视觉研究状况，并对机器视觉

发表于 06-20 15:31 •5次下载

主流的机器视觉技术有哪些呢

视觉是人类最敏感、最直接的感知方式，在不进行实际接触的情况下，视觉感知可以使得我们获取周围环境的诸多信息。由于生物视觉系统非常复杂，目前还不能使得某一机器系统完全具备这一强大的

发表于 06-16 11:03 •483次阅读

惊！大脑视觉信号被Stable Diffusion复现成视频！

从大脑活动中重建人类视觉任务，尤其是功能磁共振成像技术（fMRI）这种非侵入式方法，一直是受到学界较多的关注。因为类似这样的研究，有利于理解我们的认知过程。

发表于 06-02 16:51 •694次阅读

机器视觉基础知识汇总

视觉是人类观察和认知世界的重要手段。随着信息技术的发展，人类逐渐把这种技能赋予计算机、机器人或者其他智能机器，这就是我们今天所要提到的机器视觉技术。

发表于 05-31 10:28 •1073次阅读

关于3D机器视觉的几个技术趋势

机器视觉正在为超大场景的3D数据感知提供很多新的方法。比如自动化的成像方法，像视觉SLAM在线处理连续帧的图像，实现实时重建巨大3D场景。再比如说对航拍数据进行点云分割和点云数据的语义理解，帮助快速低成本获取城市3D数据。

发表于 05-22 10:21 •382次阅读

搜索历史

关于人类视觉理解机理

评论

计算机视觉：AI如何识别与理解图像

机器视觉原理及常用工具库

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

光学视觉传感器技术研究进展

OpenVINO™ 赋能 BLIP 实现视觉语言 AI 边缘部署

OpenVIN赋能BLIP实现视觉语言AI边缘部署

OpenVINO赋能BLIP实现视觉语言AI边缘部署

什么叫机器视觉？机器视觉和嵌入式有什么关系？

智能视觉技术包括哪些智能视觉中的图像分析过程

机器视觉在自动驾驶应用有什么

机器视觉及其应用

主流的机器视觉技术有哪些呢

惊！大脑视觉信号被Stable Diffusion复现成视频！

机器视觉基础知识汇总

关于3D机器视觉的几个技术趋势