基于ST-GCN的人体动作识别与生成-电子发烧友网

ST-GCN: Spatial Temporal Graph Convolutional Networks时空图卷积网络，这个网络结构来源于2018年发表的一篇文章《Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition》，也就是基于时空图卷积网络来做人体动作识别。今天，我们就来了解下，如何基于ST-GCN来实现人体动作的识别与生成。

Why：为什么要使用ST-GCN？

ST-GCN网络训练好之后要达到的效果就是：用户提供一段视频，网络会输出视频中人的动作分类。

类似于上图中的视频，如何来识别视频中的人在做什么动作呢? 视频其实就是一帧一帧的图片拼接而成的，而传统处理图像识别的网络最常用的就是CNN（卷积神经网络），那ST-GCN是否跟CNN有关系呢？为什么要使用这个网络呢？

可以从以下三点来理解：

(1) 输入数据有量级的差别。举个例子，数据为一段10秒左右的视频，大概300帧，像素1920*1080，分别输入两个网络中。传统CNN是将所有视频拆分为一帧一帧的图片输入网络，而ST-GCN则直接输入人体的骨架关节数据，CNN的输入数据量约为ST-GCN的83000倍。

(2) 输入数据纯净度高，噪声少。CNN是将视频数据直接输入网络，包括了视频的背景以及图片中的各种噪音，而ST-GCN是仅仅将人体骨架关节点的信息输入网络，只保留了主要的有效信息，噪声低。

(3) 考虑了空间和时间上的相邻关节，效果更好。ST-GCN不仅考虑了空间上的相邻节点，也考虑了时间上的相邻节点，将邻域的概念扩展到了时间上，实验效果表明精度也更高。

What：ST-GCN到底是什么？

ST-GCN是TCN与GCN的结合。TCN，对时间维度的数据进行卷积操作；GCN，则对空间维度的数据进行卷积操作。GCN属于GNN，而GNN的基础是图论。神经网络处理的传统数据都是欧式距离结构的数据，比如二维的图像、一维的声音等等。而对于非欧式距离结构的数据，比如社交网络、交通运输网等等，传统的网络结构无法直接处理，而GNN就是用来处理这类型数据的。所以要了解ST-GCN，就要先从图论的一些基本理论入手，然后再延伸到GNN、GCN、ST-GCN。

2.1 图论

这里的图并不是指我们日常所见的图片，图的广泛概念包含具体的事物，以及事物之间的联系。图论中的图由两部分构成，即点和边。

点：图上具体的节点。

边：连接图上点和点之间的东西，边分为有向边和无向边。

图：节点V(G)和边E(G)构成的集合就是图，可以表示为：G = {V(G), E(G)}。图可以简单分为有向图和无向图（如下图所示）。

2.2 GNN

GNN: Group Neural Network 图神经网络，即结合图论与深度学习的网络结构。目前主要包含：Graph Convolutional Networks (GCN)、Graph Attention Networks、Graph Auto-encoder、Graph Generative Networks、Graph Spatial-Temporal Networks。最初的GNN网络，就是将点和边的特征一起传入网络中学习。

2.3 GCN

GCN：Graph Convolutional Networks 图卷积神经网络，顾名思义，是将图与卷积结合起来。根据卷积核的不同，主要分为spectral method（频谱方法）和spatial method（空间方法）。二者的区别在于：频谱方法基于拉普拉斯矩阵，与图的关系紧密联系，可泛化能力弱；空间方法则直接在图上定义卷积，对有紧密关系的节点进行操作，分为点分类和图分类。ST-GCN中的GCN属于图分类，且采用的是空间方法。

2.4 ST-GCN

ST-GCN：Spatial Temporal Graph Convolutional Networks时空图卷积网络，是在GCN的基础上提出的。核心观点是将TCN与GCN相结合，用来处理有时序关系的图结构数据。网络分为2个部分：GCN_Net与TCN_Net。

GCN_Net对输入数据进行空间卷积，即不考虑时间的因素，卷积作用于同一时序的不同点的数据。TCN_Net对数据进行时序卷积，考虑不同时序同一特征点的关系，卷积作用于不同时序同一点的数据。

How：ST-GCN具体如何使用？

前部分讲了ST-GCN是什么，那我们回归到ST-GCN的具体应用上，首次提出ST-GCN是用来做人体动作识别，即通过一段视频来判断其中人的动作，也就是人体动作识别。

数据集：论文中使用的数据集为NTU-RGB+D，包含60种动作，共56880个样本，其中有40类为日常行为动作，9类为与健康相关的动作，11类为双人相互动作。数据集已经将视频中的人体动作转换为了骨架关节的数据，其中人体的骨架标注了25个节点，就是一种图结构的数据。

NTU-RGB+D数据集的分类

亮点：

(1) 邻接矩阵不采用传统的方式，采用一种新的方式，将邻接矩阵分为3个子集：根节点本身、向心力群，离心群。这一策略的灵感来自于身体部位的运动可以被广泛地归类为同心运动和偏心运动，通常距离重心越近，运动幅度越小，同时能更好地区分向心运动和离心运动。即下图中的（d）。

(2) 网络中加入可学习的边的权重，即加入attention机制。每层网络中邻接矩阵A都与可学习的权重相乘，这些权重在反向传播中更新。添加的原因是考虑到人体做不同的动作所侧重的关节点不同，而且添加了注意力机制更有利于提高网络的泛化能力。

整体效果：

使用ST-GCN的网络结构进行人体动作识别，论文中在NTU-RGB+D数据集的x_sub模式下识别精度达到81.5%，NTU-RGB+D数据集的x-view模式下识别精度达到88.3%，优于传统的人体动作识别网络。

团队工作亮点

ST-GCN的技术延展-动作生成

基于对ST-GCN在人体动作识别上的效果，我们将ST-GCN网络与VAE网络结合。目的在于获取人体动作的语义，进而生成人体的动作，最终可以应用于机器人动作模仿或者其他强化学习项目中。

目前项目已在进行中，下图展示的是真实的人体骨架节点3D图与网络生成的人体骨架节点3D图。具体的研究结果，之后再跟大家分享，敬请期待。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98746
图像识别

图像识别

+关注

关注
8

文章
447

浏览量
37908
网络结构

网络结构

+关注

关注
0

文章
48

浏览量
10935

原文标题：探究 | 一文了解基于ST-GCN的人体动作识别与生成

文章出处：【微信号：kmdian，微信公众号：深兰科技】欢迎添加关注！文章转载请注明出处。

ST Motor Control Workbench不能生成代码怎么解决？

ST Motor Control Workbench不能生成代码

发表于 04-15 06:09

巍泰技术人体存在感知雷达：精准捕捉移动、微动与静止状态信息

存在感知雷达WTR-860基于24GHz的人体存在感知检测方案灵敏度高，最远可在4.5米范围内感测到微动作和大动作，最远3米以内的静止人体信息（呼吸率等生命体征信号）探测。相较于传统

发表于 03-11 15:57 •145次阅读

巍泰技术<b class='flag-5'>人体</b>存在感知雷达：精准捕捉移动、微动与静止状态信息

3D人体生成模型HumanGaussian实现原理

在 3D 生成领域，根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程，如 3D 人体模型回归、绑定、蒙皮、纹理贴图

发表于 12-20 16:37 •583次阅读

3D<b class='flag-5'>人体</b><b class='flag-5'>生成</b>模型HumanGaussian实现原理

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

人体动作生成任务旨在生成逼真的人体动作序列，以满足娱乐、虚拟现实、机器人技术等领域的需求。传统的

发表于 09-10 22:30 •477次阅读

ICCV 2023 | 重塑<b class='flag-5'>人体</b><b class='flag-5'>动作</b><b class='flag-5'>生成</b>，融合扩散模型与检索策略的新范式ReMoDiffuse来了

基于LSM6DSOX的FSM状态机的腕部动作识别

本文档中的腕部动作识别是基于布局0实现的。腕部动作识别类型• FSM #1 – （左手）静止/坐着/走路等场景下的抬腕亮屏动作• FSM #

发表于 09-06 08:03

小米人体传感器2S上架：可续航3年

识别的基础上升级了微小动作识别，光照感应由两档升级为可精细识别 0-1000lux，识别间隔由一档固定 30 秒，升级为 10 秒 / 20

发表于 08-03 09:18 •705次阅读

虹软人体姿态识别技术实现更加复杂和多样化的数字内容创作

随着生成式AI在大众工作生活的初步覆盖，人们愈发认识到它在数字内容创作中拥有的巨大潜力，但不少业内人士也发现了生成式AI存在的一些不足。譬如，仅依赖文字描述AI难以生成符合用户预期的人体

发表于 07-20 09:20 •1362次阅读

基于python代码的人脸识别实例

基于python代码的一个人脸识别的实例，完整的实例，本人在pycharm中实测通过，是一个很基础的入门级的人脸检测和识别。

发表于 07-18 11:11 •10次下载

清华&西电提出HumanMAC：人体动作预测新范式

人体动作预测是计算机视觉和图形学中的一个经典问题，旨在提升预测结果的多样性、准确性，并在自动驾驶、动画制作等多领域有非常多具体的应用。本研究梳理了今年来大家对于该问题的建模方式，认为以往的大多数工作对于动作预测任务都是使用一种e

发表于 07-17 16:56 •309次阅读

常见的人体静电消除器的工作原理

人体静电消除器是一种用于消除人体带有静电的装置。静电是指物体表面具有电荷的现象，当人体带有静电时，会导致一些不舒适的感觉，同时也容易引起电击事故。人体静电消除器的工作原理主要通过以下

发表于 07-13 09:51 •2053次阅读

人体分割识别图像技术的挑战和未来发展

人体分割识别图像技术在实现过程中面临着一些挑战和问题。首先，人体分割识别图像技术需要处理复杂的人体图像，而这些图像往往存在着多种干扰因素，

发表于 06-15 18:04 •396次阅读

人体分割识别图像技术的原理及应用

人体分割识别图像技术是一种将人体从图像中分割出来，并对人体进行识别和特征提取的技术。该技术主要利用计算机视觉和图像处理算法对

发表于 06-15 17:44 •687次阅读

人体识别图像技术的原理及分类

人体识别图像技术是一种通过分析人体图像（如照片或视频）来识别个体身份的技术。它主要基于人体特征（如肤色、体型等）进行分析，通过对

发表于 05-25 14:57 •1113次阅读

人体识别图像技术在智能安防中的应用

随着安防需求的不断增加，智能安防逐渐成为人们关注的焦点。人体识别图像技术作为一种有效的生物特征识别技术，被广泛应用于智能安防领域。它可以帮助安保人员更好地掌控人员流动情况，提高安防效率。在智能

发表于 05-25 14:46 •502次阅读

人体识别图像技术在智能家居中的应用

随着人工智能技术的快速发展，人体识别图像技术在智能家居中得到广泛应用。例如，将该技术应用到智能门锁、智能照明、智能窗帘等方面，可以实现自动化、智能化、个性化的服务需求。在智能门锁方面，人体识

发表于 05-24 18:06 •488次阅读

搜索历史

基于ST-GCN的人体动作识别与生成

评论

ST Motor Control Workbench不能生成代码怎么解决？

巍泰技术人体存在感知雷达：精准捕捉移动、微动与静止状态信息

3D人体生成模型HumanGaussian实现原理

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

基于LSM6DSOX的FSM状态机的腕部动作识别

小米人体传感器2S上架：可续航3年

虹软人体姿态识别技术实现更加复杂和多样化的数字内容创作

基于python代码的人脸识别实例

清华&西电提出HumanMAC：人体动作预测新范式

常见的人体静电消除器的工作原理

人体分割识别图像技术的挑战和未来发展

人体分割识别图像技术的原理及应用

人体识别图像技术的原理及分类

人体识别图像技术在智能安防中的应用

人体识别图像技术在智能家居中的应用