AlphaPose是一个实时多人姿态估计系统

新智元 2018-09-08 09:11 次阅读

上海交通大学卢策吾团队MVIG实验室最新上线了他们此前开源的实时人体姿态估计系统AlphaPose的升级版。新系统采用 PyTorch 框架,在姿态估计标准测试集COCO上达到当前最高精度71mAP,同时平均速度20FPS,比Mask-RCNN速度快3倍。

AlphaPose是一个实时多人姿态估计系统。

今年2月,上海交通大学卢策吾团队MVIG实验室AlphaPose 系统上线,是首个在 COCO 数据集上可达到 70+ mAP 的开源姿态估计系统。本次更新,在精度不下降情况下,实时性是一大提升亮点。

新系统采用 PyTorch 框架,在姿态估计(Pose Estimation)标准测试集COCO validation set上,达到 71mAP的精度(比 OpenPose 相对提升17%,Mask-RCNN相对提升8%),同时,速度达到了20FPS(比 OpenPose 相对提高66%,Mask-RCNN相对提高300%)。

再次感受一下升级后AlphaPose的速度

检测精度不变,平均速度比Mask-RCNN快3倍

人体关键点检测对于描述人体姿态,预测人体行为至关重要。因此,人体关键点检测是诸多计算机视觉任务的基础。其在动作分类,异常行为检测,以及人机交互等领域有着很广阔的应用前景,是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。

AlphaPose系统,是基于上海交大MVIG组提出的 RMPE 二步法框架(ICCV 2017论文)构建的,相比其他开源系统在准确率有很大提高,比OpenPose相对提高17%,Mask-RCNN相对提高8.2%。 

升级后,各个开源框架在COCO-Validation上性能,时间在单卡1080ti GPU测出指标如下:


基于PyTorch框架,在人体姿态估计模型中引入Attention模块

新版 AlphaPose 系统,架设在 PyTorch 框架上,得益于Python的灵活性,新系统对用户更加友好,安装使用过程更加简易,同时支持Linux与Windows系统使用,方便进行二次开发。此外,系统支持图片、视频、摄像头输入,实时在线计算出多人的姿态结果。

为了在兼顾速度的同时保持精度,新版AlphaPose提出了一个新的姿态估计模型。模型的骨架网络使用 ResNet101,同时在其下采样部分添加 SE-block 作为 attention 模块——已经有很多实验证明,在 Pose Estimation 模型中引入 attention 模块能提升模型的性能,而仅在下采样部分添加 SE-block 能使 attention 以更少的计算量发挥更好的效果。

除此之外,使用 PixelShuffle + Conv 进行3次上采样,输出关键点的热度图。传统的上采样方法会使用反卷积或双线性插值。而使用 PixelShuffle 的好处在于,在提高分辨率的同时,保持特征信息不丢失。对比双线性插值,运算量低;对比反卷积,则不会出现网格效应。

在系统架构方面,新版 AlphaPose 采用多级流水的工作方式,使用多线程协作,将速度发挥到极致。

AlphaPose 系统目前在COCO的 Validation 集上的运行速度是 20FPS(平均每张图片4.6人),精度达到71mAP。 在拥挤场景下(平均每张图片15人),AlphaPose系统速度仍能保持 10FPS 以上。

原文标题:最高比Mask-RCNN快3倍!上交大实时姿态估计AlphaPose升级

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

从蓝海杀成红海的语音科技,如何才能转化成智能家庭的入口

在智能音箱领域,用户体验是经常被强调的点,语音交互与服务内容则是竞争核心。而智能音箱行业发展的最大瓶....

的头像 电子发烧友网工程师 发表于 10-12 14:30 651次 阅读
从蓝海杀成红海的语音科技,如何才能转化成智能家庭的入口

什么是张量,如何在PyTorch中操作张量?

Kirill Dubovikov写的PyTorch vs TensorFlow — spotting....

的头像 论智 发表于 10-12 08:58 258次 阅读
什么是张量,如何在PyTorch中操作张量?

谷歌新品发布会暴露谷歌的野心和痛点

10月10日凌晨结束的秋季发布会上,谷歌发布了一揽子硬件产品,如果不去计较差异,你会发现这就是一些不....

的头像 电子发烧友网工程师 发表于 10-10 16:27 582次 阅读
谷歌新品发布会暴露谷歌的野心和痛点

fast.ai发布的一个简便、好用的PyTorch库

Christine McLeavey Payne是从上一期Fast.ai深度学习课程中脱颖而出的一名....

的头像 论智 发表于 10-10 09:20 368次 阅读
fast.ai发布的一个简便、好用的PyTorch库

迈向机器人时代!这次IROS都会呈现哪些精彩的技术?

Workshops是会议主要内容。今年的IROS共接收了48个(33个full-day和15个hal....

的头像 将门创投 发表于 10-08 15:14 427次 阅读
迈向机器人时代!这次IROS都会呈现哪些精彩的技术?

Facebook宣布发布深度学习框架 PyTorch 1.0开发者预览版

为了满足这些需求,Google Cloud 也将为其众多服务引入 PyTorch 支持。Facebo....

的头像 电子发烧友网工程师 发表于 10-08 14:36 397次 阅读
Facebook宣布发布深度学习框架 PyTorch 1.0开发者预览版

千呼万唤始出来,PyTorch1.0预览版终于问世!

Azure机器学习服务现在允许开发人员无缝地从在本地机器上训练PyTorch模型,并转移到Azure....

的头像 新智元 发表于 10-08 10:49 517次 阅读
千呼万唤始出来,PyTorch1.0预览版终于问世!

谷歌和Facebook正在联手,在AI领域共同合作

PyTorch 1.0将即时模式和图形执行模式融合在一起,为生产的研究和性能优化提供了灵活性。更具体....

的头像 新智元 发表于 10-08 10:44 531次 阅读
谷歌和Facebook正在联手,在AI领域共同合作

采用nRF24L01无线数据传输芯片和开发板设计智能探测系统

nRF24L01是挪威NorDic公司的单片2.4 GHz无线收发一体芯片,有多达125个频道可供选....

的头像 电子设计 发表于 10-07 11:08 240次 阅读
采用nRF24L01无线数据传输芯片和开发板设计智能探测系统

相关人机交互界面设计的基本原则

在系统的设计过程中,设计人员要抓住用户的特征,发现用户的需求。在系统整个开发过程中要不断征求用户的意....

的头像 电子设计 发表于 09-26 16:27 265次 阅读
相关人机交互界面设计的基本原则

聆听Alexa核心团队科学家解读语音语义的奥秘

远场语音识别是指在较远的距离条件下(通常是1m-10m),机器对语音加以识别的技术。该技术一般采用麦....

的头像 电子发烧友网工程师 发表于 09-25 11:08 642次 阅读
聆听Alexa核心团队科学家解读语音语义的奥秘

革新人机交互方式 自然语言交互成为主流

我相信我们正走在正确的道路上,然而我也能看到这条道路的艰辛和漫长。好在经过十多年的反复探索,虽然屡战....

的头像 机器人大讲堂 发表于 09-19 17:41 342次 阅读
革新人机交互方式 自然语言交互成为主流

探讨语音识别技术的发展历史、难点及对策

在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与....

的头像 传感器技术 发表于 09-17 10:22 568次 阅读
探讨语音识别技术的发展历史、难点及对策

我们花了147个小时,整理出人机交互8个热门知识点

一周前,班主任问了拾月助教一个十分深刻的问题。 什么样的人机交互才是趋于完美的自然交互? 拾月想了一会说:“比如我...

发表于 09-17 09:32 247次 阅读
我们花了147个小时,整理出人机交互8个热门知识点

北京林业大学研发基于碳化皱纹纸的柔性传感器

研究团队通过简单、低成本的制备技术开发了一种基于碳化皱纹纸的柔性各向异性传感器。

的头像 MEMS 发表于 09-13 17:38 481次 阅读
北京林业大学研发基于碳化皱纹纸的柔性传感器

中车长春轨道客车发布新一代地铁列车,实现全自动无人运行

近日,中车长春轨道客车股份有限公司在举办的长春轨道交通展上发布了新一代地铁列车,该车能实现全自动无人....

的头像 机器人技术与应用 发表于 09-13 15:52 729次 阅读
中车长春轨道客车发布新一代地铁列车,实现全自动无人运行

2018生物识别技术与应用高峰论坛圆满落下帷幕

沈瑄认为,目前3D结构光面临三大瓶颈,应用、外观和成本。“为什么说安卓市场的3D结构光不像苹果那样爆....

的头像 芯智讯 发表于 09-12 16:32 1251次 阅读
2018生物识别技术与应用高峰论坛圆满落下帷幕

阿里云IoT&庆科信息万物有声机器人创新创业大赛,找的就是你!

近年来,在政府的鼓励支持下,我国机器人产业创新不断,市场持续繁荣。随着机器人应用不断深入到工作、生活....

的头像 人间烟火123 发表于 09-12 15:30 2242次 阅读
阿里云IoT&庆科信息万物有声机器人创新创业大赛,找的就是你!

3D感知全栈方案赋能全行业,3D结构光将在手机上普及

根据沈瑄介绍,旷视3D感知全栈解决方案主要包括:第一,识别与感知,通过人机交互技术,让机器了解到人;....

的头像 芯智讯 发表于 09-12 14:28 1009次 阅读
3D感知全栈方案赋能全行业,3D结构光将在手机上普及

针对变电站隔离开关智能I/O装置故障的软件分析

隔离开关智能I/O装置是智能变电站的一种一次设备的智能组件,主要用于隔离开关工作状态的监控,并接收间....

的头像 电子设计 发表于 09-12 09:13 260次 阅读
针对变电站隔离开关智能I/O装置故障的软件分析

如何创建可用的触摸UI

lways wanted to know the difference between touch-....

的头像 英特尔 Altera视频 发表于 09-10 04:09 293次 观看
如何创建可用的触摸UI

中国国际智能产业博览会,展示小远政务服务机器人

作为远传智能政务服务交互中心不可或缺的一环,小远AI政务服务机器人使用语音识别,屏幕多媒体,与宾客热....

的头像 CTI论坛 发表于 09-05 16:38 943次 阅读
中国国际智能产业博览会,展示小远政务服务机器人

为什么要去买一只价值2900美元的机器狗呢?

我做了最后一次尝试,想让它坐下。结果它摇着橡胶般的尾巴朝我吠叫了一番。这个简单的动作打消了我的怀疑。....

的头像 重庆人工智能 发表于 09-04 17:15 1342次 阅读
为什么要去买一只价值2900美元的机器狗呢?

Rokid推出全新黑科技AR眼镜Rokid Glass

2017年,AR越来越少被人提及,成为资本市场的弃儿。因为风口过后,大多数人开始看衰这个行业,甚至几....

的头像 物联网前沿 发表于 09-03 15:19 496次 阅读
Rokid推出全新黑科技AR眼镜Rokid Glass

共同探讨AI+技术将带来怎样的发展,对数据发展产生怎样的推动力

徐玉林认为,人工智能改变世界的三大要素是核心技术、行业专家和行业大数据。随后,来自全球最大的企业级软....

的头像 工业4俱乐部 发表于 09-03 14:26 731次 阅读
共同探讨AI+技术将带来怎样的发展,对数据发展产生怎样的推动力

Our Earth是什么?Our Earth或将成区块链交易热门

提到区块链,行业人士都如数家珍,在区块链技术从诞生到1.0时代、2.0时代,短短十年时间,区块链技术....

发表于 09-01 09:24 197次 阅读
Our Earth是什么?Our Earth或将成区块链交易热门

COB小间距屏领域的未来发展及企业布局了解

雷曼光电宣布与纬而视,就未来三年在小间距COB高清大屏幕,达成战略合作协议。随着COB小间距LED显....

的头像 LED显示屏之家 发表于 08-30 18:56 1064次 阅读
COB小间距屏领域的未来发展及企业布局了解

控制器将成为机器人技术核心的下个突破口

目前在我国,机器人的种类可以分为仓储和物流机器人、消费品加工制造机器人、外科手术机器人、楼宇和室内配....

的头像 国联视讯工业机器人信息服务 发表于 08-27 15:06 626次 阅读
控制器将成为机器人技术核心的下个突破口

柔性传感器技术的未来发展方向

柔性传感器技术是极具挑战和潜力的发展方向,在人工智能、医疗健康等领域有着广阔的发展前景。随着人机交互....

的头像 MEMS 发表于 08-24 17:40 1452次 阅读
柔性传感器技术的未来发展方向

养老服务机器人吸引眼球,憧憬和担忧同在

中国60周岁及以上老年人口已经超过2.4亿,随着人口老龄化加重,养老压力不断增加,养老服务机器人也日....

的头像 1号机器人网 发表于 08-23 09:54 447次 阅读
养老服务机器人吸引眼球,憧憬和担忧同在

Jacinto 6 QNX系统汽车解决方案介绍

具有全景可视摄像头的Jacinto 6 QNX汽车解决方案

的头像 TI视频 发表于 08-23 00:11 167次 观看
Jacinto 6 QNX系统汽车解决方案介绍

关于人机交互与TI Sitara处理器在工业方面的应用介绍(1)

1.1 人机交互与 TI Sitara 处理器的应用 - 1.简介

的头像 TI视频 发表于 08-22 01:53 197次 观看
关于人机交互与TI Sitara处理器在工业方面的应用介绍(1)

PolygonRNN++自动标注使用CNN提取图像特征

标注图像中的物体掩码是一项非常耗时耗力的工作(人工标注一个物体平均需要20到30秒),但在众多计算机....

的头像 论智 发表于 08-18 11:49 625次 阅读
PolygonRNN++自动标注使用CNN提取图像特征

谷歌大牛强推的Distill进展如何?颠覆arXiv等传统论文平台?

Distill 最近的几篇文章实践了这一想法。它们不仅把重要的概念通过交互式结果表现出来,还提供了 ....

的头像 电子发烧友网工程师 发表于 08-17 09:52 465次 阅读
谷歌大牛强推的Distill进展如何?颠覆arXiv等传统论文平台?

探讨HUD、手势交互在车载交互系统的发展趋势

2018年4月24日,全新梅赛德斯-奔驰A级轿车,即奔驰A级三厢版车型正式发布,该车搭载了奔驰全新的....

的头像 高工智能汽车 发表于 08-16 10:07 728次 阅读
探讨HUD、手势交互在车载交互系统的发展趋势

Cortex-A9与Cortex-A8实质上的区别

1.5 人机交互与 TI Sitara 处理器的应用 - 5.Cortex A8,A9

的头像 TI视频 发表于 08-16 01:31 381次 观看
Cortex-A9与Cortex-A8实质上的区别

智能设备人机交互的未来方向!3D深度相机助力智能人机交互进入新时代!

体感交互技术经历了三个阶段:1)早期的智能设备交互采用手柄方式,如任天堂的Wii Remote和索尼....

的头像 MEMS 发表于 08-13 15:50 1421次 阅读
智能设备人机交互的未来方向!3D深度相机助力智能人机交互进入新时代!

kika如何用AI探索人性化沟通的产品设计理念

很多出海的公司是产品经理导向,不注重人文,但是kika非常注重在当天上午举行的“人机交互峰会”上,主....

的头像 iNews新知科技 发表于 08-08 18:19 1343次 阅读
kika如何用AI探索人性化沟通的产品设计理念

关于人机交互与TI Sitara处理器在工业方面的应用介绍(3)

1.3 人机交互与 TI Sitara 处理器的应用 - 3.工业应用

的头像 TI视频 发表于 08-08 01:18 372次 观看
关于人机交互与TI Sitara处理器在工业方面的应用介绍(3)

用迪文屏模拟了个加密键盘,几行OS搞定!

今天用迪文屏模拟了个加密键盘,可以实现每次录入密码时,键盘上数字或者字母的顺序都会重新排列,大大提升了产品应用的安全系...

发表于 08-07 09:23 574次 阅读
用迪文屏模拟了个加密键盘,几行OS搞定!

STM32评估板与迪文屏交互,没几行代码就实现一些简单功能,也没那么难!

用STM32评估板与迪文屏做交互,也没那么难! 没几行C代码就可以实现一些简单的功能。跟大家分享下,详细视频和说明请下载附件...

发表于 08-06 17:42 491次 阅读
STM32评估板与迪文屏交互,没几行代码就实现一些简单功能,也没那么难!

MIT开发情感机器学习模型 助计算机感知人类情绪

麻省理工学院媒体实验室的研究者们已经开发了一种机器学习模型,这种模型让电脑更加像人一样解译我们的情感....

的头像 人工智能领域 发表于 08-02 16:35 1226次 阅读
MIT开发情感机器学习模型 助计算机感知人类情绪

工业机器人技术现状与发展趋势

工业机器人技术特点 一般来说,工业机器人由3大部分6个子系统组成。3大部分是机械部分、传感部分和控制....

的头像 机器人博览 发表于 08-02 11:24 855次 阅读
工业机器人技术现状与发展趋势

一种可以超越传统方法捕捉微小的面部表情,并更好的测量人类情绪的机器学习模型

为了解决情感计算中面临的问题,来自麻省理工媒体实验室情感计算研究组提出了一种可以超越传统方法捕捉微小....

的头像 将门创投 发表于 08-01 09:48 487次 阅读
一种可以超越传统方法捕捉微小的面部表情,并更好的测量人类情绪的机器学习模型

GAN技术再到新高度 利用pytorch技术生成72种图像

随着GAN的发展,单凭一张图像就能自动将面部表情生成动画已不是难事。但近期在Reddit和GitHu....

的头像 新智元 发表于 07-30 10:39 579次 阅读
GAN技术再到新高度 利用pytorch技术生成72种图像

人机交互比无人驾驶在国内更有实现前景?

无人驾驶在这几年一直是汽车领域备受关注的热点,现在市面上也有汽车品牌逐渐加入自动泊车、自动启停等功能....

的头像 电子发烧友网工程师 发表于 07-29 08:53 4280次 阅读
人机交互比无人驾驶在国内更有实现前景?

0glass自主研发的AR眼镜已通过防爆认证将亮相宝博会

本届宝博会的一大亮点就是在全面展示宝安区社会经济发展成果,同时将重点展示宝安区的龙头产业和优质企业,....

的头像 AR工业应用 发表于 07-27 10:33 1201次 阅读
0glass自主研发的AR眼镜已通过防爆认证将亮相宝博会

400YK短波电台远遥是针对自主选频短波电台的远程连接控制设备

远遥管理软件主界面除包括自主选频短波电台虚拟主界面、定频/自主选频模式操作区、频率信噪比数据统计区、....

的头像 环球专网通信 发表于 07-26 16:54 710次 阅读
400YK短波电台远遥是针对自主选频短波电台的远程连接控制设备

工业机器人技术特点和工业机器人技术趋势

截至2018年6月,从我国工业机器人专利技术构成来看,B25J(机械手;装有操纵装置的容器)专利申请....

的头像 机器人前沿 发表于 07-25 11:33 789次 阅读
工业机器人技术特点和工业机器人技术趋势

2019人工智能将会出现什么新科技?

在过去的几年里,机器学习和人工智能一直是这个城市的话题,相较任何时候它的步伐都不会放慢。

发表于 07-25 08:53 1027次 阅读
2019人工智能将会出现什么新科技?

“一芯多屏”的哪些服务让大家更加期望?

传统的座舱,仪表、娱乐、中控等等这些都是独立的,这主要是当年的技术没到位。在互联网的推动下,包括芯片....

的头像 面包板社区 发表于 07-24 16:28 620次 阅读
“一芯多屏”的哪些服务让大家更加期望?

5分钟,教你打造1小时刷爆朋友圈的完美交互产品!

「AIUI」名词释义 AIUI是科大讯飞最新的人机交互解决方案,融合了远场识别、全双工交互、语音合成、语义理解、私...

发表于 07-20 09:46 299次 阅读
5分钟,教你打造1小时刷爆朋友圈的完美交互产品!

海岸语音石伟:声矢量技术带入消费级市场还远远不够 我们的目标是整条语音技术链条

协会特派记者走进深圳海岸语音技术有限公司,对石伟总经理进行了智能语音行业相关专访。

的头像 深圳市机器人协会 发表于 07-14 09:19 1861次 阅读
海岸语音石伟:声矢量技术带入消费级市场还远远不够 我们的目标是整条语音技术链条

双麦WIFISoC语音交互模块让所有WIFI设备都“能听会说”

讯飞智能硬件平台为智能硬件的开发者们量身打造了双麦WIFISoC语音交互模块—XFWSE201,旨在....

的头像 芯智讯 发表于 07-13 14:32 914次 阅读
双麦WIFISoC语音交互模块让所有WIFI设备都“能听会说”

FCU1401嵌入式控制单元

FCU1401嵌入式控制单元FCU1401嵌入式控制单元是一款适用于自助设备、新零售设备、 自助售卖机、广告机、人机交互界面等产...

发表于 05-30 11:34 722次 阅读
FCU1401嵌入式控制单元

下一场革命性的人机交互方式会是什么?

人机交互,顾名思义,就是人与计算机的交互。它让枯燥无味的代码生动了起来,让众多开发者灵感如泉涌,让亿万用户体验到计算机...

发表于 05-22 11:17 970次 阅读
下一场革命性的人机交互方式会是什么?

DGUS II的SDRAM空间分配与老DGUS的不同点

DGUS II的SDRAM空间为1.5MB,较过去的K600+内核有很大的升级,因此DGUS II内核设计SDRAM的空间分配时也...

发表于 01-03 14:23 931次 阅读
DGUS II的SDRAM空间分配与老DGUS的不同点

DGUS II中的CFG文件如何使用

DGUS II中的CFG文件与过去DGUS中的CONFIG.txt不同,大体上功能是相同的,不过在CFG文件中用户能够配置的内...

发表于 01-03 10:29 1502次 阅读
DGUS II中的CFG文件如何使用

用DGUS II做局部动画,超级简单,只需要三步就搞定

动画效果让人头疼的地方往往是要么需要不断的去发指令剪切黏贴图片,要么得发指令连续的描点,编程量很大。在DGUS II的开...

发表于 01-02 16:25 999次 阅读
用DGUS II做局部动画,超级简单,只需要三步就搞定

获取DGUS显示屏切换页面的状态

为了让设备更可靠,做了一个功能,效果是这样的:人手触摸一个按键时,显示屏返回一个数值,并发生页面切换,为了确认切换页面...

发表于 12-26 21:22 1183次 阅读
获取DGUS显示屏切换页面的状态