AlphaPose是一个实时多人姿态估计系统

新智元 2018-09-08 09:11 次阅读

上海交通大学卢策吾团队MVIG实验室最新上线了他们此前开源的实时人体姿态估计系统AlphaPose的升级版。新系统采用 PyTorch 框架,在姿态估计标准测试集COCO上达到当前最高精度71mAP,同时平均速度20FPS,比Mask-RCNN速度快3倍。

AlphaPose是一个实时多人姿态估计系统。

今年2月,上海交通大学卢策吾团队MVIG实验室AlphaPose 系统上线,是首个在 COCO 数据集上可达到 70+ mAP 的开源姿态估计系统。本次更新,在精度不下降情况下,实时性是一大提升亮点。

新系统采用 PyTorch 框架,在姿态估计(Pose Estimation)标准测试集COCO validation set上,达到 71mAP的精度(比 OpenPose 相对提升17%,Mask-RCNN相对提升8%),同时,速度达到了20FPS(比 OpenPose 相对提高66%,Mask-RCNN相对提高300%)。

再次感受一下升级后AlphaPose的速度

检测精度不变,平均速度比Mask-RCNN快3倍

人体关键点检测对于描述人体姿态,预测人体行为至关重要。因此,人体关键点检测是诸多计算机视觉任务的基础。其在动作分类,异常行为检测,以及人机交互等领域有着很广阔的应用前景,是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。

AlphaPose系统,是基于上海交大MVIG组提出的 RMPE 二步法框架(ICCV 2017论文)构建的,相比其他开源系统在准确率有很大提高,比OpenPose相对提高17%,Mask-RCNN相对提高8.2%。 

升级后,各个开源框架在COCO-Validation上性能,时间在单卡1080ti GPU测出指标如下:


基于PyTorch框架,在人体姿态估计模型中引入Attention模块

新版 AlphaPose 系统,架设在 PyTorch 框架上,得益于Python的灵活性,新系统对用户更加友好,安装使用过程更加简易,同时支持Linux与Windows系统使用,方便进行二次开发。此外,系统支持图片、视频、摄像头输入,实时在线计算出多人的姿态结果。

为了在兼顾速度的同时保持精度,新版AlphaPose提出了一个新的姿态估计模型。模型的骨架网络使用 ResNet101,同时在其下采样部分添加 SE-block 作为 attention 模块——已经有很多实验证明,在 Pose Estimation 模型中引入 attention 模块能提升模型的性能,而仅在下采样部分添加 SE-block 能使 attention 以更少的计算量发挥更好的效果。

除此之外,使用 PixelShuffle + Conv 进行3次上采样,输出关键点的热度图。传统的上采样方法会使用反卷积或双线性插值。而使用 PixelShuffle 的好处在于,在提高分辨率的同时,保持特征信息不丢失。对比双线性插值,运算量低;对比反卷积,则不会出现网格效应。

在系统架构方面,新版 AlphaPose 采用多级流水的工作方式,使用多线程协作,将速度发挥到极致。

AlphaPose 系统目前在COCO的 Validation 集上的运行速度是 20FPS(平均每张图片4.6人),精度达到71mAP。 在拥挤场景下(平均每张图片15人),AlphaPose系统速度仍能保持 10FPS 以上。

原文标题:最高比Mask-RCNN快3倍!上交大实时姿态估计AlphaPose升级

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

未来的人机交互方式有哪些?

在人类发明史上,诞生了无数的英雄。他们的发明往往从一项前沿技术到家喻户晓、无处不在,但他们自己却又鲜....

的头像 悟空智能科技 发表于 12-02 09:58 236次 阅读
未来的人机交互方式有哪些?

如何与道路上无人驾驶的车辆进行互动

自动驾驶的人机交互,不仅仅在于车内的DMS系统,还在于一些在自动驾驶领域的研究人员称之为“握手”的机....

的头像 高工智能汽车 发表于 11-29 11:36 519次 阅读
如何与道路上无人驾驶的车辆进行互动

奔驰搭载首款人机交互系统MBUX

在电子消费展上见到车载信息娱乐系统的展示并不新鲜,事实上,在车载信息娱乐系统,或者舱内智能化越来越先....

的头像 高工智能汽车 发表于 11-29 11:09 387次 阅读
奔驰搭载首款人机交互系统MBUX

未来的人机交互方式有哪些

在人类发明史上,诞生了无数的英雄。他们的发明往往从一项前沿技术到家喻户晓、无处不在,但他们自己却又鲜....

的头像 人工智能学家 发表于 11-27 15:43 2808次 阅读
未来的人机交互方式有哪些

深入了解数据智能的现在与发展

大数据时代,数据已经渗透到每一个行业和领域中。为了让数据发挥它最大的价值,数据智能应运而生,帮助我们....

的头像 嵌入式资讯精选 发表于 11-26 14:27 459次 阅读
深入了解数据智能的现在与发展

剖析人脸识别技术及其应用领域和发展趋势

本期我们推荐来自清华大学副教授唐杰领导的学者大数据挖掘项目Aminer的研究报告,讲解人脸识别技术及....

的头像 人工智能学家 发表于 11-23 14:35 1827次 阅读
剖析人脸识别技术及其应用领域和发展趋势

Boston Dynamics又为何即将走上开售产品的商业化之路?

2017年谷歌宣布将Boston Dynamics和Schaft出售给SoftBank。但再Tech....

的头像 机器人创新生态 发表于 11-21 15:02 653次 阅读
Boston Dynamics又为何即将走上开售产品的商业化之路?

导入和使用Horovod收到错误

嗨, 如果有一个使用Horovod和Keras或PyTorch等流行框架的指南会很有用。 我尝试导入“import horovod.keras as hvd”,我...

发表于 11-21 14:21 91次 阅读
导入和使用Horovod收到错误

人机交互引发隐私争议 DMS未来如何发展

越来越多的车载传感器用于检测用户行为与数据,随之而来的是用户隐私问题。

的头像 高工智能汽车 发表于 11-21 09:43 590次 阅读
人机交互引发隐私争议 DMS未来如何发展

基于PyTorch重写的机器学习工具包HyperLearn

让我们先大致看一下“奇异值分解”(SVD)这一章,这是最重要的算法之一。SVD将PCA、线性回归、岭....

的头像 新智元 发表于 11-20 09:23 320次 阅读
基于PyTorch重写的机器学习工具包HyperLearn

维音金融业呼叫中心外包解决方案的组成与特点介绍

维音是中国领先的一站式呼叫中心解决方案提供商,主要为世界500强及各大中型企业提供专业的呼叫中心整体....

的头像 CTI论坛 发表于 11-19 15:20 369次 阅读
维音金融业呼叫中心外包解决方案的组成与特点介绍

机器学习框架Tensorflow 2.0的这些新设计你了解多少

几天前,Tensorflow刚度过自己的3岁生日,作为当前最受欢迎的机器学习框架,Tensorflo....

的头像 论智 发表于 11-17 11:33 901次 阅读
机器学习框架Tensorflow 2.0的这些新设计你了解多少

批量大小为3的内存不足

我正在使用IntelAI节点来训练pytorch中的深层网络。 但是,当我运行程序时,出现内存不足错误。 我的训练数据大小为1GB,...

发表于 11-14 11:42 75次 阅读
批量大小为3的内存不足

双11霸榜硬货全通路销售冠军讯飞翻译机2.0神通何在

支持中文和全球33种语言的即时互译,精准快速的翻译功能,覆盖各类全场景沟通需求;全新INMT翻译引擎....

的头像 电子发烧友网工程师 发表于 11-13 10:50 293次 阅读
双11霸榜硬货全通路销售冠军讯飞翻译机2.0神通何在

BERT模型的PyTorch实现

BertModel是一个基本的BERT Transformer模型,包含一个summed token....

的头像 新智元 发表于 11-13 09:12 457次 阅读
BERT模型的PyTorch实现

触控技术多点开花 商用显示车载及新零售是重点

近年来,随着移动互联网和物联网的快速发展,显示器件作为人机交互的重要界面被人们越来越重视,显示无处不....

的头像 电子发烧友网工程师 发表于 11-09 16:12 3376次 阅读
触控技术多点开花 商用显示车载及新零售是重点

让AI+机器人做“数字化助手”标配

以往的工业机器人强调自动化,就是在已知环境里,完成精确控制、事先编程和重复性一系列动作,而现在逐渐走....

的头像 天津机器人 发表于 11-09 10:11 572次 阅读
让AI+机器人做“数字化助手”标配

浅析工业机器人技术特点、现状及趋势

工业机器人由3大部分6个子系统组成。3大部分是机械部分、传感部分和控制部分。6个子系统可分为机械结构....

的头像 机器人前沿 发表于 11-07 16:43 573次 阅读
浅析工业机器人技术特点、现状及趋势

柔宇发布全球首款可折叠屏手机

北京时间10月31日下午,柔宇科技在北京国家会议中心举办2018全球新品发布会,正式发售具有革命性里....

的头像 CINNO 发表于 11-06 17:34 2208次 阅读
柔宇发布全球首款可折叠屏手机

协处理器在界面技术方面提升用户体验

当今的消费者对技术的要求日益提升,这一点在用于与设备进行互动的界面技术上体现得尤为明显。人们对包括手....

的头像 电子设计 发表于 11-05 08:13 125次 阅读
协处理器在界面技术方面提升用户体验

OLED显示行业未来的应用增长点在哪

在OLED显示产业大发展的三十年,有一个问题不容忽视——国内技术水平差距仍明显,设备和关键材料依赖进....

的头像 新材料在线 发表于 11-02 08:52 756次 阅读
OLED显示行业未来的应用增长点在哪

智能仪器的菜单式人机交互界面的硬件结构与设计介绍

带有微处理器的仪器的操作曾经是通过仪器面板上众多的功能键和数字键来实现人机交互的,程序用查询的方法扫....

的头像 电子设计 发表于 10-31 09:59 283次 阅读
智能仪器的菜单式人机交互界面的硬件结构与设计介绍

具有多点接触功能的游戏演示

Hot Shots具有多点接触功能,适用于大型团体和派对游戏。 Hot Shots是英特尔®应用创新....

的头像 英特尔 Altera视频 发表于 10-31 06:59 248次 观看
具有多点接触功能的游戏演示

浅谈人工智能中六大关键技术

当前,人工智能可谓是科技领域炙手可热的话题了,很多公司完善人工智能技术,研发人工智能产品。从Siri....

发表于 10-25 15:50 856次 阅读
浅谈人工智能中六大关键技术

第2部分:从传统工程到混合设计

Wendy Ju has a traditional engineering background ....

的头像 英特尔 Altera视频 发表于 10-22 06:11 131次 观看
第2部分:从传统工程到混合设计

下一代的人机交互方式是什么?

清华大学语音和语言技术中心主任、得意音通董事长郑方博士接受 CSDN 采访时表示:“目前在声纹识别这....

的头像 电子发烧友网工程师 发表于 10-21 10:39 1608次 阅读
下一代的人机交互方式是什么?

商汤和港中大开源了基于PyTorch的检测库——mmdetection

当然,陈恺博士也承认 Detectron 也有一些明显优势,“作为第一个全面的 detection ....

的头像 电子发烧友网工程师 发表于 10-19 09:15 695次 阅读
商汤和港中大开源了基于PyTorch的检测库——mmdetection

如何实现LED显示屏在安装调试中的智能配置设计

近几年随着LED 行业的迅猛发展,显示屏型号、规格非常多,百花齐放,让用户有了更多的选择,也让LED....

的头像 电子设计 发表于 10-18 08:33 370次 阅读
如何实现LED显示屏在安装调试中的智能配置设计

从蓝海杀成红海的语音科技,如何才能转化成智能家庭的入口

在智能音箱领域,用户体验是经常被强调的点,语音交互与服务内容则是竞争核心。而智能音箱行业发展的最大瓶....

的头像 电子发烧友网工程师 发表于 10-12 14:30 1528次 阅读
从蓝海杀成红海的语音科技,如何才能转化成智能家庭的入口

什么是张量,如何在PyTorch中操作张量?

Kirill Dubovikov写的PyTorch vs TensorFlow — spotting....

的头像 论智 发表于 10-12 08:58 706次 阅读
什么是张量,如何在PyTorch中操作张量?

谷歌新品发布会暴露谷歌的野心和痛点

10月10日凌晨结束的秋季发布会上,谷歌发布了一揽子硬件产品,如果不去计较差异,你会发现这就是一些不....

的头像 电子发烧友网工程师 发表于 10-10 16:27 905次 阅读
谷歌新品发布会暴露谷歌的野心和痛点

fast.ai发布的一个简便、好用的PyTorch库

Christine McLeavey Payne是从上一期Fast.ai深度学习课程中脱颖而出的一名....

的头像 论智 发表于 10-10 09:20 839次 阅读
fast.ai发布的一个简便、好用的PyTorch库

迈向机器人时代!这次IROS都会呈现哪些精彩的技术?

Workshops是会议主要内容。今年的IROS共接收了48个(33个full-day和15个hal....

的头像 将门创投 发表于 10-08 15:14 742次 阅读
迈向机器人时代!这次IROS都会呈现哪些精彩的技术?

Facebook宣布发布深度学习框架 PyTorch 1.0开发者预览版

为了满足这些需求,Google Cloud 也将为其众多服务引入 PyTorch 支持。Facebo....

的头像 电子发烧友网工程师 发表于 10-08 14:36 749次 阅读
Facebook宣布发布深度学习框架 PyTorch 1.0开发者预览版

千呼万唤始出来,PyTorch1.0预览版终于问世!

Azure机器学习服务现在允许开发人员无缝地从在本地机器上训练PyTorch模型,并转移到Azure....

的头像 新智元 发表于 10-08 10:49 787次 阅读
千呼万唤始出来,PyTorch1.0预览版终于问世!

谷歌和Facebook正在联手,在AI领域共同合作

PyTorch 1.0将即时模式和图形执行模式融合在一起,为生产的研究和性能优化提供了灵活性。更具体....

的头像 新智元 发表于 10-08 10:44 776次 阅读
谷歌和Facebook正在联手,在AI领域共同合作

采用nRF24L01无线数据传输芯片和开发板设计智能探测系统

nRF24L01是挪威NorDic公司的单片2.4 GHz无线收发一体芯片,有多达125个频道可供选....

的头像 电子设计 发表于 10-07 11:08 386次 阅读
采用nRF24L01无线数据传输芯片和开发板设计智能探测系统

聆听Alexa核心团队科学家解读语音语义的奥秘

远场语音识别是指在较远的距离条件下(通常是1m-10m),机器对语音加以识别的技术。该技术一般采用麦....

的头像 电子发烧友网工程师 发表于 09-25 11:08 835次 阅读
聆听Alexa核心团队科学家解读语音语义的奥秘

革新人机交互方式 自然语言交互成为主流

我相信我们正走在正确的道路上,然而我也能看到这条道路的艰辛和漫长。好在经过十多年的反复探索,虽然屡战....

的头像 机器人大讲堂 发表于 09-19 17:41 574次 阅读
革新人机交互方式 自然语言交互成为主流

探讨语音识别技术的发展历史、难点及对策

在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与....

的头像 传感器技术 发表于 09-17 10:22 812次 阅读
探讨语音识别技术的发展历史、难点及对策

我们花了147个小时,整理出人机交互8个热门知识点

一周前,班主任问了拾月助教一个十分深刻的问题。 什么样的人机交互才是趋于完美的自然交互? 拾月想了一会说:“比如我...

发表于 09-17 09:32 386次 阅读
我们花了147个小时,整理出人机交互8个热门知识点

北京林业大学研发基于碳化皱纹纸的柔性传感器

研究团队通过简单、低成本的制备技术开发了一种基于碳化皱纹纸的柔性各向异性传感器。

的头像 MEMS 发表于 09-13 17:38 769次 阅读
北京林业大学研发基于碳化皱纹纸的柔性传感器

中车长春轨道客车发布新一代地铁列车,实现全自动无人运行

近日,中车长春轨道客车股份有限公司在举办的长春轨道交通展上发布了新一代地铁列车,该车能实现全自动无人....

的头像 机器人技术与应用 发表于 09-13 15:52 1070次 阅读
中车长春轨道客车发布新一代地铁列车,实现全自动无人运行

2018生物识别技术与应用高峰论坛圆满落下帷幕

沈瑄认为,目前3D结构光面临三大瓶颈,应用、外观和成本。“为什么说安卓市场的3D结构光不像苹果那样爆....

的头像 芯智讯 发表于 09-12 16:32 1602次 阅读
2018生物识别技术与应用高峰论坛圆满落下帷幕

阿里云IoT&庆科信息万物有声机器人创新创业大赛,找的就是你!

近年来,在政府的鼓励支持下,我国机器人产业创新不断,市场持续繁荣。随着机器人应用不断深入到工作、生活....

的头像 人间烟火123 发表于 09-12 15:30 2889次 阅读
阿里云IoT&庆科信息万物有声机器人创新创业大赛,找的就是你!

3D感知全栈方案赋能全行业,3D结构光将在手机上普及

根据沈瑄介绍,旷视3D感知全栈解决方案主要包括:第一,识别与感知,通过人机交互技术,让机器了解到人;....

的头像 芯智讯 发表于 09-12 14:28 1221次 阅读
3D感知全栈方案赋能全行业,3D结构光将在手机上普及

针对变电站隔离开关智能I/O装置故障的软件分析

隔离开关智能I/O装置是智能变电站的一种一次设备的智能组件,主要用于隔离开关工作状态的监控,并接收间....

的头像 电子设计 发表于 09-12 09:13 561次 阅读
针对变电站隔离开关智能I/O装置故障的软件分析

如何创建可用的触摸UI

lways wanted to know the difference between touch-....

的头像 英特尔 Altera视频 发表于 09-10 04:09 567次 观看
如何创建可用的触摸UI

中国国际智能产业博览会,展示小远政务服务机器人

作为远传智能政务服务交互中心不可或缺的一环,小远AI政务服务机器人使用语音识别,屏幕多媒体,与宾客热....

的头像 CTI论坛 发表于 09-05 16:38 1285次 阅读
中国国际智能产业博览会,展示小远政务服务机器人

为什么要去买一只价值2900美元的机器狗呢?

我做了最后一次尝试,想让它坐下。结果它摇着橡胶般的尾巴朝我吠叫了一番。这个简单的动作打消了我的怀疑。....

的头像 重庆人工智能 发表于 09-04 17:15 1509次 阅读
为什么要去买一只价值2900美元的机器狗呢?

Rokid推出全新黑科技AR眼镜Rokid Glass

2017年,AR越来越少被人提及,成为资本市场的弃儿。因为风口过后,大多数人开始看衰这个行业,甚至几....

的头像 物联网前沿 发表于 09-03 15:19 819次 阅读
Rokid推出全新黑科技AR眼镜Rokid Glass

共同探讨AI+技术将带来怎样的发展,对数据发展产生怎样的推动力

徐玉林认为,人工智能改变世界的三大要素是核心技术、行业专家和行业大数据。随后,来自全球最大的企业级软....

的头像 工业4俱乐部 发表于 09-03 14:26 906次 阅读
共同探讨AI+技术将带来怎样的发展,对数据发展产生怎样的推动力

Our Earth是什么?Our Earth或将成区块链交易热门

提到区块链,行业人士都如数家珍,在区块链技术从诞生到1.0时代、2.0时代,短短十年时间,区块链技术....

发表于 09-01 09:24 275次 阅读
Our Earth是什么?Our Earth或将成区块链交易热门

用迪文屏模拟了个加密键盘,几行OS搞定!

今天用迪文屏模拟了个加密键盘,可以实现每次录入密码时,键盘上数字或者字母的顺序都会重新排列,大大提升了产品应用的安全系...

发表于 08-07 09:23 823次 阅读
用迪文屏模拟了个加密键盘,几行OS搞定!

STM32评估板与迪文屏交互,没几行代码就实现一些简单功能,也没那么难!

用STM32评估板与迪文屏做交互,也没那么难! 没几行C代码就可以实现一些简单的功能。跟大家分享下,详细视频和说明请下载附件...

发表于 08-06 17:42 679次 阅读
STM32评估板与迪文屏交互,没几行代码就实现一些简单功能,也没那么难!

5分钟,教你打造1小时刷爆朋友圈的完美交互产品!

「AIUI」名词释义 AIUI是科大讯飞最新的人机交互解决方案,融合了远场识别、全双工交互、语音合成、语义理解、私...

发表于 07-20 09:46 358次 阅读
5分钟,教你打造1小时刷爆朋友圈的完美交互产品!

FCU1401嵌入式控制单元

FCU1401嵌入式控制单元FCU1401嵌入式控制单元是一款适用于自助设备、新零售设备、 自助售卖机、广告机、人机交互界面等产...

发表于 05-30 11:34 845次 阅读
FCU1401嵌入式控制单元

下一场革命性的人机交互方式会是什么?

人机交互,顾名思义,就是人与计算机的交互。它让枯燥无味的代码生动了起来,让众多开发者灵感如泉涌,让亿万用户体验到计算机...

发表于 05-22 11:17 1043次 阅读
下一场革命性的人机交互方式会是什么?

DGUS II的SDRAM空间分配与老DGUS的不同点

DGUS II的SDRAM空间为1.5MB,较过去的K600+内核有很大的升级,因此DGUS II内核设计SDRAM的空间分配时也...

发表于 01-03 14:23 1047次 阅读
DGUS II的SDRAM空间分配与老DGUS的不同点

DGUS II中的CFG文件如何使用

DGUS II中的CFG文件与过去DGUS中的CONFIG.txt不同,大体上功能是相同的,不过在CFG文件中用户能够配置的内...

发表于 01-03 10:29 1739次 阅读
DGUS II中的CFG文件如何使用