侵权投诉

谷歌公布亚毫秒级的人脸检测算法BlazeFace

2019-07-18 09:41 次阅读

谷歌近日公布亚毫秒级的人脸检测算法BlazeFace,这是一款专为移动GPU推理量身定制的轻量级人脸检测器,能够以200~1000+ FPS的速度运行,且性能非常卓越!

近年来,深度神经网络的各种架构改进使得实时目标检测成为可能。实验室可以不计一切地开发各种算法追求逼近极限的精度,而实际应用中,响应速度、能耗和精度都重要。这就要求算法的复杂度要低、适合硬件加速。

在移动应用中,实时目标检测往往只是视频处理流程的第一步,接下来是各种特定的任务,如分割、跟踪或几何推理。

因此,运行对象检测模型推理的算法要尽可能快,最好还具有比标准实时基准更高的性能。

谷歌刚刚上传到arXiv的一篇论文BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs,推出了BlazeFace算法,这是一款专为移动GPU推理量身定制的轻量级人脸检测器,且性能非常卓越!

有多卓越呢?谷歌在其旗舰设备测试,结果发现BlazeFace能够以200~1000+ FPS的速度运行。

这种超实时性能使其能够应用于任何需要准确的面部区域,作为特定模型输入的增强现实应用中,例如2D/3D面部关键点或几何估计、面部特征或表情分类、以及面部区域分割等。 

谷歌已经把该算法应用在工业中。

两大算法创新,一切为了又快又好

BlazeFace包括一个轻量级的特征提取网络,其灵感来自于MobileNetV1/V2,但又有所不同。还采取了一种修改过的SSD目标检测算法,使其对GPU更加友好。然后用改进的联合分辨率(tie resolution)策略来替代非极大抑制(Non-maximum suppression)。

BlazeFace可用于检测智能手机前置摄像头捕捉到的图像中的一个或多个人脸。返回的是一个边界框和每个人脸的6个关键点(从观察者的角度看左眼、右眼、鼻尖、嘴、左眼角下方和右眼角下方)。

算法创新包括:

1、与推理速度相关的创新:

提出一种在结构上与MobileNetV1/V2相关的非常紧凑的特征提取器卷积神经网络,专为轻量级对象检测而设计。

提出了一种基于SSD的GPU-friendly anchor机制,旨在提高GPU的利用率。Anchors是预定义的静态边界框,作为网络预测调整的基础,并确定预测粒度。

2、与预测性能相关的创新:

提出一种替代非极大抑制的联合分辨率策略,在重叠预测之间实现更稳定、更平滑的tie resolution。

BlazeBlock (左) 和 double BlazeBlock

BlazeFace的模型架构如上图所示,在设计方面考虑了以下4个因素:

扩大感受野(receptive field)的大小:

虽然大多数现代卷积神经网络架构(包括MobileNet)都倾向于在模型图中使用3×3的卷积核,但我们注意到深度可分离卷积计算主要由它们的点态部分控制。

本研究发现,增加深度部分的内核大小成本并不会增加很多。因此,我们在模型架构中使用了5×5的卷积核,用kernel size的增加来交换达到特定receptive field大小所需的bottlenecks总数的减少。

深度卷积的低开销还允许我们在这两个点卷积之间引入另一个这样的层,从而进一步加速达到所需receptive field。这形成了一个double BlazeBlock,如上图右边所示。

特征提取器(Feature extractor):

在实验中,我们将重点放在前置相机模型的特征提取器上。它必须考虑更小的对象范围,因此具有更低的计算需求。提取器采用128×128像素的RGB输入,包含一个2D卷积,以及5个BlazeBlock和6个 double BlazeBlock,如下表所示:

改进的Anchor 机制:

类似于SSD的对象检测模型依赖于预定义的固定大小的基本边界框,称为priors,或者Faster-R-CNN中提出的术语“Anchor”。

我们将 8×8,4×4 和 2×2 分辨率中的每个像素的 2 个 anchor 替换为 8×8 的 6 个 anchor。由于人脸长宽比的变化有限,因此将 anchor 固定为 1:1 纵横比足以进行精确的面部检测。

pipeline示例。红色:BlazeFace的输出。绿色:特定于任务的模型输出。

后处理机制(Post-processing):

由于我们的feature extractor并没有将分辨率降低到8×8以下,所以与给定对象重叠的anchor的数量会随着对象的大小而显著增加。在典型的非极大抑制场景中,只有一个anchor“胜出”,并被用作最终的算法结果。当这样的模型应用于随后的视频帧时,预测往往会在不同的anchor点之间波动,并表现出明显的人脸框抖动。

为了最小化这个问题,我们用一种混合策略代替了抑制算法,该策略将一个边界框的回归参数估计为重叠预测之间的加权平均值。它实际上不会给原始的NMS算法带来额外的成本。对于我们的人脸检测任务,这个调整使准确率提高了10%。

专为GPU设计,准确度超越MobileNetV2

超实时性能。解锁需要面部区域作为输入的“任务特定”模型的实时AR pipeline:

准确的3D面部几何

通过Blendshapes进行Puppeteering

面部分割

AR化妆试穿/美化

头发/嘴唇/虹膜重新着色

磨皮

专为移动GPU设计

专为移动GPU和CPU设计

轻量级特征提取网络

更适合GPU的anchor方案

改进了tie resolution策略

GPU上的快速推理

精度

眼间距离的平均绝对误差为10%左右就足够精确了

后续模型的面对齐

生成6个面部关键点坐标

在低端设备上仅使用此模型,实现耳朵等简单特效

原文标题:亚毫秒级手机人脸识别!谷歌BlazeFace算法重大突破, 面向移动GPU

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

关于云存储的安全问题解析

最近发现一个针对云存储的调查,调查涉及的产品包括主流的Dropbox、谷歌网盘、iCloud、Sug....
发表于 08-09 10:28 33次 阅读
关于云存储的安全问题解析

AI实时换脸项目Avatarify已成功制作成APP

人类对于角色扮演的热情永远不会消退,这也是 AI 换脸广受追捧的原因。三个月前,机器之心曾介绍过一个....
发表于 08-08 08:42 207次 阅读
AI实时换脸项目Avatarify已成功制作成APP

如何才能在FPGA上实现对数函数

对数函数在粒子滤波、RBF 神经网络、图像处理等领域广泛运用。CORDIC 算法( TheCoord....
发表于 08-07 17:14 36次 阅读
如何才能在FPGA上实现对数函数

如何看待谷歌VR耳机进行VR恢复

如果您曾经涉足自定义ROM和内核领域,那么您可能对称为TWRP的自定义恢复有所了解。
发表于 08-07 14:29 95次 阅读
如何看待谷歌VR耳机进行VR恢复

亚马逊谷歌等云计算增速减缓,中国厂商凶猛,已将业务触角伸向亚太地区

近日,万亿市值俱乐部三巨头——微软、谷歌、亚马逊相继公布了截至6月30日的季度财报。
的头像 如意 发表于 08-07 11:46 1024次 阅读
亚马逊谷歌等云计算增速减缓,中国厂商凶猛,已将业务触角伸向亚太地区

谷歌Pixel设备将配备4.97英寸FHD分辨率显示屏

Pixel和Pixel XL是备受期待的设备,但最终它们主要是Google的第一代入门版本,尽管它们....
发表于 08-07 11:06 123次 阅读
谷歌Pixel设备将配备4.97英寸FHD分辨率显示屏

谷歌的Pixel 4a为什么采用OLED显示屏?还以349美元低价出售

当谷歌正式推出Pixel 4a的时候,很多人可能会惊讶于该公司是如何在这款中端猛兽上加入OLED面板....
发表于 08-07 10:45 101次 阅读
谷歌的Pixel 4a为什么采用OLED显示屏?还以349美元低价出售

智能眼镜制造商North以1.8亿美元贱卖Alphabet

据一份报告称,谷歌母公司Alphabet正在收购智能眼镜制造商加拿大创业公司North,收购已经进入....
发表于 08-07 10:07 235次 阅读
智能眼镜制造商North以1.8亿美元贱卖Alphabet

未来菲亚特克莱斯勒将与Waymo独家合作开发完全自动驾驶车辆

两家公司表示,他们将共同开发用于运载货物的自动驾驶轻型商用车辆,首先将Waymo的自动驾驶技术集成到....
的头像 机器人技术与应用 发表于 08-07 09:52 566次 阅读
未来菲亚特克莱斯勒将与Waymo独家合作开发完全自动驾驶车辆

大连理工大学等单位研发了一个玻璃检测神经网络

这给了研究者们很大的启发,并最终设计了名为大视场上下文特征融合(Large-field Contex....
的头像 机器人大讲堂 发表于 08-06 16:15 86次 阅读
大连理工大学等单位研发了一个玻璃检测神经网络

蓬佩奥威胁下架不可信任中国App_意阻止华为预装美国App

据综合彭博社、路透社消息,美国国务卿蓬佩奥5日再次以所谓“国家安全”为由,宣称美国正在加紧努力从美国....
的头像 电子魔法师 发表于 08-06 15:52 2746次 阅读
蓬佩奥威胁下架不可信任中国App_意阻止华为预装美国App

人脸识别技术正如火如荼地开展,狗脸识别技术也不甘落后

就在这周,支付宝开放了「宠物鼻纹识别」技术,将根据鼻纹信息创建宠物电子档案,主要应用于为猫、狗等宠物....
的头像 机器人大讲堂 发表于 08-06 15:25 267次 阅读
人脸识别技术正如火如荼地开展,狗脸识别技术也不甘落后

快讯:软机器人执行器可以自我修复

重复的活动会磨损软机器人致动器,但是这些机器的运动部件必须可靠且易于固定。来自宾夕法尼亚州立大学的研....
的头像 机器人大讲堂 发表于 08-06 15:09 165次 阅读
快讯:软机器人执行器可以自我修复

通过应用界面就能远程检查车辆状态的智能手机到底有多神?

根据车型的不同,奔驰驾驶员可以利用me应用启动引擎、上锁或解锁车门、跟踪车辆位置或呼叫路边援助服务。....
的头像 我快闭嘴 发表于 08-06 14:56 320次 阅读
通过应用界面就能远程检查车辆状态的智能手机到底有多神?

在零售场景中采用自助收银机的优势都有哪些

在新零售、智慧零售的发展趋势下,无人超市、人脸支付、自助收银机等各类智慧零售终端在零售场景落地应用,....
发表于 08-05 17:06 253次 阅读
在零售场景中采用自助收银机的优势都有哪些

Glow神经网络编译器首次应用于MCU,面向边缘端机器学习

率先开发PyTorch的Facebook推出了开源社区项目Glow(Graph Lowering神经....
发表于 08-05 14:32 316次 阅读
Glow神经网络编译器首次应用于MCU,面向边缘端机器学习

苹果被爆硬件级不可修复漏洞 索尼PS5 Pro有戏 谷歌将会有5G版Pixel 5

盘古团队发现苹果硬件级不可修复漏洞 索尼PS5 Pro有戏:不着急的可以坐等了 微软将在八月份公布X....
的头像 39度创意研究所 发表于 08-05 12:01 685次 阅读
苹果被爆硬件级不可修复漏洞 索尼PS5 Pro有戏 谷歌将会有5G版Pixel 5

自动驾驶最新消息:谷歌前自动驾驶工程师获刑 日本德国美国百花齐放

自动驾驶领域的国际合作也在不断加深。中日两国汽车工业协会2018年签署合作备忘录,提出将在汽车自动驾....
发表于 08-05 11:27 155次 阅读
自动驾驶最新消息:谷歌前自动驾驶工程师获刑 日本德国美国百花齐放

云计算可以为企业的业务做什么?

但是企业在将业务迁移到云平台时可能会面临巨大的挑战,尤其是如果企业已经拥有使用多年的内部部署基础设施....
发表于 08-04 11:29 197次 阅读
云计算可以为企业的业务做什么?

谷歌人工智能公司研究神经网络在极长的时间尺度内如何移动

但玻璃是一种奇怪的、介于两者之间的物质,几十年来一直困惑着物理学家。如果给玻璃中的分子拍一张快照,它....
的头像 lhl545545 发表于 08-04 10:11 158次 阅读
谷歌人工智能公司研究神经网络在极长的时间尺度内如何移动

Nest的设备成为ADT智能家居产品的基石

  Nest副总裁兼总经理Rishi Chandra在博客中表示,随着时间的推移,Nest的设备将增....
的头像 我快闭嘴 发表于 08-04 09:28 224次 阅读
Nest的设备成为ADT智能家居产品的基石

人脸红外体温检测一体终端面世,实现智能化管理

人员密集型场所,针对室内通道型、门禁通行时,验证人员身份并实时测体温后,数据上传后台,进行人员通行记....
发表于 08-04 09:19 756次 阅读
人脸红外体温检测一体终端面世,实现智能化管理

谷歌计划部署一条名为Grace Hopper的海底光缆系统

互联网巨头谷歌公司近日宣布了一项新的计划,即计划部署一条新的海底光缆系统,连接美国纽约、英国布德、西....
发表于 08-03 17:14 114次 阅读
谷歌计划部署一条名为Grace Hopper的海底光缆系统

镜像翻转的图像,能不变?

这项研究在多种领域(人脸,互联网图片,数字处理图像)上利用卷积神经网络,发现了许多常人难以捕捉的「视....
的头像 算法与数据结构 发表于 08-03 16:58 508次 阅读
镜像翻转的图像,能不变?

One ID全流程刷脸通关为大兴机场保驾护航,实现全流程“刷脸通关”

“看一眼屏幕,就显示验证成功了,也不需要拿出身份证,真智能啊!以后从大兴机场出发更加便捷啦!”近日,....
发表于 08-03 16:10 203次 阅读
One ID全流程刷脸通关为大兴机场保驾护航,实现全流程“刷脸通关”

一款基于神经网络架构的低功耗四核DSP芯片

据Synaptics 中国区marketing Roger Qiu介绍, AS33970一颗芯片可以....
的头像 益登科技 发表于 08-03 15:10 190次 阅读
一款基于神经网络架构的低功耗四核DSP芯片

在学校里安装智慧班牌,可以实现哪些场景应用

智慧班牌可以在学校的教室门口、图书馆、办公室,在医院等更多场景应用。在学校场景应用可以实现信息展示、....
发表于 08-03 14:21 185次 阅读
在学校里安装智慧班牌,可以实现哪些场景应用

巨哥电子发布红外热成像人脸识别门禁一体机

为帮助全球更多国家筑起抗疫防线,MAG-FR160拥有英、法、意、俄、日、韩、中文简体、中文繁体UI....
的头像 MEMS 发表于 08-02 10:19 762次 阅读
巨哥电子发布红外热成像人脸识别门禁一体机

AI助力高校安全有序完成疫情期间的迎新工作

因此,中国移动推出火瞳(千里眼)5G智慧迎新方案,通过AI、红外测温、5G、人脸识别等技术,实现迎新....
发表于 08-01 14:32 369次 阅读
AI助力高校安全有序完成疫情期间的迎新工作

你我不懂的手语,为什么AI也很难读懂?

虽然探索艰难,但科技企业们和学界还是不断在手语AI上取得成果。例如腾讯优图实验室推出的 “优图AI手....
发表于 07-31 15:59 344次 阅读
你我不懂的手语,为什么AI也很难读懂?

看点:大厂的机器学习参考架构

尽管围绕机器学习和人工智能(AI)进行了大肆宣传,但企业中的大多数努力仍处于试验阶段。
发表于 07-31 15:55 56次 阅读
看点:大厂的机器学习参考架构

人工智能服务民生,打造创新商业模式

作为 “脸行贵阳” 项目的整体端到端解决方案提供商,国内领先的人工智能企业依图科技也受邀出席了本次发....
发表于 07-31 11:51 348次 阅读
人工智能服务民生,打造创新商业模式

关于一款开源的人脸识别应用套件ArcFaceGo应用介绍

在运行性能方面,该开源应用套件在底层算法逻辑中维护"人脸底库",可以充分提升人脸识别速度,以RK32....
发表于 07-31 10:33 412次 阅读
关于一款开源的人脸识别应用套件ArcFaceGo应用介绍

训练神经网络的数据主要来自大陆测试车队?

神经网络如果可以帮助驾驶员甚至自动驾驶车辆,需要几千个小时的训练,其中包括数百万幅图像和数据。据该公....
发表于 07-31 10:17 68次 阅读
训练神经网络的数据主要来自大陆测试车队?

指纹识别技术目前还有哪些不足?

生物将成为今后几年IT产业的重要变革。生物特征是通过计算机利用人体固有的生理特征或行为特征鉴别个人身....
发表于 07-31 09:58 71次 阅读
指纹识别技术目前还有哪些不足?

生物识别是什么意思_常见的生物识别技术

所谓生物识别技术就是,通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人....
的头像 电子魔法师 发表于 07-31 09:08 187次 阅读
生物识别是什么意思_常见的生物识别技术

人脸识别技术会成为安防系统发展的阻碍吗?

  而且与国外不同,中国的企业在应用优先的环境中,人脸识别等一众新技术仍在野蛮生长。一家云服务商负责....
发表于 07-31 08:27 514次 阅读
人脸识别技术会成为安防系统发展的阻碍吗?

计算机视觉常用算法_计算机视觉有哪些分类

本文主要介绍了计算机视觉常用算法及计算机视觉的分类。
的头像 电子魔法师 发表于 07-30 17:34 306次 阅读
计算机视觉常用算法_计算机视觉有哪些分类

谷歌在Google+和收件箱中插入插件

去年,Google宣布Google+上90%以上的用户会话少于5秒。意味着实际上没有多少人在使用Go....
的头像 倩倩 发表于 07-30 16:05 487次 阅读
谷歌在Google+和收件箱中插入插件

谷歌将宣布其与亚马逊Echo设备的竞争

与Alexa相似,Google Home将通过回答问题,完成基本任务并可能充当家庭自动化设备的中心来....
的头像 倩倩 发表于 07-30 15:55 565次 阅读
谷歌将宣布其与亚马逊Echo设备的竞争

DeepScale的解决方案是深度神经网络传感器的融合组成

“今日的深度神经网络(DNN)研究有很大一部分,是以现有DNN进行调整或修改;”DeepScale首....
发表于 07-30 14:58 165次 阅读
DeepScale的解决方案是深度神经网络传感器的融合组成

楼氏电子独特的四种异构处理器组合使IA8508具有哪四大优势?

此外,IA8508通过深层神经网络(DNN)硬件加速、优化架构和专有指令集,为机器学习(ML)进行了....
发表于 07-30 14:40 191次 阅读
楼氏电子独特的四种异构处理器组合使IA8508具有哪四大优势?

人脸识别系统在售票厅场景中的应用,更智能更便捷

在车站、景区、电影院等售票厅,每天来往人员多,而且还会黄牛党高价售票、售假票等情况发生,使人们的消费....
发表于 07-30 11:51 366次 阅读
人脸识别系统在售票厅场景中的应用,更智能更便捷

人脸识别应用已然成为计算机识别应用发展的主流技术之一

风口之上,无数的企业前仆后继涌入人脸识别的市场,而魔点科技是早期的拓荒者之一。你一定体验过钉钉人脸识....
发表于 07-30 10:52 490次 阅读
人脸识别应用已然成为计算机识别应用发展的主流技术之一

人脸识别就像一柄双刃剑,在某些场景中甚至弊大于利?

去年底,南都个人信息保护研究中心人工智能伦理课题组曾发布《人脸识别落地场景观察报告(2019年)》。....
发表于 07-30 10:17 304次 阅读
人脸识别就像一柄双刃剑,在某些场景中甚至弊大于利?

Speech2Face模型主要是为了研究语音与相貌之间的关联性?

 你相信吗?AI人工智慧最近已经进化到,只要花6秒的时间,听到你的声音除可以分辨出你的性别、年纪与种....
发表于 07-30 09:51 67次 阅读
Speech2Face模型主要是为了研究语音与相貌之间的关联性?

浅谈人脸识别应用场景

随着社会快速发展,高科技产品层出不穷,许多以前在电视上看到的各种科幻特效都纷纷变成了现实。比如说刷脸....
发表于 07-29 17:57 174次 阅读
浅谈人脸识别应用场景

人脸识别广告机和人脸识别技术应用

人脸识别广告机建立之初的更多的意义是在于能够进行人像的采集,从而建立起“人的数据库”。
发表于 07-29 17:55 148次 阅读
人脸识别广告机和人脸识别技术应用

Epic Games首席执行官批评苹果和谷歌在应用商店中拥有“绝对垄断”

Epic Games于2018年末推出了适用于Windows和Mac计算机的Epic Games S....
的头像 倩倩 发表于 07-29 15:54 295次 阅读
Epic Games首席执行官批评苹果和谷歌在应用商店中拥有“绝对垄断”

基于Pytorch做人脸识别

发表于 07-22 10:20 203次 阅读
基于Pytorch做人脸识别

嵌入式神经网络有哪些挑战

  1、宽频限制以及嵌入式系统的计算能力   NN需要大量数据,利用DDR在各层之间进行传输。如为卷积和完全连接数据重量来...
发表于 06-30 11:01 1777次 阅读
嵌入式神经网络有哪些挑战

基于带NNIE神经网络海思3559A方案边缘计算主板开发及接口定义

硬件配置 —————————————————————————————————— -  海思Hi3559AV100 CPU,...
发表于 06-20 11:32 308次 阅读
基于带NNIE神经网络海思3559A方案边缘计算主板开发及接口定义

改善深层神经网络--超参数优化、batch正则化和程序框架 学习总结

《深度学习工程师-吴恩达》02改善深层神经网络--超参数优化、batch正则化和程序框架 学习总结...
发表于 06-16 14:52 69次 阅读
改善深层神经网络--超参数优化、batch正则化和程序框架 学习总结

BP神经网络的基础数学知识分享

一文看懂BP神经网络的基础数学知识
发表于 06-16 07:14 129次 阅读
BP神经网络的基础数学知识分享

解析深度学习:卷积神经网络原理与视觉实践

解析深度学习:卷积神经网络原理与视觉实践 ...
发表于 06-14 22:21 347次 阅读
解析深度学习:卷积神经网络原理与视觉实践

卷积神经网络CNN介绍

【深度学习】卷积神经网络CNN
发表于 06-14 18:55 106次 阅读
卷积神经网络CNN介绍

请问为什么要用卷积神经网络?

为什么要用卷积神经网络?
发表于 06-13 13:11 53次 阅读
请问为什么要用卷积神经网络?

基于CNN卷积神经网络的人脸识别

基于Android平台实现人脸识别
发表于 06-02 17:38 204次 阅读
基于CNN卷积神经网络的人脸识别