用声音识别面部表情,这支队伍做到了-电子发烧友网

随着VR产业的开枝散叶和走向成熟，VR与众多其他技术的结合也展现出了极大的应用潜力。比如在刚刚结束的Vive X第三批团队Demo Day上，就出现了数家“丢掉”头显、只留下追踪方案+Tracker的企业。

Red Pill Lab是此次Vive X中唯一一支来自***的团队。而能够从数千家申请企业中脱颖而出，正是因为公司将独家的AI技术和Tracker相结合，成功实现了低成本的全身动捕方案。在Demo Day之前，记者也特地与公司的两位创始人RH和Brian深入了解了背后的技术，以及亲身体验了一把随时“变身”卡通人物的经历。

成本不到2万块！用AI识别你的声音

对于大多数人来说，“全身动捕”听上去是一项非常遥远和高大上的技术。实际上，这项本来用于影视行业的技术在近年来已经逐渐在泛娱乐产业得到应用，比如最近大火的“虚拟主播”就大都采用了全身动捕，而非真的使用人工智能。

在Vive Tracker推出之时，其能够以低成本方式实现动作捕捉的能力也获得了不少关注。Red Pill Labs正是利用了Tracker的这一特性实现了对用户身体的捕捉，同时再通过AI进行面部表情的深度学习计算，从而在虚拟形象身上实时呈现出真人表演者的动作。

但Red Pill最特殊的一点在于，和其他通过摄像头捕捉面部表情的方案不同，他们选择捕捉用户的声音。

“我们认为声音是被很多人忽视的，”RH说。

据他介绍，公司的这套系统在通过麦克风捕捉到用户的声音之后，借由AI对声音数据进行实时的分析，然后同步在虚拟形象脸部生成表情。这里的表情包含两部分，一个是实时的嘴形，其他部分则通过眉毛的运动来表现。

这样的描述不禁让我想到了Animoji。当然苹果采用了TOF方案，也就是通过“刘海”那处的一系列深度摄像头来实现实时的面部捕捉。但是Red Pill的声音方案真的靠谱吗？

从记者的体验来看，声音转化成面部表情的效果居然出人意料的不错。从视频中我们可以看到，动画人物嘴部的动作基本上和表演者的声音没有延时，同时也非机械的一张一合，而是随着声音的变化在幅度上不一样。同时，动画人物的眉毛也会在发声的过程中一起运动，包括眼睛的大小也会有小幅度的变化，这些元素交织在一起呈现出虚拟人物表情的变化。

据Brian介绍，目前世界上正在研发这类技术的仅有Red Pill、英伟达和迪士尼。英伟达技术的限制在于，需要锁定同一个表演者的声纹和虚拟角色；迪士尼则需要先将要讲的东西变成文字，再让机器处理成虚拟人物脸上的实时表情。

除了面部表情，Red Pill通过Tracker+Lighthouse对表演者身体动作的捕捉也已经做到非常自然。在体验的20分钟过程中，动捕没有出现卡顿现象，蹲下、坐下、转身和小跑时的追踪也没有问题，肩膀和手腕也可以转动。由于公司的这套软件基于Unity的架构开发，因此也可以通过手柄上的按键实时切换虚拟表演的背景图片（视频），以及为虚拟角色设计武器、交互等。公司甚至还自行开发了一款手套，可以更为精细的模拟出手指的动作。

Brian还谈到，目前这套方案最多可以让两位表演者同时进习动捕的表演。但随着新一代Lightohuse的推出，接下来将会实现4个人在10*10平方米的空间内同时表演。

而实现这些效果的前提——用户需要花费的成本相当低。对于有Vive的用户，只需另外购买4个Tracker，以美元计算为400刀；对于没有Vive的用户来说，目前购入一套Vive仅需500刀，也就是硬件成本在900刀左右。

从VR社交转向教育和直播

实际上，我和Red Pill Labs的CTO，也是创始人之一的Dobry早在去年7月的RISE香港展会上就有过交流。但是在9个月之前，公司还希望将这套系统用在VR社交平台上，AI技术可以通过对大数据的分析和深度学习来对Avatar的动作进行预测，数据越多，Avatar呈现出来的动作就会越自然和符合逻辑。

但如今，由于VR的主流之路并不顺利，公司的商业模式也已经出现了明显的转移，即从to C转向to B。RH说，接下来公司最希望在大陆的教育市场落地，尤其是针对儿童的早教和学前教育。在他看来，除了因为教育市场比较大以外，儿童对于虚拟角色的接受度也非常高。在***，公司已经在一家少儿英语学习中心中落地，采用入场门票收费的方式（约100元/小时）获取收入。

除了实地的表演之外，Red Pill的一个更为远大的目标是希望能够将整套方案上传至云端，让更多的用户、表演者在足不出户的情况下，就可以在Red Pill远程直播中心进行节目的直播和收看。

Brian认为，云端+电视盒子的方式能够让更多人接触到这种全新的远程教育的方式，而且成本并不会太高。如果公司能够和电视盒子的服务供应商达成合作，就可以直接将自己的软件以应用的形式放到网络电视平台上。用户在家中只需额外安装一个摄像头，让表演者看到反应，接下来就可以很好的进行收看和互动。在收费模式上，则会采取收取月费的模式。

总的来说，在教育培训的赛道上，Red Pill的技术可以拓展的方向还有很多。Brian特别提到，无论是线下英语培训还是现在十分火爆的在线真人英语教育，都可以考虑用虚拟老师的形式。因为对于孩子们来说，与卡通角色交流的压力要比和真人小得多。

Red Pill的另一个特色在于，同样是做教育，但和大部分VR教育企业相比，头显这个最笨重的部分可以被完全抛开，这也就变相的降低了用户的准入门槛。

虽然目前B端是Red Pill选择的主战场，但由于成本较低，这套动捕系统实际上也能够被一些有直播需要的个人所采纳。尤其是声音捕捉这一特点，让普通人通过麦克风就能够实现虚拟形象面部表情的实时同步。公司也为此做好了准备，在软件端设置了可以在YouTube、Facebook等开启直播的通道。

动捕+面捕的市场潜力有多大？

Red Pill的这种打造“虚拟老师”的模式，不禁让我们想起了最近在日本爆红的“虚拟主播”。有趣的是，在此次的Vive X第三批团队中，正好有这样一家来自日本的虚拟偶像打造平台COVER，他们也选择通过Vive Tracker来实现全身动捕，然后实时反应在自家的虚拟主播“时乃空”的身上。

通过打赏、广告的收入渠道，部分受欢迎的主播可以获得可观的收入。比如最知名的“爱酱”，光是在YouTube上的年收入就可以达到约180万元人民币。连COVER的时乃空每次1小时的直播也能有1.2-3万元的收入。

从成本来看，由于对动捕效果的要求不像电影那么高，因此所用动捕系统的要求也相对较低。比如日本的很多厂商都选用了诺亦腾的Perception Neuron，套装价格为7280/10800元。

在面部表情捕捉方面，现在主流采用的还是摄像头。表演者需要通过一个支架将摄像头固定在自己的面前，摄像头收集了面部信息通过线缆传输到电脑上进行处理。

比较来看，Red Pill捕捉声音的优势在于：

1.对用户来说能够表演的更加自然，因为无需承担摄像头和支架的重量，同时也不用打光；

2.成本低和便捷，用户只需普通的麦克风即可实现无线传输。

同时，Vive Tracker在动捕方面的潜力也在被逐渐发掘出来。此前，英国的软件开发商IKinema推出了一款叫做Orion的低成本动作捕捉系统，基于Lighthouse定位技术，由VR头显、运动控制器和3个Vive Tracker构成，年费为500美元。在采访中，RH也提到了这款竞品，并表示Red Pill相比之下对于电脑CPU的占用资源更少。同时公司正在不断优化AI算法，逐渐降低对电脑配置的要求。

总体来看，动作捕捉和面部捕捉在泛娱乐产业的应用在逐渐增加，除了虚拟主播之外，也用于游戏开发。

而在虚拟主播比较小众的中国，教育培训是一个不错的切入点：卡通形象能够有效调动孩子们的积极性，尤其是和本地的知名IP结合之后能够发挥更大的作用。而虽然虚拟主播在中国偶像化的可能性不太大，但在广告、营销、客服等场合也能够发挥用武之地，因为虚拟的形象天生要比真人更加有亲和力。

无独有偶，在正在进行中的GDC上，Unreal在现场用全身动捕+实时渲染技术，呈现出一个惊人逼真的虚拟角色“Siren”。在大厂的推动下，相信动捕技术和不同产业的结合也将越来越多。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人脸识别

人脸识别

+关注

关注
76

文章
3955

浏览量
80556
vr

vr

+关注

关注
34

文章
9556

浏览量
148805

原文标题：声音也能做面部识别？这个Vive X团队用AI做到了！| VR陀螺

文章出处：【微信号：vrtuoluo，微信公众号：VR陀螺】欢迎添加关注！文章转载请注明出处。

面部表情识别技术在医疗领域的应用

面部表情识别技术在医疗领域具有广泛的应用。通过对面部表情的识别和分析，可以为医疗诊断和治疗提供重

发表于 08-29 18:14 •387次阅读

面部表情识别技术在社交互动中的应用

面部表情识别技术在社交互动中具有广泛的应用。通过识别和理解面部表情，可以改善社交互动的质量和效果

发表于 08-24 18:18 •482次阅读

面部表情识别技术的神经科学基础

面部表情识别技术是建立在神经科学的基础之上。人类的大脑具有专门的神经系统来处理面部表情和情感信息。本文将探讨

发表于 08-24 18:09 •354次阅读

面部表情识别技术在人机交互中的应用

面部表情识别技术在人机交互中具有广泛的应用。通过识别和理解用户的面部表情，可以实现更加智能、个性

发表于 08-21 18:01 •417次阅读

面部表情识别技术的最新研究进展

识别中扮演着重要角色。近年来，随着深度学习技术的不断发展，面部表情识别的准确率和可靠性得到了显著提高。卷积神经网络（CNN）和循环神经网络（

发表于 08-21 17:58 •672次阅读

面部表情识别研究：解读情绪的密码

面部表情是我们日常交流和表达情感的重要方式。它们是情绪的直观反映，通过我们的眼睛、嘴唇、面部肌肉的运动等表达出来。然而，理解这些表情并不简单。这就是

发表于 08-14 18:09 •566次阅读

面部表情识别技术在安全领域的应用

面部表情识别技术在安全领域具有广泛的应用。通过对面部表情的识别和分析，可以判断人的情绪状态和心理

发表于 08-10 18:27 •463次阅读

面部表情识别技术的挑战与解决方案

面部表情识别是一项复杂的技术，面临着许多挑战，如表情的多样性和变化性、面部肌肉运动、光照条件等。本文将探讨

发表于 08-10 18:09 •371次阅读

面部表情识别在医疗领域的应用

面部表情识别在医疗领域具有广泛的应用。通过对面部表情的识别和分析，可以获取患者的情感状态和生理状

发表于 08-10 18:03 •338次阅读

面部表情识别技术的挑战与前景

面部表情识别在教育领域具有广泛的应用前景。通过识别学生的面部表情和情感状态，教师可以更好地理解学

发表于 08-09 17:16 •346次阅读

面部表情识别在社交媒体中的应用

面部表情识别在社交媒体中有着广泛的应用，可以帮助人们更好地理解和处理社交媒体信息，从而提高社交媒体的交互性和用户体验。本文将探讨面部表情

发表于 08-09 16:04 •346次阅读

面部表情识别在安全领域的应用

面部表情识别在安全领域有着广泛的应用，可以帮助安全系统更加精准地识别和判断人的的情绪和心理状态，从而提高安全系统的效率和准确性。本文将探讨面部

发表于 08-08 22:33 •338次阅读

面部表情识别的伦理问题

面部表情识别是一项涉及隐私和伦理的技术，其在应用过程中可能会引发一系列伦理问题。本文将探讨面部表情识别

发表于 08-04 18:20 •594次阅读

面部表情识别的挑战和前景

面部表情识别作为一项复杂的技术，面临着许多挑战，例如表情多样性、表情变化性、肤色和光照影响等。本文将探讨

发表于 08-02 18:21 •573次阅读

面部表情识别在人机交互中的应用

随着人工智能技术的不断发展，人机交互已经成为了人们生活中不可或缺的一部分。面部表情识别作为人机交互的重要组成部分，有着广泛的应用场景和价值。本文将探讨面部

发表于 08-02 18:03 •626次阅读

搜索历史

用声音识别面部表情,这支队伍做到了

评论

面部表情识别技术在医疗领域的应用

面部表情识别技术在社交互动中的应用

面部表情识别技术的神经科学基础

面部表情识别技术在人机交互中的应用

面部表情识别技术的最新研究进展

面部表情识别研究：解读情绪的密码

面部表情识别技术在安全领域的应用

面部表情识别技术的挑战与解决方案

面部表情识别在医疗领域的应用

面部表情识别技术的挑战与前景

面部表情识别在社交媒体中的应用

面部表情识别在安全领域的应用

面部表情识别的伦理问题

面部表情识别的挑战和前景

面部表情识别在人机交互中的应用