让耳朵“声临其境”的虚拟现实：3D动态音频有望几年内问世-电子发烧友网

━━━━

戴上虚拟现实（VR）耳机，然后被“传送”至一颗遥远的星球，躲避外星物种之间的战火。激光枪射出的子弹从你耳边嗖嗖飞过；战斗机在你面前盘旋；战友疯狂的呼喊从各个方向传来。切换频道。现在你在一场篮球赛的场边，听到球员在你面前的球场上打口水战，教练在左边的长凳上叫喊。你转头的同时，声音也跟着你转；直播间里的解说员在你前面，球场上的声音则在你身后。切换频道。现在你来到了哥德堡音乐厅，这里的音响效果享誉全球。你坐在前排，起初，由109人组成的交响乐团演奏着柔和的音乐，然后高亢的演奏声将你围绕。向左转头，小提琴的声音更加清晰强烈；向右转，大提琴和铜管乐组的声音比其他乐器更加突出。

如今，提供这些虚拟现实体验的可视化组件技术很快就将得到广泛应用，价格也将很实惠，但要想发挥更大效力，虚拟现实不应该只停留在视觉上。除非你听到的声音确实与你所看到的非常匹配，否则虚拟体验便会崩塌。

以球赛为例。如果球员、教练、解说员和观众全都听起来好像坐在中场，那你还不如在电视上观看这场比赛——你也会有一种“身临其境”的感觉。

很可惜，目前的音频设备以及我们广泛使用的录音和声音播放格式，根本不足以令人信服地再现遥远星球上战场的声音、在球场边观看篮球比赛的声音和在一流音乐厅前排听到的交响乐。

当然，通过耳机播放的立体声录音，你的右耳可能听到体育赛事解说员的声音，左耳则听到教练的声音，但不管你在虚拟环境中怎样移动，它们的位置都不会发生变化。要想获得逼真的体验，工程师需要从上下、远近、前后各个角度呈现每个声音的精确方向和位置，并随着用户在虚拟世界中的移动进行动态更新。

这是一项巨大的挑战，但并非完全无法解决，已经有一些虚拟现实产品的生产商开始利用有限的第一代3D音频技术来改善二维立体声和环绕声。目前，包括我所在的Dirac Research（位于瑞典乌普萨拉）在内的研究实验室已经取得了一定的进展，很有希望在几年内实现真正逼真的虚拟现实音频。以下是我们认为自己能够提高虚拟现实体验水平的原因。

当前，使用最广泛的音频格式是双声道（即立体声）。立体声系统会记录左右两个信号；听者通过一对扬声器或耳机播放声音，声音信号依然是左右各一个。环绕声系统超越了立体声，增加了一个中央前置扬声器、两个或4个后置扬声器，以及一个专用于低音输出的低音炮。更新的办法是在不同高度增加扬声器，比如AuroTechnologies公司的Auro-3D。这些方式开始给人带来一种3D的错觉，但实际上并不能创造一个虚拟世界，因为扬声器的位置是固定的。在现实世界中，你可以移动，听到的声音也会随着移动发生明显的变化。

虽然这些复杂的环绕声设置肯定比之前的立体声效果要好，但对如今大多数听众来说，这实际上是一种倒退。现代便携式音乐设备使人们远离扬声器，而更多地使用耳机。这使人与现实声音的距离更加遥远，因为目前头戴式耳机甚至无法恰到好处地处理立体声，更不用说环绕声或任何接近3D的声音了。

原因如下。使用扬声器时，左耳听到仅通过左扬声器播放的声音，在几乎察觉不到的一瞬间后，右耳就能听到该声音，声音的衰减也很轻微。人的大脑会处理这种轻微的延迟和衰减，并在声音的方向和距离上产生一个瞬时印象。而使用耳机时，左声道只能传到左耳。这种体验是人为的，会带来一些奇怪的感觉。例如，当耳机的左声道和右声道发出同样大小的声音时，它就好像是从你的脑袋里发出的，而不是从你面前的某个位置发出的。这就是为什么有时候通过耳机听音乐会感觉有些奇怪。那么，怎样才能获得全三维的交互式虚拟音频体验呢？

由于只有两个独立的频道可供使用，这个目标似乎无法实现，但原则上来说并非如此：人类的听觉系统只使用两只耳朵来分辨前后、上下以及中间的一切声音，因此工程师应该可以通过仔细控制每个声音到达耳朵的时间、音量、共振和回声特征来创造一种3D音频体验。要调整每个频道在空中传播的声音，需要大量的高速计算。幸运的是，高速计算是可以做到的。

实际上，整个音频行业的研究人员都在钻研这种方法。一方面在于，与露天扬声器发出的声音相比，工程师可以更好地控制耳机发出的声音，因为不需要对房间形状或其中物体的阻碍进行补偿，也不需要处理可能会分散人们对虚拟环境注意力的背景声音、其他杂音或声音反射。

━━━━

创建3D音频录音最简单的方法是把麦克风放在耳朵里，然后从特定的位置以立体声形式记录场景。在实践中，录音师通常会使用仿真人头来做这件事，称为双声道录音，该技术已经存在了很长时间。有些广播电台会播放双声道立体声音乐会，但该技术一直没有广泛流行。

双声道立体声录音有几点限制，对虚拟现实来说，最主要的问题还是听者和声源的位置是固定的。

尽管如此，双声道立体声录音还是有很多可以借鉴的东西，我们可以将这些技巧用于为虚拟现实创建交互式音频。双声道立体声录音可以捕捉每个声源传达到两耳的不同声音强度和时间，也能捕捉到头部、耳朵和身体姿态对声音的反射和遮挡所导致的声音变化。科学家将这些效应称之为头部相关传输函数（HRTF）。

借助强大的计算机和数字信号处理软件以及配备了位置跟踪装置的耳机，我们可以利用仿真人头或真人模特创建一个标准化的HRTF，然后在播放过程中根据听者的头部方向和声源的原始方向进行实时调整。

━━━━

但就在这时，我们遇到了一个障碍。立体声和环绕声均被音频工程师称为基于频道的格式：它们为特定扬声器配置进行音频编码，用于播放。一般的立体声录音只有基本的左右信息，不包含详细的方向信息。环绕声在这方面要好一些；5.1声道是最著名的环绕声格式，使用这种格式，混音工程师可以根据5个不同的参考位置对声音进行定位，并添加一个通过重低音喇叭播放的低频频道。该格式假定扬声器位于听者的左前方、正前方、右前方、左后方和右后方。与普通立体声相比，这个方案能够提供更多有关声音的信息，但对于逼真的虚拟现实来说，这仍然不够好。

更新的一种方法是利用基于对象的格式。基于对象的录音方式通过标记声源来编码声场，而不是采用特定的播放系统。例如，利用与位置、强度相关的信息和其他数据来识别大提琴、钢琴和歌手的声音，然后通过智能播放设备，根据标签的功能来解读标签，并以与标签一致的方式播放声音。2012年推出的杜比全景声（Dolby Atmos）和2015年推出的DTS:X都采用了这种方法。

基于对象的格式最初是为了提升家庭影院的体验而创建的。例如，支持杜比全景声的家庭影院接收器集成了天花板扬声器。不过这些格式在未来可以进行调整，以便用于虚拟音频。

第三种方法是基于场景的格式。20世纪70年代在英国国家研究开发公司（National Research Development Corp.）的赞助下，由彼得•菲尔格特（Peter Fellgett）、迈克尔•格松（Michael Gerzon）和其他研究人员开发的声场环绕声（Ambisonics）采用了这种方法。基于场景的编码对特定位置的被录制声场进行了空间表示。在其基本配置中，声场环绕声录音使用了以四面体形式排列的4个麦克风胶囊（更高分辨率的录音中使用的更多）。基于场景的编码将听者周围的声音分类整理到多个预设的定向音箱中，基于对象的格式则不预先确定音箱，而是让每个声音对象定位在任意位置上。

当前的声场环绕声技术存在明显的不足，尤其是对现实世界进行录音时。其空间分辨率较低，录音麦克风往往会在一定程度上模糊方向性，但这是一种方便的录音方式。因为它是一种现成的开源格式，所以无论大小公司都在使用，其中包括脸书和谷歌，前者将其用于公司的360度视频，后者将其用于自己的虚拟现实音频技术。

到目前为止，有两家大型商用音频公司发布了支持3D音频的编码格式，其中集成了一部分上述技术。由位于德国埃尔朗根的弗劳恩霍夫集成电路研究所开发的MPEG-H3D音频系统，支持基于对象、基于频道和基于场景的音频及其组合形式。杜比AC-4支持基于对象和基于频道的音频。虽然这些方案都取得了一定成功，但还没有一项展现出压倒性的优势，其中是否会有一个最终在未来占据主导地位，也不得而知。到目前为止，这些方法都侧重于对音频进行编码以便通过扬声器重放；要应用到耳机上则面临更大的挑战。

对于我们这些试图创建真正虚拟音频的人来说，这些行动都是好消息。不过，即便这项工作已经打下了良好的基础，现有的任何一种方法也都不太可能发展成一项强大的3D音频技术。我们还需要新方法。

━━━━

研究人员越来越接近目标了。如果把基于对象和基于场景的编码与HRTF处理结合起来，理论上就能够在头戴式虚拟现实耳机中渲染3D音频，并根据听者在虚拟世界中的移动对其进行交互调整。

不过目前要应用这项技术还存在困难。HRTF播放最大的缺点是前/后混淆，问题就在这里。人耳的位置意味着，在听者的前后（或上下）有一个由声音产生的中心点，声音由此到达每只耳朵的时间和强度都相同，大脑会把耳朵、头和身体姿态引起的微小变化都考虑在内。这些人体结构的细节以及它们所导致的声音遮挡和声音反射，会根据声音的来源方向优先放大某些频率。由于每个人两耳之间的距离不同，身体结构也有一定的差异，因此这些细节因人而异。

许多研究人员认为，解决前/后问题的唯一办法是使用个性化的HRTF，即定制声学身体地图。这一点我们稍后再详谈。

另一个挑战在于，HRTF处理的声音常常听起来不自然。某些音频频谱不可避免地被放大太多或放大不足。受过训练的听者很容易察觉这些不一致。一般听者也许无法直接辨别这些声染色，但很可能会觉得不对劲儿，就像察觉出一个便宜的扬声器和一个昂贵的扬声器之间的区别。

造成第二个问题的原因尚不清楚。一些人认为，我们测量HRTF的方法存在缺陷，导致现有的HRTF数据库不充分。也有人认为，除非定制个性化的HRTF，否则声染色不可避免。实际情况可能两者兼而有之：即使对个性化HRTF进行测量，声染色也不会完全消失，不过其定位精度比一般的HRTF高出许多；这至少要部分归因于测量HRTF的技术。

研究人员正在测试创建个性化HRTF的不同测量思路。有些研究人员把麦克风放在听者的耳朵里，记录不同方向播放的测试信号；这是一个耗时且容易出错的方法。还有研究人员尝试用扫描和计算机图形分析工具（如射线追踪）来模拟耳朵，根据它们对来自不同角度声音的反应进行编码。

虽然个性化的HRTF很可能会解决目前虚拟现实声音所面临的一些难题，但还存在其他问题。首先，它假定头部是相对静止的，身体与之同时移动，而虚拟现实用户经常在不移动身体的情况下转动头部。不过，最大的困难却是创造它们的时间长、成本高，也就是说，个性化HRTF对于普通的虚拟现实用户而言并不现实。

━━━━

这就是Dirac公司的研究切入点。我作为Dirac公司的首席执行官和联合创始人，在过去10年里和团队成员研究了各种方法来改进HRTF处理。我们的研究人员发现，头部运动对HRTF有着尤其重要的影响。

要了解原因，可以想象一下将头朝你的一侧肩膀倾斜。当耳朵靠近肩膀时，来自肩膀的声音反射会更快地传到耳朵，而到达另一只耳朵的相应反射则存在额外的衰减和延迟。

根据这一观察，我们基于对30个人的测量结果构建了一组HRTF，称之为动态HRTF。我们让听者调整自己的头部，使其各自相对于身体左右摇摆、前后倾斜和转动，在三维空间上有1度的分辨率，并测试从听者前方、两侧、上下以及后方播放的声音。最终，我们针对每个受试对象做了几百次测量。（实际测量的HRTF数量取决于每个受试对象的运动范围。）

为了避免对模型进行个性化设置及其可能产生的费用，我们将重点放在了HRTF的共同点上。如果某个HRTF频率响应中的某个峰值或谷值对所有受试对象来说都是共通的（在容差范围内），便将其纳入我们的通用模型；如果某个特征不常见，我们的算法将确保处理过的声音中不会留下该HRTF的任何声音痕迹。

虽然这种方法并不一定完美贴合每个人，但是我们对其进行了充分研究并相信，如果模型足够好，与头部相对于身体的方向有关的一些强遮挡效应和强反射就能够捕捉人类听觉系统确定声音方向所需要的基本信息。此外，只要HRTF能以一致的方式捕捉头部或音频对象的运动，听者的听觉系统就能够忽略通用模型和个体HRTF之间的细微差异。也就是说，对大多数听者而言，音频体验将足够真实。对于那些在某个方向上个体HRTF与模型有很大不同的人来说，声音也依然较为自然，虽然在方向上并非100%准确。

今年晚些时候，游戏耳机制造商的产品中就会采用Dirac虚拟现实，这是我们的动态HRTF技术首次实现商业应用。

━━━━

然而，解决动态HRTF问题还不能给我们带来真正逼真的虚拟声音体验。虽然使用HRTF能够从任意方向模拟声音，但是声音不仅仅受听者的物理特性的影响。人在户外说话和在室内说话的声音听起来很不一样。即使在室内，墙壁和其他物体的位置也会对声音产生重要影响。

因此，在虚拟环境中，我们也必须考虑虚拟房间的形状和房间中物体的形状，以及道路、悬崖或战场的形状会对声音产生什么影响。这要求我们在创造声音时模拟反射波和驻波，考虑墙壁的扩散特性以及内部物体的影响。

在播放声音时，我们需要同时考虑虚拟房间和实际听者，不仅要传递每个声音，还要传递声波在地板、天花板和其他物体上的每一次反射，而且要采用适当的HRTF。因此，这个过程会非常复杂，而且需要大量的密集计算。

目前，开发人员简化了游戏等交互式应用的声学信息。他们把声音分成一组定向声源和一个组合环境声场，而不是模拟整个场景的声学特性，然后通过HRTF处理定向声音，同时假设来自各个方向的环境声强度相同。对大多数人来说，这种技术在某些虚拟环境中能够产生相当逼真的3D声音。最终，更加真实的虚拟房间声学模拟将得到发展，在更多具有挑战性的环境中提高音频体验的真实性。

预计未来几年内，研究人员将能够为篮球赛或音乐会等虚拟现实场景创造出身临其境的3D音频体验。接下来，最大的挑战将是对HRTF算法进行微调，降低计算要求和内存要求，以便在电池驱动的便携式设备上运行。解决这一难题后，沉浸式虚拟现实3D音频便做好了进入大规模应用的准备。

不出10年，具有头部跟踪功能的3D耳机音频将能够帮我们举行远程会议，你可以在真实的房间内走动，走到一位同事身边与之进行讨论，或者去找另一位同事。我们将能够体验亲临NBA总决赛的感觉，也可以坐在维也纳金色大厅的最佳位置欣赏小约翰•施特劳斯的音乐。对我来说，仅仅最后一项就值得投入精力去解决现有的工程挑战，实现3D音频充满前途的未来。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉