0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开发者必须了解的VR音频定位技术

fFU3_vrtuoluo 来源:lq 2019-09-13 16:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

要想在VR中获得更好的沉浸感,五感的还原极其重要,视觉还原是其中最为成熟的一部分,而音频——全景声,随着技术的发展,也慢慢在VR内容中应用起来。

纵观全球声音定位技术,主要可以分 3 种:声道为本 (Channel Based)、面向对象声音 (Object Based)及场景声音(Scene Based) 。值得留意的是,各种技术都可以分为录音、播放系统和输出格式三个部分。以下的内容主要基于输出格式,但也会略提各种录音、播放系统的利弊。

三大定位方式

1. 声道为本 (Channel Based) 传统声音定位技术都是以声道为本 (Channel Based) 的技术,意思是指所有输出是根据系统的声道数目来制作。例如立体声的音乐就有 2 个声道,5.1 环绕声的电影就有 6 个声道。但这种技术其实即使在环绕声中都不理想。原因是不同的系统设计或摆放将会影响到定位效果,而且难以在不同系统中转换,例如 5.1 环绕声的电影就不能够准确地在 7.1 系统中播放。因此极少在 3D 声效上应用。当然,严格来说,所有播放系统在输出最终都是声道为本,只不过输出前的文件格式和制作方法会有分别。

虽然声道为本的技术在 3D 声效不常见,但基于声道为本的录音技术的悠久历史,发展完善,因此即使使用其他技术,很多时都会借用声道为本的录音技术制作,例如在接下来介绍的面向对象声音 (Object Based) 技术就常常会用上传统单声道及双声道录音技术。 2. 面向对象声音 (Object Based) 近年为了改善不同播放系统的问题,研究人员开始思考如何用一个输出格式去适应所有系统。其中较流行的方法是用面向对象声音 (Object Based),相信很多人都在部份戏院或电影的片尾中见到杜比全景声 (Dolby Atmos) 的标志,这是其中一种较常用的面向对象格式。面向对象是指声音定位以声源 (所谓对象) 为本,输出并不基于声道数目,而是基于声源数目。

简单而言,每一个「对象」会输出两样信息,它的声音,和它在 3D 空间中的位置。在播放时,播放器会根据对象信息,以及影音系统的设定去分配各声道的输出,从而准确定位。因此这技术除了可以用同一输出档案做到跨系统播放,亦可以做出超越水平面的 3D 定位。常见的对应输出系统为 VBAP (Vector Base Amplitude Panning),基本上是传统 5.1 或 7.1 环绕声加上不同高度的喇叭(有关各种输出系统之后会再介绍),但亦可以在传统 5.1 或 7.1 环绕声系统,甚至双声道系统播放。

优点: 声音定位一般较凖确,而声音质素亦通常比较好

缺点: 输出档案的体积大。声音来源集中,欠缺现场感

3. 场景声音 (Scene Based) 除了以声源为本,另一种常见的方法是以场景为本。场景为本的意思是指,我们尝试记录在空间中一个点上接收到的所有声音。你可以想象成是记录一个人在某场景中所听到的所有声音。唯一的分别是,人类的听觉有方向性,例如来之前的声音会比来自后面的声音清晰,当声音来自左边左耳会感受到的音量会比较大等。但场景为本的录音通常不会纪录方向性的分别,无论声音从那方面以来,都会清晰地记录在录音中。

其中最常见的录音方法为Ambisonics (该名词未有通用的翻译)。它用几组收音来全方位地记录场景声音。之所以要用几组收音,是为了把场景中的声音分为几个轴,最常见是分为左右 (X)、前后 (Y) 和上下 (Z) 方便在后期制作中定位和加添指向性 (只用 3 个轴的Ambisonics 称为 1st Order Ambisonics,可根据球谐函数 (Spherical Harmonics) 去加添更多轴,提高到更高 Order,从而提升声音定位解像度,一般制作用最高可以到 5th order,但 X Y Z 三轴是较常见也比较容易理解,有机会再另立文章讲解 Ambisonics Orders)。大家可以想象,在播放该录音时,如果没有分左右前后上下的话,声音根本不可能定位。 该技术最大的优势,是在于档案体积,它最少只需要四条声轨,X、Y 、 Z 和 W ( W 是一条无指向性全方位录音— Omni Directional Recording),就可以重现 3D 声效,比 5.1 环绕声还少,因此此制式在360 影片及 VR 中很常见。而且因为他的录音是全方位的,他可以清楚记录所有在空间中漫射的声音(Diffuse sound) ,也就是说,它可以记录来自四方八面的回响 (Reverb),例如在教堂中说话,有时候会听到回音,那些回音有时会从四方八面传来,用 Ambisonics 就能够准确地记录那些回音。 Ambisonics 有自己对应的播放系统,其特色是所有喇叭的间距必须一致,平均地分布在一个虚拟球面。之所以要这样安排,是因为在播放时,即使声音内原只有一方,理论上所有喇叭都会播放相对应的场景声音。概念上一般读者可能较难理解,但概括而言,在播放任何声音时所有喇叭都会运作,来重现录音场景的音场。当然这播放系统在民用上是很不现实的,因为理想的播放系统需要很多喇叭,而且摆放位置要求极为精准,有时甚至要钻穿地下来放置喇叭。因此,通常都会用耳筒来重现虚拟的 Ambisonics 播放系统 (称为 Binaural Audio技术),亦有不少软件可以将 Ambisonics 转换成其他系统格式包括环绕声和立体声。 优点: 音质代入感强,仿似在场景中。输出档案一般较细,4条声道起。 缺点: 录音质素通常比较差,因为录音器和声源之间通常有一定距离。 录音过程较复杂,和通常要利用特别器材,如 Ambisonics 。

位于英国的 Ambisonics 播放系统

Sennheiser 出品 Ambisonics( 1st OrderAmbisonics )

Eigenmike Ambisonics ( 4th OrderAmbisonics ) 比较各种声音定位技术之优劣

各种技术的应用情况

声道为本

如前文所言,传统声道为本的格式在 3D 声效中的应用比较少见。主要是因为他难以兼容不同的播放系统。当然目前有很多没有配备3D声效的电影,都继续沿用声道为本的技术。大部份的音乐所使用的双声道,亦可归类为此技术。

面向对象声音

目前大部份的电影 3D 声效多使用面向对象声音。原因是后期制作比较方便,而且得到很多专业公司的支持,例如 Dolby、Auro、ProTools 等,表表者是杜比全景声 (Dolby Atmos) 系统。

在这里要先讲解一下通常电影声效制作的流程。一般电影的声效是混合现场录音和后期制作。一般而言,现场录音只会记录演员的对白,其他所有声音都是后期制作。相信读者可以猜到,为何面向对象声音比较适合电影制作,是因为所有后期制作的声音甚至演员的对白都可以视为一个对象,并在后期制作中定位。很多电影并无涉及任何场景录音的需要。更何况现在很多电影都用上大量场景特效 (绿幕),并非现场拍摄,根本没有真正的场景声音可以录制。

Dolby Atmos 混音插件

另一方面,主流 VR 游戏甚至一些新的非 VR 电子游戏都使用面向对象声音制作,但通常会输出成场景声音,主要是因为面向对象声音技术比较能对应六自由度 (6 Degrees of Freedom (6 DoF) )的移动,意思是指玩家可以前后左右移动,声音会根据玩家的位置作出对应的调整。

场景声音

其实目前场景声音的制作并不常见,但相信 360 影片的流行,这技术很快会变得普及。这技术其中一个好处是,一般人只要利用 Ambisonics 咪录音,不需要太多后期制作,都可以有理想的 3D 声效,而且该声效可以根据观众观看影片的角度作出对应的调整, (注:只限角度,暂时不包括前后左右移动)。例如你在看影片时可以听到声音从后方来,而当你 180 度转向后方后,你会听到该声音跟随转向移到你的前方。读取场景声音亦不需要很复杂的系统。这技术对系统的要求低,档案容量细,都是在未来普及的潜在优势,特别在 Youtube 和 Facebook 之类的网上串流平台都以这技术为基础。 目前比较平民的器材有Ricoh theta V 的外置收音器。当然目前用此技术最大的问题是,因为收音的距离和欠缺指向性,收音的质素比较差,暂时改善的方法主要会配合面向对象声音使用,所谓的混合方法。

Ricoh theta V 连外置收音

混合方法 (A Hybrid Method)

在录音质素的要求比较高的情况下,例如音乐会现场录音,或其他音乐相关的制作等,单靠面向对象声音或场景声音,都难以满足音质要求。面向对象声音欠缺现场感,而场景声音的录音又不够清晰。人类一般对录音的要求,通常比现场的声音高,研究员戏称超真实感声音 (Hyper-Realistic Sound) 。要达到这个要求,目前最先进的做法是用场景声音作为背景 (或称为画纸(Canvas) ),在该录音为基础再在上面加上面向对象声音。这样就可以确保声音清晰同时保有现场感。目前 Dolby Atmos 已经支持场景声音,去改善后制的声音效果,可见未来可以用在音乐会或戏剧的现场录音中。 而在360影片,一般实时使用混合方法,输出时都会用场景声音 Ambisonics 的文件格式来输出来维持档案的轻巧和容易解读。当然 Dolby Atmos 用较复杂的混合档案,配合该系统,理论上可提供较好的音质。但在 360 影片或 VR 中,因为输出在不同角度下的表现比较平均 (所有喇叭的间距一致,平均地分布在虚拟球面),场景声音输出一般是首选。

额外知识: MPEG-H

MPEG-H 是MPEG系列 (如 .mp4) 的新一代高压缩的影音格式,加入了 3D 声效支撑,他同时支持面向对象声和场景声音。这个格式已经发展了一段时间 (2013) ,虽然目前并未流行,但相信未来会成为的主流格式。 小结 目前最常见的 3D 声效应技术为面向对象声音 (Object Based) 及场景声音 (Scene Based) 且有时会混合使用。其实这些技术的应用已经日渐普及,很多新出的第一身游戏或多或少都会用到 3D 声效去增加现场感。特别在射击游戏,能够用耳朵去感觉四面八方能大大改善游戏体验。而在 360 影片或 VR 甚至其他 XR (统称 VR、AR、MR 等虚拟现实的体验为 XR) 的潮流下,很多公司包括 Abbey Road Studio 和 BBC 都投放很多资源去改善 3D 声效制作及播放技术。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    31

    文章

    3134

    浏览量

    84927
  • 定位技术
    +关注

    关注

    7

    文章

    308

    浏览量

    26320
  • vr
    vr
    +关注

    关注

    34

    文章

    9692

    浏览量

    156586

原文标题:【干货】开发者必须了解的VR音频定位技术

文章出处:【微信号:vrtuoluo,微信公众号:VR陀螺】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2025开源鸿蒙开发者激励计划正式启动

    11月21日,2025开放原子开发者大会盛大启幕,聚焦“AI共智,开源共享”主题,吸引了来自全球的开发者、企业技术领袖、社区维护及高校科研力量参会。作为大会的重要组成部分,开源鸿蒙
    的头像 发表于 11-27 14:44 326次阅读

    QCon·上海站HarmonyOS开发者技术分论坛:共探鸿蒙开发新机遇

    论坛(以下简称“论坛”)成功举办,论坛聚焦 AI 实践落地与技术赋能,邀请多位华为技术专家深度解读并分享 HarmonyOS AI辅助开发能力、多设备适配解决方案、场景化赋能、性能调优、场景能力共建以及React Native性
    的头像 发表于 10-24 15:59 691次阅读
    QCon·上海站HarmonyOS<b class='flag-5'>开发者</b><b class='flag-5'>技术</b>分论坛:共探鸿蒙<b class='flag-5'>开发</b>新机遇

    2025开放原子开发者大会11月启幕

    开发者年度盛会即将登场!2025开放原子开发者大会将于11月21-22日,在北京北人亦创国际会展中心盛大召开。大会以“一切为了开发者”为主题,汇聚全球开源智慧——国内外优秀开发者、学术
    的头像 发表于 10-24 14:05 726次阅读

    芯科科技2025年Works With开发者大会深圳站Wi-Fi技术专场前瞻

    为了让开发者更深入直观地了解Wi-Fi技术,掌握开发技巧,Silicon Labs(芯科科技)将于10月23日在深圳湾万丽酒店举办“Works With
    的头像 发表于 09-30 09:45 552次阅读

    芯科科技2025年Works With开发者大会深圳站Matter技术专场前瞻

    为了让更多开发者深入了解物联网互联互通的前沿技术-Matter及其开发技巧,Silicon Labs(芯科科技)将于10月23日在深圳湾万丽酒店举办“Works With
    的头像 发表于 09-30 09:38 613次阅读

    曙光网络SugonRI开发者社区正式上线

    在人工智能与工业深度融合的大潮中,工业软件正在成为推动产业升级的关键引擎。为了让更多开发者快速掌握工业级编程技术、共享行业实践成果,曙光网络正式推出开发者社区——曙睿(SugonRI)开发者
    的头像 发表于 09-04 09:58 715次阅读

    迅龙软件参加昇腾 AI 开发者创享日・广东站,为开发者打造沉浸式实操体验

    7月18日,线下顶尖人才汇聚的开发者盛会——昇腾AI开发者创享日・广东站在广州举行。活动以“创未来享非凡”为主题,聚焦广东本地产业特点,分享前沿AI创新技术,搭建生态交流平台,帮助开发者
    的头像 发表于 07-23 17:18 1102次阅读
    迅龙软件参加昇腾 AI <b class='flag-5'>开发者</b>创享日・广东站,为<b class='flag-5'>开发者</b>打造沉浸式实操体验

    昂瑞微亮相MFi开发者技术沙龙

    近日,昂瑞微受邀参加苹果MFi开发者技术沙龙,以“万物皆可寻”为主题展开技术分享。活动中,公司市场总监肖金红不仅展示了Find My技术在多个应用领域的落地成果——目前已服务340+项
    的头像 发表于 07-18 15:28 770次阅读

    OpenHarmony 2025年度技术俱乐部及开发者协会奖项评选通知

      OpenHarmony 2025年度 技术俱乐部及开发者协会 奖项评选通知 活动介绍 OpenHarmony项目群技术指导委员会(TSC)已与30多所高校合作成立技术俱乐部、与70
    的头像 发表于 07-17 20:07 440次阅读
    OpenHarmony 2025年度<b class='flag-5'>技术</b>俱乐部及<b class='flag-5'>开发者</b>协会奖项评选通知

    矽速科技正式入驻 RuyiSDK 开发者社区,共建 RISC-V 开发者生态!

    近日,深圳矽速科技正式入驻RuyiSDK开发者社区,携手社区共同推动RISC-V技术的发展与广泛应用,为开发者提供一个更加便捷高效的开发环境。关于RuyiSDKRuyiSDK是中国科学
    的头像 发表于 07-10 11:00 920次阅读
    矽速科技正式入驻 RuyiSDK <b class='flag-5'>开发者</b>社区,共建 RISC-V <b class='flag-5'>开发者</b>生态!

    HDC 2025开发者主题演讲精彩回顾

    日前,华为开发者大会(HDC 2025)进入第二天,行业领袖、技术专家、全球开发者齐聚现场,共同见证这场科技盛会。在开发者主题演讲中,华为技术
    的头像 发表于 07-09 11:20 1038次阅读

    深开鸿CEO王成录:开发者是开源鸿蒙生态的原点

    发布会上表示:“操作系统的成功,取决于生态体系的竞争力。开源鸿蒙生态的建设,必须始于开发者。”他强调,开发者是生态的原点,是推动技术演进与产业创新的关键力量,而开鸿
    的头像 发表于 05-26 12:06 722次阅读
    深开鸿CEO王成录:<b class='flag-5'>开发者</b>是开源鸿蒙生态的原点

    AI开发平台如何赋能开发者

    当下,AI开发平台通过提供丰富的工具集、优化的开发环境以及高效的部署能力,极大地降低了AI应用的开发门槛,加速了创新步伐。那么,AI开发平台如何赋能
    的头像 发表于 01-17 14:47 720次阅读

    开发者的开源鸿蒙故事

    近日,在以“一切为了开发者”为主题的“2024开放原子开发者大会暨首届开源技术学术大会”上,开源鸿蒙5.0 Release版本正式发布,备受各方关注。该版本在系统完备度、分布式创新、开发者
    的头像 发表于 01-06 10:28 1216次阅读

    2024开放原子开发者大会暨首届开源技术学术大会成功举办

    近日,以“一切为了开发者”为主题的2024开放原子开发者大会暨首届开源技术学术大会在武汉成功举办。大会为众多开源项目和开发者提供了广阔的展示空间,为繁荣开源生态注入了强劲动力。与会
    的头像 发表于 12-23 14:23 817次阅读