【动态】VR领域的全景声?GOOGLE解释了狗为什么有时会歪脑袋

19-24-45-24125

作者: Jamey

 

 

Google一贯善于科普,从Cardboard到Daydream,制定标准者然也。

 

在此前的Google I/O 2016大会上,Google也专门开辟了一次“课程”来介绍全景声的原理和Google的解决方法。并简单演示了代码实现的方法。

 

从原理上讲,全景声是通过模拟人在真实环境中接收声音信号的方式实现的。真实环境中,声音是这样从一个声源传到人的耳中。

4571d05f34d4fa9f288de3cc801ba233

在这个过程中,人脑通过辨别声音到达两个耳朵时的强度差异,来辨别声源的位置。这个强度差异在音频技术界的专业术语叫做“双耳声强差”。

 

在耳朵辨别“双耳声强差”的过程中,人或其他动物可能会通过摆动头部来增大“声强差”,以获取声源的准确位置。这就是为什么你可能经常看到狗狗做出这种动作。

e886cf9486e665fc2d57476e2ba9d9c1

ad11a67ff233c331b2c1904efd8ffc6a

同时,人及其他动物的耳廓构造,也使得辨别双耳声强差的能力非常强。声音在进入耳朵前,会因为耳廓的不规则构造,使得来自不同方向的声音产生更明显的声强差,从而使大脑进一步提高对声源定位的精准度。

 

由此可见,真实环境中的声音实际上是经历了“重重磨难”才进入人耳,为我们所听到。这一过程尽管可以简单到用波的原理来一笔带过,但也使得人耳对于声音真实性的识别变得极其苛刻。

 

在传统的音频解决方案中,我们曾经历了单声道、双声道到多声道的发展历程,对应这一过程所产生的硬件则是2.1音箱、N.1音箱。PC时代早期,2.1声道音箱是每个人的个人台式机“标配丫头”。

ebdf995dd2ba01e150c44e5a9c70ae31

在音箱时代和耳机时代,除非你进入影院,否则一般情况下能够通过音响设备听到的声音最多只能产生左右前后的位置感,再加上一些场景模拟技术,可以让你感觉是在不同的环境下听到了声音,比如礼堂、下水道、洗手间等等这些常见的音效处理方案。

 

而VR领域的全景声,无论是生成还是播放,则完全不是多声道系统能够支撑的。如果继续用声道来描述全景声,那么实现所需的“更多声道”是这样的——

73bd7c8bb18f137e4c71da55c8d83002

传统音频技术对于声音的处理完全无法应对VR内容的需要,3D音效技术无法满足全景声的需求,因此催生了全景声的算法。

 

Google工程师们为这种算法设定了一个基础逻辑:

假定“你”身边有一系列围绕着“你”的“音响”,均匀分布在“你”的周围,那么所谓的全景声,实际上可以通过设定声源与这些“音响”的位置,来计算声音从对应位置到达“你”身边的时间,从而通过声音到达每个“音响”的时间差,来让“音响”在声音通过它们的时间点依次发声,从而模拟出“你”听到全景声的错觉。

333333333333333

 

当然了,这还仅仅是基本原理。Google工程师在这类算法原型上,又增加了对更多复杂的模拟场景提供的解决方案,比如声音在传播过程中遇到墙还会反射等。

44444444444444444

 

当然了,这种完全复制现实情况的回声算法,也会带来一定的困扰,比如变成噪音。而现实情况中,你的耳朵其实没那么敏感,因此只需要保留在衰减阈之上的声音,去掉那些理论上已经衰减到无的“回声”。

 

Google工程师展示了Google在这方面算法的基本流程:

2222222

 

传统音频的工作流程

根据场景需要,通过拟音合成等手段制作原素材,在传统影视中,画面是单一的,音频的工作只是镜头这一面场景所需要的声音,再根据场景中声音的位置,距离和环境,来插入合适的效果器,做到画面与声音的协调,大部分声音并不需要做出方向感。而对于画外声,基本都是靠想象,根据情节的需要,在画面还为呈现时,提前进行声音暗示,而这种设计的合理性,也是直接跟制作者的水平相关。

 

VR音频的工作流程

画面不再是单一的,而是全景,每一个角落和位置的画面都要用声音来呈现它,虽然和传统音频合成一样,都需要先做出来素材,但是在VR影视中,这些素材都要进行方向的判断,每一个声音都要有他应该存在位置,这样的声音更加真实,只要观看者去转动头部,都能寻找到每一个声音的来源。与传统影视相比,声音在VR中变得更加重要了,声音不再是集中在一起的“疙瘩”,因为听觉的真实性,也是提升沉浸感的主要方式。

 

全景声效技术在VR影视工业中的应用和在VR App开发中的应用,有什么差异?

VR影视中,全景声的特点:

1、影视内容本身是线性播放的,在观看一部电影或视频内容时,画面和声音内容随着时间流逝都是线性输出的。即便你要回退重播,结果也仍然是线性的。

 

2、在影视内容中,用户所处的具体位置并不由自身决定,而是由摄像机决定,影视内容中的全景声,只有角度的差异。由于目前的VR影视内容还没有交互的存在,因此在某一个时间节点上的影视内容对应的声效都是确定的。

 

VR App(大多为游戏)中,全景声的特点:

1、用户与App之间十分可能存在大量的交互。比如游戏剧情中,人物的走动,尽管受到游戏设计的一些限制,但在具体场景中,随机性很强。当人物在走动时,这个环境中如果本身存在多个音源,那么音源和人物所处位置之间就不仅只有角度的关系,还有距离的关系,当人物靠近音源时,声音还需要能够自动调大。

 

所以尽管全景声所体现出来的声效无论在哪种内容形式中,都具有

1、接近真实场景

 

2、音源角度随主视角变化而变化

 

的特点,但由于交互方式的存在,VR App中的全景声效需要相对复杂的渲染技术。

 

全景声音效技术免费背后的逻辑

就在本文写作期间,发生了另一件事,就是Facebook完成了对Two Big Ears的收购。显然各大公司内部不乏交流,在Google I/O 2016之前,FB必然已经知道Google收购Thrive Audio之后都做了些什么。面对Google不要钱一样的免费给人用花钱买来的技术,FB显然也坐不住了。Two Big Ears高调宣布加入FB的同时,也声明未来的音效工作站(实际是一套软件)将免费使用

 

音效技术,从来就不是一套单纯的算法技术,它不像开发App那样,用不同代码和不同算法就能写出一样的结果。看看杜比就知道了,杜比通过向原始设备制造商( “OEM” )授权专利技术生成大多数收入。OEM厂商主要包括消费娱乐( “CE” )产品生产商和软件供应商, 部分收入也来自向娱乐内容制作者, 分销商及展示商销售产品和服务。

 

TBE所提供的制作全景声音效的工业流程是什么样的?

111111

TBE所提供的3Dception Spatial Workstation其实是一套基于DAW(Digital Audio Workstation)的软件系统,而DAW是此前传统电影工业中常用的数字化音频处理软件。TBE提供的二者结合的解决方案,可以用于将不同音源的音轨合成全景声,并使之能够与全景视频画面适配。适配后的成果,可以直接将包含了音效的全景视频直接输出到用户终端的360°视频播放器中,也可以将合成的音效通过TBE专用的渲染技术,输出给不同平台的开发工具。VR App中用到的音效是动态合成的,而不像VR视频内容,直接与画面做了同步,因此在输出给App的过程中,需要针对App本身运行的需要进行特殊的渲染。

 

世界范围内的全景声技术解决方案

目前世界范围内专注于全景声音效技术的企业并不多。除了被Google收购的Thrive Audio和Facebook收购的Two Big Ears之外,就只剩下国内的时代拓灵。

 

此前我们做过时代拓灵的专访,不过那仅限于专访,并未深入了解全景声技术的细节。

 

在Two Big Ears被收购的消息传出后,我们突发奇想,想将这三家的技术真刀真枪的拿出来对比一下。然而可惜的是,我们并未找到目前Google声称已经可以提供开发的Spatial Sound SDK的下载,于是只能拿Two Big Ears和时代拓灵对比。

 

在专业人士的指导下,我们尝试了基础的全景声生成。借助郝云的这首《活着》(不会告我侵权吧?),我们基于Two Big Ears的SDK和时代拓灵的SDK做了简单的测试,并录制了主要的测试过程。

 

在实际过程中,基于包含SDK的音频工作站对既有的声音(单音轨)做一个全景处理,过程并不算太复杂,且两套软件都有各自的相位变化可视化效果。实际结果,各有优劣势,我们不做过多评价,可以参考录制的视频(注意,如果用手机播放,需要带耳机,即使是Hi-Fi手机的扬声器也并不支持多声道音效)。

 

视频本身所录制出来的音效,并不是全景声,只是通过操作工作站的相位选项,来演示全景声在与全景视频合成时不同相位的控制产生的效果(在游戏中则是根据运动动态控制)。
希望这个简单而具体的实践,可以直观的让读者简单感受到全景声在VR场景或画面中,可能产生的全然不同的效果。

 

实际上,现阶段整个行业对全景声的了解和关注度,还远远未达到传统影视行业中电影对音效的关注高度。现阶段VR行业关注的仍然首先是“画面”究竟如何,而不是声音究竟如何。就连Google都说,Spatial Sound是“VR’s Second Sense”(第二感知)。那么,在那些“追求最佳体验”这样的目标下,看到的是VR画面,而听到的确实传统3D立体声,当我从面向吉他手转向钢琴师时,耳畔传来的吉他乐声却仍然像是吉他手就站在我面前,那会是极致的体验吗?

 

或许当有一天用户内心抱怨说“这个声音怎么这么假”的时候,我们也没有机会听到真正的称赞了吧。

 

 

 

 

文章来源:极AR

顶部图来源:双耳录音VR音频采集设备

========================================

不知不觉UXRen社区官网已经2岁了, 在这里小编要感谢那么一如既往支持本站的油茶人。UXRen.cn欢迎油茶人投稿,提供有价值的资讯、线索、点子及建议。 

邮箱:contact@13tech.com.cn 
注明:本站内容及数据部分来自互联网及公开渠道,如有侵权请及时联系我们。
========================================

发表评论

您的电子邮箱地址不会被公开。