
| 出版日期:1997-06-16 总期号:662 本年期号:22 |
|
三维虚拟声音及其显示
曾芬芳 听觉信息是仅次于视觉信息的第二传感通道,它是多感知虚拟环境中的一个重要组成部分。听觉信息即三维虚拟声音是一种新的特殊的媒体。给vr系统中加入虚拟听觉,既可以增强使用者在虚拟环境中的沉浸感和交互性,又可以减弱大脑对于视觉的依赖性。降低沉浸感对视觉信息的要求,使用户能从既有视觉感受又有听觉感受的环境中获得更多的信息。如果是在动态三维环境下,那么,基于物理定律的声音传播模拟,定义许多声学参数使之能以更自然的方式产生三维音响效果。 一、三维虚拟声音的概念及其作用 1.三维虚拟声音的概念 在虚拟环境中能听到声音并不困难,许多简单的系统如计算机游戏都能提供声音反馈功能。虚拟声音与我们熟悉的立体声音完全不同。当您听到立体声录音时,虽然有左右声道之分,只能辨别对手是在我们左边、右边还是前边。但希望的是一个在虚拟环境中能辨别声源精确位置的声音系统,而当您听到三维虚拟声音时,音乐声是来自围绕您的一个球形中的任何地方,即声音出现在您头的上方、后方或者在您的鼻子前方。如战场模拟训练系统中,当听到了对手射击的枪声时,就能象在现实世界中一样准确而且迅速地判断出对手的位置,如果对手在我们身后,听到的枪声就应是从后面发出的。因而把在虚拟场景中的能使用户准确地判断出声源精确位置、符合人们在真实境界中听觉方式的声音系统称为三维虚拟声音。 2.三维虚拟声音的特征 三维虚拟声音定位是三维虚拟声音系统最核心的技术。具体来说,它的特征主要有: (1)全向三维定位特性:三维定位特性(3dsteering)是指在三维虚拟空间中把实际声音信号定位到特定虚拟声源的能力。三维声音系统允许我们不只是根据注视的方向,而是根据所有可能的位置来监视和识别各信息源。俗话说,“耳朵的功能是指点眼睛”。可见三维声音系统能提供粗调的机制,用以引导较为细调的视觉能力的注意。在受干扰的可视显示中,用听觉引导肉眼对目标的搜索,要优于无辅助手段的肉眼搜索,即使是对处于视野中心的物体也是如此,这就是声学信号的全向特性。 (2)三维实时跟踪特性:三维实时跟踪特性(3dreal-timelocalization)是指三维虚拟空间中实时跟踪虚拟声源位置变化或景象变化的能力。声音效果应该与实时变化的视觉相一致,才可能产生视觉和听觉的叠加与同步效应。比如说,用户在虚拟境界中漫游时,看到一只从远处跑过来的小狗,用户就应该能同时听到由远至近的狗吠声,也许因为怕用户,它会调头走开,狗叫声又越来越远直到消失,这样的变化完全取决于用户的参与。如果三维虚拟声音系统不具备这样的实时变化能力,看到的景象与听到的声音会相互矛盾,听觉就会削弱视觉的沉浸感。 三维虚拟声音除了上述特征外,还有我们十分熟悉的沉浸感和交互特性。三维声音的沉浸感就是指使用户产生身临其境感觉的能力。三维音响对于虚拟环境的创建者而言,是一个强有力的表现工具,它可以更进一步吸引你沉浸虚拟环境之中,有助于增强临场感。而三维声音的交互特性是指随用户的临场反应和实时响应的能力。 3.三维虚拟声音的作用 声音效果的使用是一项令人惊奇的、富于感染力的因素,每个人都会有此体验,有时仅仅听到一段动人的音乐就可以给您身临其境的感受。如果在舞台上表演或电影画面中,配上了狂风怒吼、电闪雷鸣、哗哗雨声,即使是在炎热的夏天,也会顿生凉意。 声音可以衬托视觉效果,使人们对虚拟体验的真实感更强。如在执行抓住虚拟环境中某个物体(如一个虚拟球)的动作以及继续这一动作或改变这种动作时所发出的声响,并在监示器上可以看到一个球在一虚拟房间中弹跳,并能听到一种类似于“嘭———嘭———嘭”的声音。如果球越跳越远,跳出视野之外,那么观看者在视频显示或单一声音的基础上也无法得知球跑到哪儿去了。现在就需要一种模拟工具来改变这种单一的“嘭———嘭———嘭”声音,并使之能相对于使用者的三维空间定位,高度沉浸的虚拟现实模拟应该在立体图形中再加入这种“虚拟声音”,并使之能相对于使用者的位置在三维空间中定位,它可以影响观察者对图象质量的感受,这就是虚拟声音声响的表现潜力。在vr中如果能正确做到这一点,您闭上眼睛,就应知道声音是从哪来的了。特别是目前,一般头盔显示器的分辨率和图象质量都还较差时,声音对视觉质量的增强作用就更为重要了。因为听觉空间显示的另一个方面是当它们和其它感觉一起作用时,能在显示中起增效器的作用。例如视觉和听觉一起使用能充分显示信息内容,从而提供更强烈的存在和真实性感觉。 声音有语音声音和非语音声音之分,语音声音是人们的说话。在虚拟环境中增加语音交流,可极大的方便用户的操作。当试验者戴上一个低分辩率的头盔显示器后,主要是从显示中获取图象信息,几乎不能从显示中获取文字信息,而是通过语音合成技术用声音读出必要的命令及文字信息,以此祢补视觉信息的不足。因为检测听觉信息比可见信息快,而且听觉信息有助于产生报警和定向回答。把非语音声音用作接口媒体作为简单的报警系统如飞机驾驶舱里所用的故障报警以及救护车的警笛等,都广泛使用非语音声音。在飞行模拟系统中,当飞行员听到附近飞机的三维轰鸣声时,当防撞系统向飞行员发出附近飞机太多的报警时,飞行员可以结合所见的附近飞机的性能位置和它所发出的性能声音,很快地判断危险来自何方以及危险的程度,并立即采取行动,以免碰撞的发生。 在指定空间中的声音分离可以改善噪声中的信号清晰度,并能协助多声流的分离,这一功能常被称作为双耳系统的“鸡尾酒会效应”,这对于两侧同时并存有语音通道的应用来说是极为重要的。 二、人类的听觉模型 三维虚拟声音的使用主要依赖于用户对听觉空间中各种信息源的定位能力。如作这样一种实验,在两耳旁各放一个话筒,并制作一段立体声的录音,当放这段录音时,将重现声音的方向感。但是,在放音时听音者头部的任何运动,也会感到声音方向在改变。然而我们希望的是耳机传出的声音应有位置、方向感,比如,当我们听到歌声时,能判断出声音来自何方,距离有多远。又比如,当汽车朝我们急驶而来时,发出的声音很尖锐;但当汽车从我们身边离去时,同样的车速其发出的声音就要越来越小。要在虚拟现实系统里实现这样的效果是不容易的,因为它要求声源的位置必须完全独立于vr系统使用者头部的运动。因此,在设计时必须仔细考虑听者为精确定位所需的声学信息,认真分析人类确定声源方向的理论,为虚拟三维声音系统建立人类的听觉模型。 1.混响时间差和混响强度差 (1)混响时间差 在人类听觉系统用于确定声源位置和方向信息中,混响时间差是最容易理解的信息之一。图(a)所示的混响时间差就是声波w1和w2分别传播到耳的时间差。由于声源位置不同,w1和w2分别传播到左耳和右耳的时刻不同,存在时间差。图中w1到达右耳的时刻将先于w2到达左耳,这段时间差就表明声源位于听者的右侧,也就是偏于一侧的声源的声音先到达较近的耳朵。 (a)混响时间差(b)混响强度差 图1声音定位的原理 (2)混响强度差 混响强度差是指声源对左右两耳作用的压强之差。在声波的传播过程中,如果声源距离一侧耳朵比另一侧近,则到达两侧耳朵的声波就存在强度差,这种现象被称为头部阴影效应,这一现象在人的声源定位机能中起着重要的作用。 一般来讲,混响强度差因为时间因素产生的压力差较小,而头部阴影效应所产生的压力差影响更显著,因为阴影效应的存在,使到达较远一侧耳朵的声波就比较近一侧要少,这就存在一个压力差。研究表明,混响强度差是声频的函数,在低频时,混响压力强度很小,当声波的频率达到3khz时,混响强度差在声音定位中就开始起作用,当频率达到5khz时,混响强度差就成为声源定位的主要信息。 2.头部传递函数 被声学家称作“混淆锥”的现象使情况更加复杂,它说明人的听觉系统如果仅仅利用混响时间差和混响强度差实现头部周围水平面内声源的定位,会产生某些缺陷。如果人的头只有两个耳洞,那么这种“锥”就处在时间显示和强度显示一样的区域内。其后果是感觉颠倒或“前———后混淆”。在实际中耳朵并不是简单的洞,声音在外耳上反射进入内耳,因此声音在听者的面部、肩部和外耳上发生反跳,并改变了声音的频谱。头部散射、躯体散射和外耳廓散射等散射/衍射的波信息,每当声音传播到身体的上述三个部位时,就会发生散射现象,而且左右两耳产生的波谱分布不同,当进入的声波与外耳或耳廓产生交互作用时,发生与方向有关的滤波作用对定位有着重要的影响,这是双工理论不能解释的声音定位现象。 随着声音源(如扬声器)传播到收听人的双耳,反射和衍射效应会以错综复杂的方式使声音发生变化,其变化与频率有关。这种与频率有关的影响即滤液作用,随声源的方向不同而明显变化。实验表明,耳廓所起的这种频谱成形作用是与方向有关的,如果这种作用以及两耳间差别可充分重现的话,在耳机中感知真实位置应该是可能得到的。随着声音传送到耳鼓,这个声音可能受到多种积累性因素的作用,但结果是所有这些作用均可表示成一种单一的滤波操作,它与立体声系统中的图示式均衡器的作用十分相似。 声音相对于听者的位置会在两耳上产生两种不同的频谱分布,靠得近的耳朵通常感受到的强度相对高一些。这种声音在两耳中产生的频段和频率的差异就是第二条定位线索,称之为头部相关传递函数(hrtf)。每个人都有他自已的hrtf特征,因为世界上没有两个人有完全一样的外耳和内耳骨骼几何构造。 头部 这就好比放在虚拟环境中的一台正播放音乐的录音机,它的虚拟位置应该是不变的,只是和用户的相对位置会改变,但如果不考虑这一相对变化引起的传递函数变化,录音机就可能在虚拟环境中动起来,这样的声音效果不仅不能增强沉浸感,反而会造成莫名其妙的感觉。反之,头部位置固定而声音的发生源移动,听到的声音也应随之变化,从而真正的实现三维声音定位。 三、三维虚拟声音显示 “soundrendering”一词,可以译为声音绘制,因为它所用的方法类似于图像绘制和纹理映射,而且它又与几何数据紧密相联,为区别图像绘制,有的书中译为声音显示。 光和声音都以波的形式传播,并向四面八方扩散,在障碍物边缘产生衍射现象。当一个物体在一个三维环境中产生声音时,它就像一个光源在图像渲染中所起的作用一样。它的信号向所有方向传播开来,并被其他物体或介质反射和折射,最终被接收器捕捉到。所接收到的信号是经由多个从发送器到接收器的路径而形成的合成信号。为了计算这个综合信号,每个可能的传播路径都要能通过环境独立跟踪,计算出每条路径对声音信号的影响,合成的最终结果是初始声音的一个积分函数,这一过程与图形学中的光线跟踪算法非常相似,所以声音显示的算法目前许多人都采用图形绘制方法。 声音是一个一维信号,可以用按固定时间间隔取样强度来表示。可以将声音当作附在三维空间的几何物体上的一维物体,非常相似于一张图形纹理图。 四、三维虚拟声音产生设备 1.实时数字信号处理器 在1988年,crystalriver工学院的scottfoster在nasaamesview实验室工作时,就研制了一个实时数字信号处理器(称为convolvotron)的装置,此装置能同步地处理四个彼此独立的点声源,它可以补偿使用者头部的任何运动。 实时数字信号处理器是由一系列pc兼容对偶卡组成。从主计算机把经校正的fir滤波器的映射向下加载到一个称为convolvotron的实时数字信号处理器(图2)的双端口存贮器中。从一个三维传感器中取样,读出头部跟踪数据,并通过rs232总线发送给主机。然后主机计算出最多四个模拟声源和使用者的头部位置,再将该数据经tms320/c25处理器处理,计算出这四个声源新的hrtf。因此,离跟踪仪位置最近的四个数据位置的取样频率用线性加权函数插入hrtf,使用过滤器接收四个声音输入,再由两个16位d/a转换器转换旋转声音,并发送给hmd头部麦克风。 后来crystalriverengineering又研制出一套被称为maxitron的更为机敏的装置,可以处理更多的声源(可达8个),而且可以模拟一个中等大小房间内的声学现象(包括回声等)。 2.beachtron 1992年,crystalriver公司又推出一种以基于pc的vr系统为目标的三维声音系统。这个新系统称为“beachtron",价格较低。它可模拟两个vr声源。它将用户头部位置和方向的跟踪仪数据以及vr物体定位数据合在一起。主机计算出新的vr物体相对于使用者头部的三维位置,并插入新的hrtf。再加入数字化声音输入,进行汇总后在hmd头盔显示器上播放出来。为了使价格下降,削减了许多性能。如不能模拟四个独立声源,模拟的房间无“回响”。 3.acoustetron 为满足更多的模拟要求,crystalriver又研制了功能强大的“acoustetron”声音工作站,它独立封装包含一个486dx33-mhzcpu和底板,允许最多两个convolvotron和一个beachtron同时工作。虚拟声源的个数增加到每块底板设16个。另外,对于每个声源可编程模拟六个反射途径和直接传播途径。反射系数和虚拟墙的位置也可编程决定。 4.新型三维声音设备 声音控制器是另一种无需手的vr接口形式。目前,连续语言识别的困难在于有限的计算机功能和算法。即使使用只带有很少单词的商业系统,用户也需经过长时间的训练。将来,会用神经网络实现健全的识别模式,用户只需很少或不经训练就可发出连续声音命令。用这种方法,有可能在一房间内同时有几个参与者,每个参与者都发出声音命令并用灵巧地板或天花板跟踪每个参与者。 仿声技术的另一个限制是要使用者佩戴麦克风,该麦克风是装在hmd上,但也会因为连接电线,而限制用户的工作范围。因此目前的研究集中于大空间范围中手自由的声音拾取,这需要在模拟房间的墙上嵌入二维或三维麦克风阵列。 这些阵列是“自动定向”,能够搜寻并固定处在房间任一位置的说话者身上。一台计算机按顺序读取麦克风信号,然后聚焦于某一阵列并实时跟踪说话声。更进一步,可将此技术用于将声音反馈聚集到模拟房间中一定空间范围内。这样就可无需麦克风产生有向三维声音。从而更加减轻了用户负担,并增加了他在模拟中的自由感。 |
|||||||||||||||||