- 相關(guān)推薦
淺析3D音頻技術(shù)拯救VR的寒冬
虛擬現(xiàn)實技術(shù),是20世紀發(fā)展起來的一項全新的實用技術(shù)。虛擬現(xiàn)實技術(shù)囊括計算機、電子信息、仿真技術(shù),其基本實現(xiàn)方式是計算機模擬虛擬環(huán)境從而給人以環(huán)境沉浸感。隨著社會生產(chǎn)力和科學(xué)技術(shù)的不斷發(fā)展,各行各業(yè)對VR技術(shù)的需求日益旺盛。VR技術(shù)也取得了巨大進步,并逐步成為一個新的科學(xué)技術(shù)領(lǐng)域。下面是小編整理的淺析3D音頻技術(shù)拯救VR的寒冬,一起來看看吧。
最近人們常說:VR的寒冬來了。最近看到一句非常好的描述:“一度承載著創(chuàng)業(yè)者和投資人太多期待與熱情的VR行業(yè),經(jīng)歷了如過山車般的一年!焙诵募夹g(shù)瓶頸突破之前,VR還將在泡沫收縮過后進行理智思考。而3D音頻,作為VR產(chǎn)業(yè)的關(guān)鍵性技術(shù)節(jié)點,值得在今天被關(guān)注。小編在此為大家?guī)?D音頻技術(shù)拯救VR的寒冬的理性分析。
在百度上搜索“VR寒冬”有1,660,000個結(jié)果。
《資本變臉:6個月,VR從狂歡到慘淡》(極客公園,2016年09月07日),《吸引了無數(shù)資本和創(chuàng)業(yè)者的VR行業(yè),似乎已進入寒冬》(中國企業(yè)家,2016年08月26日),《VR創(chuàng)業(yè)公司的寒冬來了?聽聽資本大咖怎么說!》(網(wǎng)易新聞,2016年05月27日),《小心被套!VR將迎來寒冬》(搜狐新聞,2016年05月11日)……
人們猶記得2015年下半年到2016年年初的VR熱:從創(chuàng)業(yè)者到投資人,大家都對VR有著無限的熱情與希望。而從計算機背景出生轉(zhuǎn)行做VR的人真不在少數(shù):他們正是看準了這塊“熱土”,從大公司走出,一頭鉆進VR行業(yè)。
行業(yè)缺少優(yōu)質(zhì)標的,關(guān)鍵性技術(shù)節(jié)點遠未突破,VR如同一個牙牙學(xué)語的嬰兒,尚在襁褓之中,遠未成熟。與其說VR凜冬已到,不如說之前的泡沫正在合理地被擠破。
這里的“關(guān)鍵性技術(shù)節(jié)點”其中之一,就是空間音頻技術(shù)。在今天,人們更愿意叫它3D音頻。
正如著名VR制作公司Jaunt的音頻首席工程師亞當·桑默說的:“(在VR這件事上面),聽覺占了五成,視覺占剩下五成。”
聽覺決定了人類對空間的定位、對物體距離的感知等等。視覺給出一個線索,聽覺則去證實這個線索是否真實存在。如果少了視覺的沉浸感,那么一切畫面的真實性就蕩然無存。不解決聽覺問題,虛擬現(xiàn)實就不能成為虛擬現(xiàn)實?梢赃@么說,3D音頻決定了我們念叨著的VR時代是否真正到來。
首先科普一下3D音頻
什么是3D音頻?簡單來說,3D音頻是對聲音最逼真的模擬技術(shù),能讓聽眾完全還原到與現(xiàn)場相似的聲場。類似的叫法還有全景聲方案、Immersive Audio(沉浸式音頻)。你能到完全聽到逼真到“現(xiàn)實”的聲音,而不是“現(xiàn)實主義”的。
目前世界范圍內(nèi)最成熟的空間音頻制作公司之一,VisiSonics的創(chuàng)始人之一拉瑪尼·杜瑞斯沃米有一句話:“當你聽到的聲音是極度真實的時候,耳機就消失了!
人耳對聲音信號有一套自己的分析系統(tǒng),來得以對聲音進行分析與定位。從空間任意一點傳到人耳(鼓膜前)的信號都可以用一個濾波系統(tǒng)來描述,音源+濾波器(傳遞函數(shù))得到的就是聲音到達兩耳鼓膜前的信號。
我們不必關(guān)心聲音是如何傳遞到雙耳的,而只需要知道:音源與到達我們雙耳之前的信號是有差別的;并且我們的左耳和右耳聽到的聲音是不一樣的。這可能是源于我們的進化,視覺沒有辦法在黑夜中定位,而耳朵可以通過左右耳的聲音不同,進行定位與防御。
這個濾波器(傳遞函數(shù))叫HRTF(head-related transfer function)。如果我們有空間所有方位到雙耳的濾波器組,就能得到一個濾波矩陣,從而還原來自整個空間方位的聲音信號。
HRTF是極具個人性的。每個人成長中都會形成一套自己對聽力的感知。并且,我們每個人的頭部大小不一樣、耳間距不一樣,耳朵的輪廓、里面的旋渦狀也不一樣。加上,我們在成長當中養(yǎng)成了自己獨特的聽力習(xí)慣?梢赃@么說,每個人聽到的同樣物體發(fā)出的聲音,其實都有細微差別。
如何還原人耳真實聽到的聲音?科學(xué)家對此的探索不是今天的新事。在將近一個世紀之前,1933年,AT&T貝爾實驗室就把這項技術(shù)帶到了芝加哥世博會上。這家公司的人聲研究部做了一個機械化的仿真人頭——他們把這個假人取名叫“Oscar”。Oscar的耳朵里裝上了兩個麥克風(fēng),坐在展示房間中,錄取周圍的聲音。Oscar聽到什么,他就能錄到什么。
AT&T貝爾實驗室提供的解決方案叫做雙耳錄音技術(shù)(Binaural Audio)。
雙耳錄音技術(shù)模擬人類真正的頭部的形狀、左右耳的耳間距,可以收錄到近乎于真正的人類聽到的聲音。這是一種有效的“笨方法”,物理層面上即還原了HRTF。沿著這條路徑,德國麥克風(fēng)公司紐曼(Neumann)在1973年到1992年間,連續(xù)在雙耳錄音技術(shù)上做出了各種突破——更好的收音設(shè)備、把麥克風(fēng)放置于仿真假人耳內(nèi)鼓膜上等等。
雙耳錄音技術(shù)在這個世紀中一直處于緩慢的速度發(fā)展,原因在于,沒有強大的產(chǎn)業(yè)需求。一直等到這一波VR熱潮的來臨,它才重上舞臺。由于Oculus Rift,索尼Morpheus以及三星Gear帶來的VR普及,3D音頻技術(shù)迎來了它的“文藝復(fù)興”——于是它又被稱作了VR音頻。
3D音頻技術(shù)到底難在哪兒?
VR需要有3D音頻才能產(chǎn)生更真實的沉浸感。Jaunt的音頻首席工程師Adam Somers在接受THE VERGE采訪時這樣描述:“在沉浸感這件事上面,聽覺占了五成,視覺占剩下五成!
Jaunt是美國著名的VR制作公司,去年得到上海華人文化產(chǎn)業(yè)基金(CMC)與迪斯尼的6500萬美金投資。
然而,雙耳錄音技術(shù)本身不能支持收聽的時候轉(zhuǎn)動頭部。玩家在玩VR游戲的時候,如果有聲音從后面?zhèn)鱽,人的本能反?yīng)是轉(zhuǎn)頭向后看。這時候如果聲音繼續(xù)在你的前方,那么會大大降低沉浸感。
另一種還原真實聲場的技術(shù)也不能支持收聽的時候轉(zhuǎn)動頭部,叫環(huán)繞立體聲(surround audio)。環(huán)繞立體聲用多個物理揚聲器來打造一個360度的聲場,來自不同方向的聲音通過不同的音箱/揚聲器來播放。該項技術(shù)最著名的公司是DTS和杜比(Dolby)。
比如一家環(huán)繞立體聲影院,它會在觀眾的周圍放置很多音箱/揚聲器。如果畫面左邊出現(xiàn)了爆炸,那么左邊的音箱會發(fā)出聲響,而不是右邊。由于播放器的位置固定,聽眾只有在固定的點,才能聽到模擬得最真實的聲場。
如何解決這個問題?計算成為了重中之重。
在雙耳錄音技術(shù)取到的聲音之后,還原HRTF,然后進行計算,把各個方向的HRTF還原,才能合成一套隨著轉(zhuǎn)頭、位置移動聲場自然發(fā)生變化的空間音頻。
在這三個環(huán)節(jié)中——收音、錄音;計算、渲染(processing,rendering);回放——技術(shù)壁壘最強的地方在于計算環(huán)節(jié)。
核心算法是考驗各家空間音頻公司的能力指標。Two Big Ears的公司廣告語說明了一切:"We do mathematics so you can focus on being awesome."(我們做數(shù)學(xué),你來好好做酷的事情。)這家位于愛爾蘭的公司目前在空間音頻技術(shù)上處于領(lǐng)先地位。
有些團隊則為了減輕計算量,用了一些比較笨的辦法。比如3dio,他們創(chuàng)造出收音設(shè)備,可以盡可能地在同一時間錄到各個方向的HRTF。
通常,三個指標可以用來判斷一家公司3D音頻核心算法技術(shù)水平:
1、Localization:指的是聲音的定位。環(huán)繞立體聲對于聲音的平面360度有較好的模擬效果,而對于上下360度則難以模擬。VR音頻的難點也在于做出上下360度的聲音模擬。能做到上下逼真的則技術(shù)更為先進。
2、Propagation:聲音在封閉空間中,不是只傳輸一次,而是有無數(shù)次的反射(bounce back),我們可以用回音來理解。Propagation用來描述是否能讓用戶感覺到自己的確在一個真實的空間中,這種真實感越強越好。
3、Occlusion:聲音在傳輸過程中,如果中間有一個障礙物,這個障礙物會對聲音的傳播產(chǎn)生影響。如果一個VR音頻技術(shù)可以對障礙物對于聲音的影響模擬得很好,則是一個做得好的VR音頻。
除去以上三點,目前空間音頻最前沿的解決方案是Ambisonic技術(shù)。于是,能不能做Ambisonic也是判斷一家公司技術(shù)高低的指標。
Ambisonic同樣是一種聲場模擬手段,但它更考驗團隊物理、數(shù)學(xué)和計算機的綜合能力。如果我們把空間中某一個接收聲音的位置想象成一個充著氣的氣球,那么空間中各處傳來的聲波會對這只氣球表面產(chǎn)生作用力。
Ambisonic利用這個簡單道理,在空間中擺放一堆揚聲器,來模擬對應(yīng)現(xiàn)實情況下各處聲波對這只氣球的作用力,然后計算,還原HRTF。
通過Ambisonic得到的音頻數(shù)據(jù),是最全面的數(shù)據(jù),它可以降解到任何其他音頻格式。打個比方,Ambisonic如果是圖像中的jpg,則杜比7.0、杜比5.1等等音頻格式相當于像素。
如何評價3D音頻技術(shù)的行業(yè)現(xiàn)狀?
3D音頻技術(shù)勢必會改變所有的應(yīng)用場景。整個空間音頻產(chǎn)業(yè)有兩個機會:
第一個機會是做音頻引擎(audio engine),其核心在于HRTF函數(shù)、Propagation等技術(shù),即如何在游戲里盡可能逼真地還原出立體聲來。目前簡單的做法是,在VR游戲中放置不同的虛擬音箱,并配合Oculus Audio SDK(實現(xiàn)了HRTF以及其他效果,包括reflection等),就可以實現(xiàn)空間音頻。
而不簡單的做法有很多,需要團隊具有強大的計算能力,成立于2013年愛丁堡的Two Big Ears是其中翹楚。他們所做的plug-in可能是目前行業(yè)中技術(shù)最好的plug-in之一。
第二個機會是實現(xiàn)3D音頻在現(xiàn)實生活中的運用,即怎么配合全景視頻錄制帶多個角度的VR音頻。這樣用戶觀看全景視頻的時候如果轉(zhuǎn)頭,聲音會進行動態(tài)調(diào)整。就應(yīng)用場景來說,對于虛擬演唱會,3D音頻技術(shù)尤其重要。
從目前整個全球市場來考量,3D音頻由于其自身技術(shù)難度,還沒有出現(xiàn)提供完美解決方案的公司與團隊,大牌音頻公司DTS所做的技術(shù)已經(jīng)比較接近,但最終版本仍沒有公之于眾,并且面臨著價格極高的可能性。
最被關(guān)注的七家3D音頻技術(shù)團隊
1、VisiSonics
VisiSonic起步最早,團隊來自美國馬里蘭大學(xué)的實驗室,2015年10月與Oculus達成合作。Oculus購買了他們的技術(shù),叫做RealSpace3D,用于Oculus Audio SDK。他們設(shè)計出了一個3D音頻視頻同步錄制的設(shè)備,由一個柱型加頂部球型裝置組成,球型裝置上有64個麥克風(fēng)。硬件層面上,技術(shù)拔尖并保持世界領(lǐng)先地位。
2、TwoBigEars
位于蘇格蘭愛丁堡的團隊,最近剛剛被臉譜網(wǎng)收購。他們的核心技術(shù)是做3D音頻引擎,名字叫做3Dception。就plug-in層面上來講,這支團隊是目前世界范圍內(nèi)技術(shù)最好的團隊。在被臉譜網(wǎng)收購前,據(jù)傳HTCVive音頻的計算渲染用的就是這支團隊。
3、3diosound
這家公司是目前市面上可見的空間音頻收音錄制領(lǐng)域最好的公司。他們出品了有八個耳朵的收音裝置。
4、ThriveAudio
這家公司與Tilt Brush一同被Google收購,屬于Google VR戰(zhàn)略布局的一部分。團隊來自愛爾蘭的都柏林圣三一學(xué)院。他們聲稱已經(jīng)申請了兩個專利。
5、MintMuse
一支之前在美國圣地亞哥、最近剛剛搬遷到上海的團隊。主創(chuàng)團隊來自高通。他們主攻渲染質(zhì)量、算法優(yōu)化、時延等領(lǐng)域,設(shè)計制作空間音頻后期制作、coding以及軟件插件工具,目前不涉及硬件生產(chǎn)。這支團隊面向的解決人群是錄音師,他們正在開發(fā)一款專業(yè)VR全景聲調(diào)音軟件,讓調(diào)音師可以在編輯全景聲過程中實時監(jiān)聽成品效果,簡化整個工作流。
6、Waves
這是一家位于以色列的空間音頻技術(shù)公司,之前做專業(yè)studio的工具,比如插件與音效,是很多著名studio的合作伙伴,如Abbey Road。
7、Impulsonic
一支孵化于美國北卡羅來納大學(xué)計算機系的團隊。主要針對VR游戲與應(yīng)用的3D音頻開發(fā),產(chǎn)品叫Phonon。成立于2012年。創(chuàng)始人阿尼什·錢達克博士說創(chuàng)立之初他的想法就非常簡單:“幫助游戲設(shè)計師與開發(fā)者更容易做出高質(zhì)量的空間音頻!贝蟛糠质杖雭碜杂赑honon的license收入。他們?nèi)ツ杲邮苊绹鴩铱茖W(xué)基金的投資,研究同時應(yīng)用于一些政府項目。
大部分做VR游戲的工作室還沒有開始大規(guī)模使用3D音頻技術(shù)——原因主要是“窮”。既然“寒冬”來了,那么也就更窮了。事實上,這些沒有好內(nèi)容的游戲工作室還用著環(huán)繞立體聲技術(shù);只有少數(shù)極客風(fēng)格的工作室開始應(yīng)用一些空間音頻技術(shù)。3D音頻技術(shù)仍舊是一件挺前沿的事兒。
然而,3D音頻對于整個VR產(chǎn)業(yè)來講,是基礎(chǔ)的技術(shù)性板塊。
擁有核心技術(shù),才可能在應(yīng)用層面上等待下一個突破點。做無人機的大疆(DJI)就是一個例子,早在無人機變成商業(yè)模式之前,大疆的主創(chuàng)團隊已經(jīng)在飛行控制這一個技術(shù)點上做了長時間的研究與努力。
如果VR終有一天值得每一個用戶去花時間使用,那么它勢必在技術(shù)方方面面上已經(jīng)成熟到可以“沉浸式體驗”的時候。
拯救VR,先從3D音頻開始。
拓展:VR簡介
所謂虛擬現(xiàn)實,顧名思義,就是虛擬和現(xiàn)實相互結(jié)合。從理論上來講,虛擬現(xiàn)實技術(shù)(VR)是一種可以創(chuàng)建和體驗虛擬世界的計算機仿真系統(tǒng),它利用計算機生成一種模擬環(huán)境,使用戶沉浸到該環(huán)境中。虛擬現(xiàn)實技術(shù)就是利用現(xiàn)實生活中的數(shù)據(jù),通過計算機技術(shù)產(chǎn)生的電子信號,將其與各種輸出設(shè)備結(jié)合使其轉(zhuǎn)化為能夠讓人們感受到的現(xiàn)象,這些現(xiàn)象可以是現(xiàn)實中真真切切的物體,也可以是我們?nèi)庋鬯床坏降奈镔|(zhì),通過三維模型表現(xiàn)出來。因為這些現(xiàn)象不是我們直接所能看到的,而是通過計算機技術(shù)模擬出來的現(xiàn)實中的世界,故稱為虛擬現(xiàn)實。
虛擬現(xiàn)實技術(shù)受到了越來越多人的認可,用戶可以在虛擬現(xiàn)實世界體驗到最真實的感受,其模擬環(huán)境的真實性與現(xiàn)實世界難辨真假,讓人有種身臨其境的感覺;同時,虛擬現(xiàn)實具有一切人類所擁有的感知功能,比如聽覺、視覺、觸覺、味覺、嗅覺等感知系統(tǒng);最后,它具有超強的仿真系統(tǒng),真正實現(xiàn)了人機交互,使人在操作過程中,可以隨意操作并且得到環(huán)境最真實的反饋。正是虛擬現(xiàn)實技術(shù)的存在性、多感知性、交互性等特征使它受到了許多人的喜愛。
【淺析3D音頻技術(shù)拯救VR的寒冬】相關(guān)文章:
淺談VR技術(shù)終結(jié)游戲?qū)θ祟惖钠垓_08-24
羽毛球雙打技術(shù)淺析06-20
展望VR電影的現(xiàn)在與未來08-24
VR電競該何去何從08-24
ppt幻燈片怎么插入音頻06-20
淺談索尼搶占高端VR游戲市場08-24