提到AR/VR設備你會想到什么？賽博朋克風的畫面，還是虛擬與現實疊加帶來的科幻感？

當大家的目光仍聚焦于視覺交互層面時，業內一場有關聽覺層面的變革已經悄然興起。

國內人機交互產品平臺公司Rokid近日發布了一組應用于AR眼鏡的6DoF空間聲場技術Demo視頻。

不同于傳統雙聲道、立體音帶來的聽覺體驗，6DoF空間聲場技術可以在混合現實中模擬聲源與人耳之間因空間位置變化、有無遮擋物等帶來的聲音強弱與方向的變化，從而讓AR眼鏡為用戶帶來更具臨場感的聽覺體驗。

什么是6DoF空間聲場？

6DoF空間聲場其實是聲音在三維領域的體現。但這不是簡單的通過更多聲道讓聲音更有立體感，而是和視頻空間化同步的音頻空間化過程。因此包含了兩個必備要素——3D音頻和頭部運動的實時反饋。

首先看6DoF空間聲場的第一個必備要素——3D音頻。傳統的5.1聲道可以把聲音展現在一個水平面上，聲音定位因此具備前后、左右兩個維度，這被稱為2D音頻。當一個音頻同時還具有上下維度的時候，這個音頻就是3D音頻了。

△圖：3D音頻圖示（圖源自網絡）

6DoF空間聲場的第二個必備要素——對頭部運動的實時反饋。在現實世界中，當我們的頭部發生轉動或位移，聲源本身的絕對位置不會改變，而聲源與頭部相對方向會產生變化。

舉一個例子：在你前方有把吉他正在彈奏音樂，如果你轉向右邊，音樂聲就會相對地變到你的左邊；如果你轉向左邊，音樂聲就會相對地變到你的右邊。因此，要在混合現實中實現更接近于現實中的聽覺體驗，就需要準確定位聲源與用戶頭部之間的空間位置，即實現對用戶頭部運動的實時追蹤。

6DoF空間聲場的實現需要軟硬件高度協同

要滿足6DoF空間聲場技術的兩個必要元素并非易事，在技術層面，這需要空間引擎（Space Engine）和音頻引擎（Audio Engine）高度融合，并充分利用硬件資源。

空間引擎的核心工作是虛實空間融合。引擎預先利用三維重建技術構建地圖，建立虛擬世界坐標系，并增加虛擬物體，設置位姿、形狀、材質等屬性。

運行時，通過處理傳感器數據得到觀察者（如佩戴AR眼鏡，觀察者就是人的頭部位置）的真實空間位姿和本地地圖，進而通過地圖匹配得到真實空間和虛擬空間的位姿變換，就可以把位姿統一在虛擬世界坐標系里。

根據不同的傳感器類型和數量，空間引擎可以獲得觀察者不同類型的自由度（Degrees of Freedom-DoF）信息，從而為音頻引擎提供必要的空間信息。

比如人頭的自由度分為：既有位移又有旋轉的6DoF、只有旋轉的3DoF、人頭不動的虛擬空間，那對應的音頻也就可以分為6DoF空間聲場、3DoF空間聲場、環繞聲。因此，6DoF空間聲場技術就需要獲得更復雜的人頭自由度。

△圖：6DoF自由度（圖源自網絡）

音頻引擎的核心工作是對音頻信號和 HRTFs（Head Related Tranfer Functions，頭相關傳遞函數，簡稱頭傳函數）做卷積，生成雙耳音頻。HRTFs是在水平角（azimuth）、俯仰角（elevation）和距離（distance）這三個度量維度做坐標采樣測量出的卷積核集合，其準確性是6DoF空間聲場呈現效果的主導因素。

但目前可商用的HRTFs數據庫能達到的精度還未完全與人耳的聽辨能力所媲美，更具挑戰的是每個人的人體工學參數和心理聲學系統都不同，甚至會隨著年齡增加而變化。

準確測量每個人的HRTFs參數顯然不現實，如何才能低成本地?成個性化HRTFs？已經實現6DoF空間聲場技術落地的Rokid技術團隊給出了一個解決思路，即在考慮端上NPU/GPU等計算性能的情況下，結合深度學習技術，對更精細化的成分做出更精細的生成。

△圖：XR設備應用6DoF空間聲場需要軟硬件高度協同

此外，為了增加遮擋、反射、混響等效果，讓6DoF空間聲場更具真實感，還需要用到諸如幾何聲學（Geometric Acoutstics）的光線追蹤和波動聲學（Wave Acoustics）的球諧函數（Spherical Harmonics）分解等技術。這對設備的算力有著極高的要求，也會給設備帶來更大的功耗負荷，增加設備成本和安全風險。所以在實際應用中，往往需要在球諧函數的階數、語音質量以及空間精準度之間做相應的妥協與平衡。

除了算法層面，6DoF空間聲場技術的應用也要考慮設備的硬件形態。當前的很多音頻算法都是基于入耳式或頭戴式喇叭，但AR眼鏡作為未來用戶長期佩戴的可穿戴式設備，如果采用入耳式設計不僅會嚴重地損傷用戶聽力，更是違背了AR對物理和數字的融合使命，因此，在保持開放式喇叭設計的同時，如何保障6DoF空間聲場的呈現效果和安全性就成為了新的挑戰。

目前，Rokid技術團隊采取的辦法是，通過定向聲技術的研究與使用，來解決隱私性問題。同時，為了讓6DoF空間聲場的音效更豐富飽滿，通過音腔結構的設計、聲音頻率的修復、根據人耳聽覺做聲音諧波及混響等方式增強音質，減少音頻效果的損失，讓用戶真正感受到“聲臨其境”。

一場聲音革命，正在悄然興起

6DoF空間聲場技術在AR設備上的應用落地，讓我們看到了聲音在混合現實中的廣闊應用空間。通過6DoF空間聲場技術，AR眼鏡等設備可以擺脫視場角（FOV）限制，讓用戶通過聲音發現畫面之外的內容，以此實現360度范圍的內容呈現。

同時，除了視覺層面的交互，6DoF空間聲場技術的應用讓聽覺也成為了新的交互維度。結合6DoF空間聲場，用戶可以在混合現實中快速準確定位發聲物體的方向，清晰區分接收到的聲音信息，感受聲音距離和位置的變化……這將讓用戶在混合現實中獲得更加接近現實世界的體驗，從而進一步降低混合現實中數字世界和現實世界的割裂感。

6DoF空間聲場帶來的全新聽覺體驗正在沖擊統領了大半個世紀的傳統立體聲音，但任何一項新技術的應用和普及都絕非只靠某一團隊、某一公司之力，這需要不斷降低準入門檻，吸引更多行業力量的加入。

如Rokid就表示將把6DoF空間聲場集成到全新升級版的YodaOS-XR操作系統中，作為YodaOS-XR操作系統的基礎能力供行業開發者們進行調用。同時，Rokid還計劃推進更多應用于AR眼鏡的特殊音效的開發，如環繞與微重低音的高保真音效等，以高效易用的SDK讓開發者真正實現即拿即用。

有消息稱，Rokid全新升級的YodaOS-XR操作系統或將于今年下半年對外發布，包含諸多自然交互引擎、友好的UI界面、原生XR應用以及應用開發框架等。屆時開發者們能夠專注于精品內容的打磨，開發出各類富有想象力的應用和內容，比如XR游戲、XR會議、XR社交、XR影院等，和廣大用戶攜手進入真正的AR世界。

XR時代的終極目標是虛擬世界和物理世界的完美融合，這種融合主要是對人類與外界進行信息交換的一些方式，如觸覺、聽覺、視覺、嗅覺、味覺等進行模擬和增強。

6DoF空間聲場等技術的應用拓寬了XR設備的想象邊界，也悄然掀起了一場感知交互革命。我們或許可以預見，在視覺和聽覺之后，觸覺、嗅覺、味覺等“感官體驗”也將在XR時代被重新定義。

現在，耳朵也要進入元宇宙了

什么是6DoF空間聲場？

△圖：3D音頻圖示（圖源自網絡）

6DoF空間聲場的實現需要軟硬件高度協同

△圖：6DoF自由度（圖源自網絡）

△圖：XR設備應用6DoF空間聲場需要軟硬件高度協同

一場聲音革命，正在悄然興起

相關閱讀

2499元！Rokid Glasses 發布，AR眼鏡跑步進入消費時代

2499，AI濃度爆表！戴上這副眼鏡，一句話點咖啡/實時翻譯/AR導航全搞定

可量產AR主機來了！搭載驍龍XR2+，續航是手機方案2倍以上

Rokid創始人祝銘明：元宇宙的本質、底層和核心技術 | MEET2022

離你最近的空間計算打開方式，X499元？

全球首款經 Google 認證的 AR版便攜式Android TV? 設備Rokid Station發售

熱門文章

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

GPT5.5代號“蒜你狠”曝光！OpenAI拉響紅色警報加班趕制新模型，最快下周就發

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

DeepSeekV3.2技術報告還是老外看得細