色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

通過文本控制生成多通道音頻在影視娛樂、AR/VR等領域擁有重要應用。

BEWO團隊 投稿

量子位 | 公眾號 QbitAI

兔子通過兩只耳朵可以準確感知捕食者的一舉一動,造就了不同品種廣泛分布在世界各地的生命奇跡;同樣人也需要通過雙耳沉浸式享受電影視聽盛宴、判斷駕駛環境和感知周圍活動狀態。

那應用火爆的diffusion生成模型是否可以做到直接生成符合物理世界規律的空間音頻呢?

此前,經典的Text2Audio的工作可以通過文本抽象的語義生成較為準確的單通道音頻。

但是這忽略了人類與生俱來的感知雙通道音頻的能力。應用角度來說,通過文本控制生成多通道音頻在影視娛樂、AR/VR等領域擁有重要應用。

在這個趨勢的背景下,為了增強文本對于多通道音頻生成的控制,港科大北郵團隊首次從數據、模型和評價標準角度都創新性的將控制聲源方向納入到生成范圍內。

什么是空間音頻生成?

什么是空間音頻?

似乎能夠通過聲音判斷事物方向和狀態是自然人與生俱來的能力。生物聲學 (Bioacoustics)是早在20世紀便進行了深入的探索。人能感知聲音的方位,主要來自以下三個方面:

  • ITD (主要不同):Interaural Time Difference-耳間時間差。即由于雙耳耳間距離導致聲音到達兩只耳朵的時間不一樣。這一點是雙通道的主要差異。
  • ILD:Interaural Level Difference-耳間聲強差。即由于雙耳耳間距離導致聲音到達兩只耳朵的強度和衰減不一樣。這一點是輔助方式,在實際生成中發現這點較難度量,基本能量一致。
  • 耳蝸、耳道和頭骨等生理結構:由于人的感知系統非常復雜,并且涉及物理及生理研究,是一門非常深的學問。在Bioacoustic領域,很多人用深度學習方法構建合理的的HRTF (Head-related transfer function),才能夠很好的模擬生理結構。但是鑒于本文為先期探索工作,文中不考慮這點的影響。
ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

實現空間音頻生成相關的技術路線?

1、雙階段方案:首先通過普通text2audio的模型生成單通道音頻,然后通過仿真或者可學習的濾波器進行串聯。使得最終能夠獲得多通道的空間音頻。這種系統顯然不夠魯棒并且無法適應復雜場景的生成任務。

2、此前的單階段方案:雖然這類系統能夠生成stereo音頻,但是遠遠不具備生成spatial音頻的控制能力。

3、該研究方案:提出了從數據集、方法和評估指標的一條龍解決方案,較好的提升了對于spatial音頻的控制。

ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

數據構造:讓機器“耳聽八方”的數據工廠

在本項研究中,數據構造是整個系統的基石!

想要生成各個方向上的音頻,就必須讓生成模型理解方向上的區別。比如想要讓系統生成摩托自左向右行進,就需要提供摩托在左、在右、自左向右和自右向左的音頻讓系統明白區別。這樣音頻收集的成本顯然是非常巨大的,為什么不做一個高效的“數據工廠”呢?

接下來,帶大家揭秘BEWO-1M(Both Ears Wide Open 1M)數據集的“生產流水線”。

為什么需要BEWO-1M?

現如今一般的音頻-文字數據集都缺乏明確的空間信息描述,比如即便有雙通道音頻,配套的文字描述也只是“汽車駛過”,而沒有具體方位信息(比如“汽車從右前方駛向左前方”)。這對于生成具有方向感的空間音頻完全不夠用!
所以,需要一個超大規模的、帶有豐富空間描述的雙通道音頻數據集,而 BEWO-1M 應運而生。它包含超過100萬條音頻-文本對,并且支持動態聲源、多聲源等復雜場景。

ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

借助近些年的熱門的GPT-4和嚴謹的仿真實驗,最終通過思維鏈(Chain of Thought)構造了一個包含100萬條、共計約2800小時音頻的大規模數據集,其中包括:

  1. 單聲源靜態音頻子集(Single Stationary):比如“貓在左邊叫”。
  2. 單聲源動態音頻子集(Single Dynamic):比如“直升機從左飛到右”。
  3. 多聲源音頻子集(Double, Mixed):比如“左側有雷聲,右側有狗叫”。
  4. 真實世界音頻子集(Real World):還手動標注了少部分真實錄制的雙通道音頻,確保測試集的真實性。

數據多樣性一覽:

ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

BEWO-1M是目前首個包含方向描述的大規模雙通道音頻數據集,它不僅適用于空間音頻生成,還可以擴展到空間音頻字幕生成(Appendix.G.5)、音頻-文本檢索(Appendix.G.6)等其他任務。在實驗中,發現它能夠顯著提升生成模型的空間控制能力,讓機器真正做到“耳聽八方”。

生成方法簡述

感謝Stability AI的研究者們,他們開發了用于生成雙通道的模型。但是這里生成模型存在比較顯然的音頻生成問題。比如:在Stable Audio中輸入prompt “A piano sound exists on the left side”, 最終生成的鋼琴聲音的方向是不可控的。這是由于他們的雙通道音頻完全由真實數據訓練得到,方向上并不具有足夠的多樣性。所以可控方向的音頻生成模型迫在眉睫。

有了BEWO-1M直接finetune行不行?行!直接使用帶有方位自然語言的prompt,直接進行finetune就能夠讓模型獲取最基本的生成指定方向音頻的能力。對此作者提供了一個通過自然語言控制的Gradio Demo.

ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

但是涉及到方向自然語言理解的時候存在非常多樣化的表達。這些多樣化的表達對文本的encoder帶來了極大的挑戰。對于T5這個非常經典的編碼模型來說,更長的文本長度會帶來更長的編碼和更大的理解難度。

ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

那更進一步地,為了應對這樣的挑戰有兩個非常自然的想法。(1)將空間控制和文本控制解耦;(2)利用大模型對于文本的理解能力。

將空間控制和文本控制解耦.就意味著增加空間控制的引導!空間控制的實現主要來自仿真的訓練數據,作者有極為準確的仿真建模,所以在訓練時的角度是精確到小數點后4位的。那么在訓練的時候使用這個角度是非常自然的。對此作者提供了一個通過精確方位信息控制的Gradio Demo.

利用大模型對于文本的理解能力可以在推理的時候用推理和上下文學習獲取可靠的方向信息(詳見論文),這個方向在人工驗證中正確率高達90%

ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

通過對空間控制和文本解耦實現了如上圖可視化的更精準的音頻方向的控制。其控制性能相比直接finetune有了精準性的提升

實驗過程中,作者發現如果使用極為準確的角度建模方式可以生成方向較為準確的音頻,但是生成的音頻語義多樣化欠佳。所以同時開發了coarse建模方式可以獲得更多樣化的音頻生成,但是會出現方向控制不準確的情況。

“多樣性 or 控制” 這個生成千古難題依然在這里是個trade off。

有了基于大量文本音頻對的數據得到的文本控制的模型?那么如何遷移到其他模態上呢。而且文本編碼用的是T5編碼。

眾所周知,T5作為encoder+decoder的model在大模型的現今已經淘汰了。研究團隊簡單借助前人的VL-T5接著做了簡單的對齊實現了簡單的image到spatial audio的生成,這僅僅是給社區提供一個簡單粗糙的圖像引導的音頻生成的baseline。

評價和結果

為了和其他模型比較,研究團隊開發了多種語義和聲源方向上的評估算法。

語義層面,此前Text2Audio的生成的評估算法依然有效。作者直接聲道平均后評測語義層面上的相似程度。下表展示了以單通道模型的評估標準評估SpatialSonic模型依然具有一定的先進性

ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

聲源方向層面,研究團隊創新性地首次提出通過ITD求出方位誤差。根據背景所述,人主要通過ITD來判斷物體的大致方位,同樣也采用ITD作為評估方法。

此前ITD的評估一般由2種方法而來:

  1. 傳統信號方法:代表為GCC-Phat
  2. 深度學習方法:代表為StereoCRW

本文利用這兩種ITD評估方法,開發了對兩段音頻的ITD進行不同程度的評估算法(GCC MSE、CRW MSE和FSAD)。通過這些指標很好地展示了模型在文本引導的空間音頻生成上的優越性。

ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻

由于音頻本身具有的耦合性,研究團隊堅信這并不是生成音頻ITD相似度的評估算法的最終形態。團隊會不斷在GitHub上更新更優質的算法。更多的實驗結果請參考論文。

如果你好奇如下幾個問題,請向論文中尋求答案!

1、方向的參與程度是否會影響音頻的生成質量?(Appendix.G.9)

是的。作者發現加入方向距離中間偏差越大,生成音頻質量會逐漸下降。比如,質量上,純左<左前<正中。

2、由于方向的加入,必然導致caption長度的增加,這是否會影響音頻的生成質量?(Appendix.G.10)

是的。作者發現caption長度越長,生成質量會下降。

3、不同類別的控制方向能力是否相同?是否存在一些類別聲音控制方向能力較強,一些較弱的Bias?(Appendix.G.11)

確實不同。作者發現對于個別類控制能力較強,其他類控制能力稍弱。推測這與數據分布和GPT induction都存在關聯。

未來展望

未來在以下多方面存在改進空間:

引入HRTF模擬耳道等真實感知。

當前Visual由于使用Coco數據集存在較強的in domain問題。OOD(Out of Distribution)或者OV (Open Vocabulary)會有非常大的進步空間。

Interactive的實現依賴于SAM的性能,實現依然不是非常優雅且存在錯誤累積。

VL-T5早已落后時代,或許作為初步探索足夠,但是未來必然會有更優雅的方式。

項目主頁: https://peiwensun2000.github.io/bewo/
Gradio Demo (自然語言控制): http://143.89.224.6:2436/
Gradio Demo(滑條控制控制): http://143.89.224.6:2437/
Github代碼: https://github.com/PeiwenSun2000/Both-Ears-Wide-Open
Arxiv論文: https://arxiv.org/abs/2410.10676
數據集: https://github.com/PeiwenSun2000/Both-Ears-Wide-Open/tree/main/datasets

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
亚洲欧美另类日韩| 精品国产一区二区精华| 青娱乐自拍偷拍| 久久久久久久久久久久久女国产乱| 国产精品va在线播放| 神马久久久久久久| 亚洲福利在线播放| 人人妻人人藻人人爽欧美一区| 欧美性高跟鞋xxxxhd| 亚洲国产一二三精品无码| 日日夜夜精品视频天天综合网| 国产精品久久av| 97成人免费视频| 亚洲性无码av在线| 第一次破处视频| 亚洲人成在线观看| 国产中文字字幕乱码无限| 欧美日韩精品欧美日韩精品| 国产一区二区四区| 亚洲久草在线视频| 亚洲精品午夜在线观看| 色诱视频网站一区| 亚洲少妇一区二区| 91国偷自产一区二区开放时间 | 在线能看的av| 欧美日韩ab片| 日韩av在线电影| 日韩中文在线不卡| 久久久全国免费视频| 久久久久这里只有精品| 中文字幕资源网| 久久久爽爽爽美女图片| 国产a级免费视频| 国产精品大片wwwwww| 精品一区二区三区在线视频| 亚洲最大福利视频网站| www.欧美色图| 中文字幕不卡每日更新1区2区| 久久久蜜桃精品| 男人日女人视频网站| 国产农村妇女毛片精品久久麻豆| 欧美黄色免费网址| 亚洲成在线观看| 日本一卡二卡在线播放| www.日本久久久久com.| 日本亚洲三级在线| 国产精品333| 欧美亚洲日本一区| 国内精品卡一卡二卡三| 91精品国产91| 91在线精品秘密一区二区| 欧美专区第二页| 亚洲午夜女主播在线直播| 国产精品久久影视| 91久久国产婷婷一区二区| 国产欧美精品日韩区二区麻豆天美| 午夜视频在线网站| 亚洲国产精品高清久久久| 一区二区www| 精品综合在线| 欧美午夜精品免费| 一级特黄免费视频| 日韩国产一区久久| 欧美视频完全免费看| 精品欧美一区二区三区免费观看 | 亚洲五月六月| 一区二区三区中文在线| av资源在线免费观看| 色哟哟国产精品色哟哟| 一本一本大道香蕉久在线精品| 蜜桃色一区二区三区| 在线电影av不卡网址| 日韩国产精品久久久| 日韩精品视频在线观看视频| 亚洲精品一区二区久| 日本不卡一区二区三区| 欧美性猛交乱大交| 日韩免费黄色av| 国产精品无码永久免费888| 国产精品视频看看| 国产成人精品av| 一区二区三区中文字幕电影 | 国产视频一区在线| 麻豆成人91精品二区三区| 中文字幕一区二区三区乱码不卡| 国产精品久久久久久超碰| 亚洲国产色一区| 国产精品露脸视频| 蜜桃网站在线观看| 色综合久久天天综线观看| 日本一区二区动态图| 亚洲欧洲综合网| 欧美少妇在线观看| 久久成人免费视频| 国产三级精品三级在线专区| 熟女俱乐部一区二区| 国产成人精品视| 国产拍揄自揄精品视频麻豆| 九九热国产在线| 四虎4hu永久免费入口| 性欧美暴力猛交69hd| 亚洲精品国产视频| 日韩中文字幕av电影| 三上悠亚ssⅰn939无码播放 | 国产高清久久久| 在线免费观看毛片| www.国产亚洲| 热久久免费视频精品| 一区二区三区在线视频观看58| av无码精品一区二区三区宅噜噜| 嫩草av久久伊人妇女超级a| 国产不卡av在线免费观看| 精品久久久久久国产| 久久久亚洲人| 日本国产在线视频| 最新视频 - x88av| 日本精品一区二区三区在线 | 日本黄色动态图| 亚洲国产午夜伦理片大全在线观看网站| 精品性高朝久久久久久久| 国产精品污网站| 国产欧美综合视频| 亚洲色图14p| 国产精品va无码一区二区| 福利精品视频| 国产一区二区三区在线观看视频 | 男人添女人下面免费视频| 日本10禁啪啪无遮挡免费一区二区| 精品国产一区二区三区四区在线观看| 中文字幕中文在线不卡住| 日韩电影在线免费| 久久国产高清视频| 免费看国产曰批40分钟| 国产精品网红福利| 7777精品伊人久久久大香线蕉完整版| 国产成人综合网| 波多野结衣在线观看一区| 中文字幕国产综合| 亚洲综合激情视频| 成人免费xxxxx在线视频| 国产色综合一区二区三区| 亚洲香蕉av在线一区二区三区| 91精品久久久久久久久99蜜臂| 国产亚洲婷婷免费| 丰满放荡岳乱妇91ww| 无码精品人妻一区二区| 国产主播av在线| 九热视频在线观看| 神马午夜伦理影院| 午夜精品区一区二区三| 国产偷国产偷亚洲高清97cao| 欧美一级淫片videoshd| 91精品国产91久久久久久| 中文字幕精品在线| 色老头一区二区三区在线观看| 亚洲成人精品久久| 亚洲精品电影网在线观看| 精品国产区一区| 91精品国产一区二区三区蜜臀| 精品日本高清在线播放| 色综合视频一区二区三区高清| 亚洲黄色小说网站| 久久久综合精品| 懂色av中文字幕一区二区三区| 美女视频一区二区| 久久久999| 性生交生活影碟片| www.爱爱.com| 久久精品国产99| 日本中文一区二区三区| 国产精品亚洲欧美在线播放| 国产91绿帽单男绿奴| 亚洲人成色777777精品音频| 一级特黄aaa大片在线观看| av中文字幕第一页| 五月天激情婷婷| 久久人人精品| 免费高清在线一区| 精品一区二区国语对白| 少妇av一区二区| 刘玥91精选国产在线观看| 六月婷婷综合网| 久久国产欧美日韩精品| 国产一区二区三区观看| 国产欧美日韩三级| 亚洲精选免费视频| 欧美性猛交xxxxx免费看| 精品国产一区二区三区久久久蜜月 | 精品久久五月天| 欧美xxxx18国产| 亚洲国产精品视频一区| 国产福利不卡视频| 国产 日韩 亚洲 欧美| 国产精品视频一区二区三区四| 神马久久久久久| 国产精品h在线观看| 国产精品免费一区| 在线观看精品视频| 91九色在线观看视频| 疯狂揉花蒂控制高潮h| 国产精品视频123| av加勒比在线| 成人av在线资源| 日韩欧美在线观看| 日韩在线激情视频| 欧洲精品久久久| 福利网在线观看| 超碰在线资源站| 美国精品一区二区| a级片免费观看| 国产亚洲一区二区三区| 欧美午夜电影在线| 久久久成人精品视频| 国产91免费视频| 欧美大片久久久| 亚洲手机在线观看| 久久免费午夜影院| 精品亚洲一区二区三区四区五区| 国产美女91呻吟求| 欧美日韩怡红院| 男人天堂视频在线| 国产精品国产三级国产专播品爱网| 亚洲精品电影在线| 亚洲最大福利视频网| 人人妻人人澡人人爽精品欧美一区| 91色国产在线| 一本色道久久综合亚洲| 国产欧美一区二区精品性| 亚洲人成电影在线观看天堂色| 国产伦精品一区二区三| 在线观看免费不卡av| 欧美不卡视频在线观看| www国产成人| 久久精品电影网站| 91国在线高清视频| 少妇真人直播免费视频| 美美哒免费高清在线观看视频一区二区| 亚洲欧洲在线观看av| 尤物yw午夜国产精品视频明星| 一级日韩一区在线观看| 男人的天堂av网| 国产一区二区三区av电影 | 欧美丰满艳妇bbwbbw| 国产女主播一区| 国产精品v片在线观看不卡| 中国黄色片免费看| 久久综合网络一区二区| 欧美一区二区三区播放老司机| 久久亚洲高清| 国产亚洲欧美精品久久久www | 亚洲国产一区二区三区在线播| 成人性生交大免费看| 99热精品一区二区| 欧美福利视频在线| 无码精品a∨在线观看中文| a网站在线观看| 亚洲精品一区二区三区蜜桃下载| 三区精品视频观看| 国产免费一区二区三区四区五区| 黑人巨大精品欧美一区免费视频 | 女人黄色一级片| 香蕉av一区二区三区| 日韩精品视频免费在线观看| 成人黄色大片网站| 久久精品系列| 日韩一区av在线| 欧美污在线观看| 国产夜色精品一区二区av| 国产美女主播一区| 欧美成人三级视频| 欧美午夜不卡视频| 日韩精品一区二区三区四 | 欧美激情视频一区二区三区| 姑娘第5集在线观看免费好剧| 欧美一区二区三区播放老司机| 久久观看最新视频| 日韩av电影天堂| 992tv在线成人免费观看| 欧美黄色aaa| 欧美顶级少妇做爰| 小泽玛利亚视频在线观看| 91在线观看污| 国产一级特黄a大片99| www.av导航| 久久91亚洲人成电影网站| 日本不卡一区视频| 欧美精品久久天天躁| 最近中文字幕一区二区| 亚洲国产精品成人综合色在线婷婷| 97se亚洲综合在线| 蜜桃视频污在线观看| 国产91精品久久久久久| 日韩av在线播| 亚洲日本中文字幕| 亚洲精品国产91| 欧美日韩在线综合| 国产一级片中文字幕| 姬川优奈aav一区二区| 妺妺窝人体色www在线观看| 中文字幕亚洲精品在线观看| 一区二区高清视频| 国产二区国产一区在线观看| 国产精品一 二 三| 激情六月婷婷久久| 久久超碰亚洲| 岛国精品一区二区| 亚洲一区二区高清视频| 成人黄色a**站在线观看| 日韩久久在线| wwwwww.欧美系列| 日本黑人久久| 99国产精品久久久久久久久久| 性欧美大战久久久久久久免费观看| 国产精品一色哟哟哟| 亚洲一区二区三区四区中文| 精品在线播放午夜| 日韩网站在线免费观看| 亚洲国产精品久久不卡毛片| 欧美成人精品免费| 国产精品拍天天在线| 日韩一级免费看| 国产日本亚洲高清| 黄网站欧美内射| 亚洲国产三级在线| 成人免费aaa| 国产精品美女久久久久久久久久久| 区一区二区三区中文字幕| 一本色道亚洲精品aⅴ| 99热这里只有精品66| 日本爱爱免费视频| 国模极品一区二区三区| 国产精品无圣光一区二区| 青青草av在线播放| 久久伊人资源站| 亚洲欧洲av色图| 国产成人永久免费视频| 中文字幕高清一区| 久久亚洲精品无码va白人极品| 91视频.com| 爱爱爱视频网站| 亚洲国产成人porn| 一本加勒比波多野结衣| 日韩成人黄色av| av黄色一级片| 国内精品久久久久久久| 另类综合日韩欧美亚洲| 色播亚洲婷婷| 亚洲精选一二三| 久久久久久久人妻无码中文字幕爆| 日韩一区二区三区免费观看| xxxx日本少妇| 国产美女高潮久久白浆| 99视频在线观看一区三区| 日本精品久久久久中文字幕| 亚洲欧美日韩中文在线| 欧性猛交ⅹxxx乱大交| 在线观看免费黄色片| 欧美zozozo| 熟妇高潮一区二区三区| 成人在线免费在线观看| 一区二区三区美女xx视频| 精品中文字幕一区二区| 日韩一级理论片| 影音先锋日韩有码| 国产一区二区三区久久久| 性一交一黄一片| 91国产中文字幕| 最新国产精品久久精品| 国产成人精品av久久| 亚洲一区3d动漫同人无遮挡 | 日本r级电影在线观看| 国产精品热视频| 亚洲五码中文字幕| 亚洲无码精品在线观看| 国产男女在线观看| 97高清免费视频| 亚洲免费毛片网站| 国产日韩久久久| 日韩中文字幕免费在线| 性欧美xxxx交| 欧美日韩精品在线观看| 亚洲精品久久久久久无码色欲四季| 欧美 日韩 国产一区| 91av在线精品| 在线免费观看日本一区| 视频一区二区三区在线| aaaaa一级片| 天堂√在线观看一区二区| 有码中文亚洲精品| 国产精品免费丝袜| 国产原创中文av| 无码国产精品一区二区免费式直播 | 欧美三级韩国三级日本一级| 捆绑紧缚一区二区三区视频| 亚洲AV成人无码网站天堂久久| 亚洲国产高清国产精品| 久久久精品视频成人| 亚洲夂夂婷婷色拍ww47| 香蕉视频成人在线| 成人性生交大免费看| 毛片av在线播放| 国产精品第一第二| 欧美一区二区大片| 久久嫩草精品久久久精品一| 一级二级三级视频| 国产成人av一区二区三区不卡| 中国人体摄影一区二区三区| 日韩中文综合网| 欧美视频在线观看一区二区| 91视频国产观看|