2021聲學(xué)行業(yè)大總結(jié)系列文章第二期,21dB聲學(xué)人來和大家聊一聊實(shí)時通信中的音頻技術(shù)~
作者:馬文瑤
2021年實(shí)時通訊:聲場景分類
音視頻實(shí)時通訊產(chǎn)品發(fā)展至今,其產(chǎn)品功能趨于智能化、多樣化、人性化。以廣泛使用的線上會議產(chǎn)品為例,聲學(xué)場景分類作為近年大熱的技術(shù),極大地提升了線上溝通質(zhì)量。
聲學(xué)場景分類
聲學(xué)場景分類(ASC,Acoustic Sence Classifier)技術(shù)落地到線上會議,被用于自動判斷用戶所處的環(huán)境,進(jìn)而自主地做出相應(yīng)的調(diào)整,提高線上溝通質(zhì)量。具體來說,入會者所處環(huán)境場景千變?nèi)f化,而不同場景需要對音頻流進(jìn)行不同處理:如檢測到街道環(huán)境,需要對風(fēng)噪和交通噪聲進(jìn)行處理;檢測到嘈雜聲學(xué)場景,自動禁止嘈雜端麥克風(fēng);檢測到音樂場景,不啟動降噪算法以使音樂無失真?zhèn)鬏數(shù)綄Χ;檢測到泄漏回聲場景,開啟殘余回聲消除算法[1]。
圖1 聲學(xué)場景分類算法流程(圖片來源:網(wǎng)絡(luò))
ASC的作用是對描述場景位置的預(yù)定義標(biāo)簽中的音頻數(shù)據(jù)進(jìn)行識別和分類。傳統(tǒng)的分類特征有梅爾頻率倒譜系數(shù)MFCC(Mel-frequency Cepstrum Coefficient)、聲學(xué)事件直方圖或者基于時頻學(xué)習(xí)的梯度直方圖。傳統(tǒng)的分類模型有隱馬爾可夫模型HMM(Hidden Markov Model)、高斯混合模型GMM(Gaussian Mixture Model)、支持向量機(jī)SVM(Support Vector Machine)[2]。
當(dāng)前主流是基于深度學(xué)習(xí)的ASC,其處理流程通常包含一下幾個步驟:傳感器采集環(huán)境信息、數(shù)據(jù)準(zhǔn)備(聲學(xué)表征、預(yù)處理、數(shù)據(jù)增強(qiáng))、數(shù)據(jù)建模(網(wǎng)絡(luò)架構(gòu)、學(xué)習(xí)方法)以及最終的評價部署。本文主要聚焦于數(shù)據(jù)建模部分,對以往的工作進(jìn)行了介紹,并考察了2021年度學(xué)者進(jìn)行的改進(jìn)與探索。
數(shù)據(jù)建模之——網(wǎng)格架構(gòu)
絕大多數(shù)性能優(yōu)異的ASC算法使用的是卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)架構(gòu)。近年來有層出不窮基于CNN的改進(jìn)算法:Ren等人使用具有全局注意力池化的空洞卷積神經(jīng)網(wǎng)絡(luò)作為分類模型,使用大感受野取代局部池化來固定特征地圖(Feature Map)的大小[3];Koutini等人通過對感受野進(jìn)行正則化改進(jìn)了ASC性能[4];Basbug等人則是從改進(jìn)聚合局部特征的方式的角度修改了CNN的級聯(lián)架構(gòu),該架構(gòu)使用的是空間金字塔池化策略[5];Suh等人通過對輸入特征進(jìn)行網(wǎng)格搜索尋找合適的感受野[6]。
數(shù)據(jù)建模之——學(xué)習(xí)方法
現(xiàn)有常用的學(xué)習(xí)方法有:閉集分類——適用于聲學(xué)場景類別固定的數(shù)據(jù)[7];開集分類——適用于實(shí)時場景,數(shù)據(jù)分布未知[8];多輸入網(wǎng)絡(luò)法——前文所提及的都是基于CNN的ASC算法,其特征輸入都是多維的,而CNN起初是由圖像處理領(lǐng)域引入近音頻處理的,音頻信號的時頻譜圖作為特征與圖像有著完全不同的意義,因此有學(xué)者從訓(xùn)練神經(jīng)網(wǎng)絡(luò)能檢測不同維度的角度出發(fā),將頻譜圖劃分子帶,稱為多輸入網(wǎng)絡(luò);注意力機(jī)制[9];遷移學(xué)習(xí)——即充分利用機(jī)器視覺領(lǐng)域使用過的的網(wǎng)絡(luò)結(jié)構(gòu);集成學(xué)習(xí)——對多個模型進(jìn)行集成,在學(xué)術(shù)領(lǐng)域的活躍程度較高,在工程領(lǐng)域由于時間和資源的限制無法落地。
2021年度難點(diǎn)與探索
難點(diǎn)一:由于同一類聲場景的不同音頻樣本所包含的聲事件并不總是相同的,而不同類場景的音頻樣本卻極有可能包含相同的聲事件,導(dǎo)致類內(nèi)間差較大,而類間間差較小。針對此技術(shù)難點(diǎn),Chon等人引入兩個不同結(jié)構(gòu)的CNN進(jìn)行雙尺度深度嵌入的學(xué)習(xí),以期能夠有效地學(xué)習(xí)表征出不同聲場景的特征差異[12]。
難點(diǎn)二:不同聲場景的時頻尺度不一致。對此,Xie等人從時頻結(jié)構(gòu)出發(fā)提出了一種融合結(jié)構(gòu),利用短時傅里葉變換、常數(shù)Q變換、小波變換推導(dǎo)出一種融合時頻表征[13]。
難點(diǎn)三:CNN模型作為ASC系統(tǒng)實(shí)現(xiàn)的主流選擇,通常包含大量參數(shù),計(jì)算復(fù)雜度高,在較低的參數(shù)存儲容量水平下難以保證ASC性能。對此Shi等人提出了一種低復(fù)雜度的基于原始環(huán)境生成數(shù)據(jù)的ASC[14],其核心為主環(huán)境提取PAE(Primary Ambient Extraction)。
主環(huán)境提取
以往的工作主要集中在模型層面的優(yōu)化,Shi等人另辟蹊徑,從數(shù)據(jù)層出發(fā)進(jìn)行優(yōu)化,提出主環(huán)境提取PAE,讓人耳目一新。為了降低計(jì)算復(fù)雜度,還提出了PAE的快速實(shí)現(xiàn)Fast PAE。
PAE算法最初提出的目的是將立體聲音頻剪輯混合到任意數(shù)量的信道中,以便由多信道再現(xiàn)系統(tǒng)播放。它假設(shè)在立體聲音頻的每個通道中都有一個主分量和一個環(huán)境分量,Shi等人恰是從該應(yīng)用的逆向進(jìn)行思考。但是考慮到主成分和環(huán)境成分與原始立體聲音頻的數(shù)據(jù)分布不同,則將主成分和環(huán)境分量按照隨機(jī)權(quán)重進(jìn)行混合,得到與原始立體聲音頻樣本相關(guān)的增強(qiáng)樣本,從而在不改變原始數(shù)據(jù)分布的情況下有效地提高了數(shù)據(jù)的泛化程度。通過優(yōu)化搜索策略,作者還進(jìn)而得到了一種快速算法稱為Fast PAE。實(shí)驗(yàn)結(jié)果證明該Fast PAE計(jì)算復(fù)雜度和其他算法相比有明顯優(yōu)勢。
圖2 使用PAE算法生成數(shù)據(jù)
圖3 處理多樣本的時間成本比較
回顧前述所有的ASC算法,現(xiàn)有的改進(jìn)角度包括但不限于:分類器設(shè)計(jì)、數(shù)據(jù)增強(qiáng)方案、特征提取方案、子模型數(shù)量、外部數(shù)據(jù)引用情況、嵌入層設(shè)計(jì),模型壓縮方案。展望2022,在上述角度依然有改進(jìn)的空間,但是基于機(jī)器學(xué)習(xí)的ASC算法從機(jī)器視覺領(lǐng)域受啟發(fā)頗多,未來可以更多考慮充分利用音頻信號的譜特征。此外,挑戰(zhàn)低復(fù)雜度依然是解決工程領(lǐng)域與學(xué)術(shù)領(lǐng)域無法同步的必然方向。
參考文獻(xiàn):
(圖片來源:網(wǎng)絡(luò))
[1]Cloud.tencent.com
[2]Mesaros A, Heittola T, Benetos E, et al. Detection and classification of acoustic scenes and events: outcome of the DCASE 2016 challenge[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2018, 26(2): 379–393.)
[3]Ren, Z.; Kong, Q.; Han, J.; Plumbley, M.D.; Schuller, B.W. Attention based Atrous Convolutional Neural Networks: Visualisation and Understanding Perspectives of Acoustic Scenes. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 56–60.
[4]Koutini, K.; Eghbal-zadeh, H.; Widmer, G. Receptive-Field-Regularized CNN Variants for Acoustic Scene Classification. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 124–128.
[5]Basbug, A.M.; Sert, M. Acoustic Scene Classification Using Spatial Pyramid Pooling with Convolutional Neural Networks. In Proceedings of the 13th IEEE International Conference on Semantic Computing (ICSC), Newport, CA, USA, 30 January–1 February 2019; pp. 128–131.
[6]Suh, Sangwon, Sooyoung Park, Youngho Jeong and Taejin Lee. Designing Acoustic Scene Classification Models with CNN Variants Technical Report.2020.
[7]Saki, F.; Guo, Y.; Hung, C.Y. Open-Set Evolving Acoustic Scene Classification System. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 219–223.
[8]Wilkinghoff, K.; Frank Kurth. Open-Set Acoustic Scene Classification with Deep Convolutional Autoencoders. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 258–262.
[9]Mcdonnell, M.D.; Gao, W. Acoustic Scene Classification Using Deep Residual Networks With Late Fusion of Separated High and Low Frequency Paths. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019.
[10]Phaye, S.S.R.; Benetos, E.; Wang, Y. Subspectralnet—Using Sub-Spectrogram based Convolutional Neural Networks for Acoustic Scene Classification. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 825–829.
[11]Wang, C.Y.; Santoso, A.; Wang, J.C. Acoustic Scene Classification using Self-Determination Convolutional Neural Network. In Proceedings of the 9th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), Honolulu, HI, USA, 2–15 November 2018; pp. 19–22.
[12]H. K. Chon et al., Acoustic Scene Classification Using Aggregation of Two-Scale Deep Embeddings, 2021 IEEE 21st International Conference on Communication Technology (ICCT), 2021, pp. 1341-1345.
[13]W. Xie, Q. He, H. Yan and Y. Li, "Acoustic Scene Classification Using Deep CNNs With Time-Frequency Representations," 2021 IEEE 21st International Conference on Communication Technology (ICCT), 2021, pp. 1325-1329.
[14]C. Shi, H. Yang, Y. Liu and J. Liang, Low-Complexity Acoustic Scene Classification Using Data Generation Based On Primary Ambient Extraction,2021 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB), 2021, pp. 1-5.