国产小视频免费看,色老久久综合爱欧美精品,办公室被cao的合不拢腿

索尼黑科技專欄——AI聲音分離技術

2021-08-06

建立在堅實技術基礎上的創(chuàng)意娛樂公司

索尼，始終以“人”為本，在前沿技術領域不斷探索進取。后疫情時代，索尼黑科技正式確立了3R戰(zhàn)略（真實（Reality）、實時（Real-time）和遠程（Remote），致力于為內(nèi)容創(chuàng)作賦能，共同開創(chuàng)前所未有的娛樂表達方式。

“索尼黑科技”專欄將定期為您介紹最具代表性的索尼技術創(chuàng)新成果，探索如何“用創(chuàng)意和科技的力量感動世界”。本期將為您帶來的是——AI聲音分離技術。

從混合音源中分離出單個聲音

聲音分離技術憑借AI實現(xiàn)巨大飛躍

聲音分離是一種技術，它可以從混合的音源中提取出單個的聲音。這原本被認為是一件非常困難的事，但在2013年，我們引入了索尼的AI技術，在這一領域更進一步。例如，在復原經(jīng)典電影、消除智能手機的噪音、實現(xiàn)音樂流媒體服務的實時卡拉OK功能等方面已經(jīng)取得了成果，我們期待未來它能應用到更多領域。

受訪人資料：

機器對人類能力的再現(xiàn)

Q AI聲音分離是一種什么樣的技術？

光藤祐基：AI聲音分離是一種技術，它可以從音頻數(shù)據(jù)中去除不必要的噪音，只提取人聲或其他特定樂器的聲音。當人類在聆聽一場多種聲音混合在一起的表演時，可以分辨出各個樂器，或者在進行對話時，即使被一大群人包圍，我們也能自然而然地專注于一個聲音。這些都是人類獨有的能力，而直到近來，計算機要做到這一點都還是極其困難的。有人將這項任務描述為混合兩種果汁，之后提取其中一種。但是在過去的幾年里，由于AI新方法的引入，這項技術有了極大的提升。

尤里奇：以前，人們試圖在分離中加入大量的專業(yè)知識，例如關于混合過程的知識。此外，人們更喜歡簡單的模型，因為它們可以從理論上研究它們�，F(xiàn)在這種情況已經(jīng)改變了，因為使用AI從數(shù)據(jù)中學習分離體系要好得多。聲音分離應用于《阿拉伯的勞倫斯》的三個例子，展示了我們?nèi)绾翁崛υ捯约案鞣N模擬聲音的方法。

Q 在這個技術上，AI如何被使用？

光藤祐基：我們的聲音分離是由AI來進行的，可以由人來教計算機完成這個任務。例如，一把吉他有一個特定的聲音或頻率，這一點可被神經(jīng)網(wǎng)絡學習到。無論混合了多少種聲音，我們的AI系統(tǒng)都能夠識別這些特征。這就像我們可以發(fā)現(xiàn)一個蘋果，因為我們之前見過很多蘋果。AI在聲音分離的應用方式而言，無論是機械上還是概念上都大同小異。

尤里奇：神經(jīng)網(wǎng)絡在所謂的訓練中學習識別音頻特征。在這個訓練中，神經(jīng)網(wǎng)絡會看到很多音樂--比我們一生中聽到的音樂還要多--以及我們應該提取的目標聲音。這些信息足以讓神經(jīng)網(wǎng)絡學習聲音分離。

讓時間倒流并重新混音錄制

Q AI聲音分離技術有什么特別之處？
光藤祐基：我們認為這是為數(shù)不多的可以讓時間倒流的技術。例如，你可以把過去必須要將各部分錄在一起的一段錄音，拿來專門提取人聲來重新混音，或者把所有的樂器的聲音分開來重新組合成一個新的格式。

Q 我們聽說這項技術也同樣應用在電影中。

尤里奇：為了給看電影的人提供一個身臨其境的聲場，需要從多個不同的角度傳遞聲音，重現(xiàn)一個3D音頻空間。然而，經(jīng)典電影的對白和音效都在同一個音軌上，所以我們能提取的聲音和聲場的沉浸感都是有限的。于是我們開始思考是否可以將這項技術延伸到電影中，在學習了音效（擬聲）庫之后，我們的AI系統(tǒng)能夠成功地從母版中提取出單個音效。在上面的視頻中也可以看到，在美國上映的《阿拉伯的勞倫斯》和《甘地》的4K超高清版本中，索尼影視娛樂公司的調(diào)音師用這項技術提取出聲音，用杜比全景聲進行重制，創(chuàng)造了一個沉浸式的聲場。

上圖說明了擬聲聲音分離過程及其在電影混音中的應用

4K超高清版的《阿拉伯的勞倫斯》和《甘地》錄制在哥倫比亞經(jīng)典系列第一卷中

將聲音分離的價值帶給更多的人

Q 這項技術似乎也可以用在其他各種領域。
光藤祐基：這項技術也有望應用于電影以外的場景，比如清理通過麥克風記錄的人類聲音。例如，索尼的自主型娛樂機器人 '小狗 'aibo可以對人類的聲音做出回應并進行交流，但如果aibo只是簡單地收集周圍的聲音，其自身的機械聲或風噪等噪音也會被接收到。通過使用AI聲音分離技術，可以只提取人類的聲音，去除其他所有的背景音，以提高其語音識別能力。同樣，通過在Xperia智能手機上打電話時僅清理人聲，我們就不用再擔心聊天時的風噪。最近的另一個例子是，它被用于一款音樂流媒體應用程序的 '卡拉OK模式'。通過使用聲音分離技術，可以將原唱的聲音從流媒體音樂中實時移除（成為伴奏），并將用戶的演唱與音源混合，從而實現(xiàn)類似卡拉OK的體驗。

Q 該技術未來的可能性和前景如何？
光藤祐基：我們希望我們的技術能夠像一臺時光機一樣，讓過去和現(xiàn)在的藝術家能夠跨時空合作。索尼PCL和索尼音樂解決方案剛剛開始使用我們的技術對外提供服務，所以肯定會有更多的應用。我非常期待未來的前景。

尤里奇：從技術角度來看，我們將看到向廣泛音源分離的過渡，在這種情況下，不僅音源的數(shù)量是未知的，而且音源的類型也是不明確的。人們認識到這是一個具有挑戰(zhàn)性但有趣的情景，它將促成更多的商業(yè)應用案例。