每個(gè)人對(duì)聲音的感知都不一樣,有人單純感受聽覺舒適,有人聽的細(xì)枝末節(jié),還有人聽的是技術(shù)層面。很多人帶著對(duì)聲音的滿腔熱愛,奔赴聲學(xué)領(lǐng)域?qū)W⒀邪l(fā),為音頻設(shè)備相關(guān)問題提供更優(yōu)質(zhì)的解決方案。塞賓科技CEO張德明博士作為聲音重度愛好者,一直在聲學(xué)領(lǐng)域不斷研發(fā)創(chuàng)新,且有著極大建樹,帶來了很多非常成熟的產(chǎn)品。近日,張德明博士受邀作為京津冀之聲科創(chuàng)中國欄目的嘉賓,與廣大聽眾分享他與聲音的故事,以下節(jié)選自部分采訪內(nèi)容。
主持人:我先跟各位聽眾朋友說一下,其實(shí)在我們節(jié)目正式播出之前,我已經(jīng)和張總聊了好長(zhǎng)時(shí)間了,今天張總帶來了很多設(shè)備,有話筒有耳機(jī),就讓我非常的興奮,因?yàn)槲液芟矚g這些聲音設(shè)備,今天看到您在這個(gè)聲音設(shè)備的硬件的領(lǐng)域已經(jīng)打造出了這么多非常棒,而且用我的角度來說是很神奇的產(chǎn)品,真的是讓我耳目一新。所以我們先跟各位聽眾朋友分享一下,張總您自己的創(chuàng)業(yè)公司平常究竟是做什么的?
張博:我們有做很多的硬件,這些產(chǎn)品是大家平時(shí)能夠用眼睛看到的東西,因?yàn)槭怯行蔚臇|西。但實(shí)際上塞賓真正做的事情是這些有形產(chǎn)品背后在芯片級(jí)里面的這些通訊的技術(shù),通訊的算法。具體我可以給大家打一個(gè)比方,我們這些麥克風(fēng)在采集一些聲音,類似于模擬我們?nèi)硕墓哪,接收到聲音,然后把信?hào)經(jīng)過一定的處理。比如把里面的噪聲給濾除,把一些別的音樂還可以跟聲音來進(jìn)行混合,再進(jìn)行一些音效的處理,然后還可以把它進(jìn)行編碼。因?yàn)槲覀儸F(xiàn)在的社會(huì)都是要進(jìn)行一些數(shù)字的傳輸,這樣處理這個(gè)事情的整個(gè)鏈路會(huì)變得更加有效率,然后再進(jìn)行無線信道的一個(gè)傳輸。什么叫無線信道?我們以前對(duì)于聲音的系統(tǒng),從麥克風(fēng)到我們的錄音機(jī),再到我們的Daw的系統(tǒng),就數(shù)字音頻的系統(tǒng),很多的這種連接都是基于有線的。那么塞賓做了除了算法之外的另外一件事情,就是要把所有的這些音頻的連接線給剪掉,變成無線。無線會(huì)給人們的工作生活或者娛樂等各種跟音頻相關(guān)的事情,帶來極大的便利。
主持人:無線其實(shí)大家不陌生了,我們現(xiàn)在很多朋友戴的耳機(jī)就是無線的,您現(xiàn)在做的事情跟大家司空見慣的現(xiàn)象之間到底有什么關(guān)系?
張博:大家接觸到的這些耳機(jī),我們先講麥克風(fēng)好了,我們?cè)贙TV里也有遇到手持的K歌麥克風(fēng),我們叫 u段的麥克風(fēng)。相對(duì)來說 u段的麥克風(fēng)跟我們現(xiàn)在跟移動(dòng)手機(jī)上的無線不是一回事,它是400兆到900兆左右中間任選一個(gè)頻段。所以這樣的麥克風(fēng)相對(duì)來說它的功耗也是比較高的,而且沒有辦法跟手機(jī)這樣的移動(dòng)設(shè)備來進(jìn)行工作,因?yàn)樗贿m用這樣的一種移動(dòng)場(chǎng)景。
大家現(xiàn)在的耳機(jī)也是一樣的,考慮到這種超低功耗,無線耳機(jī)它主要以聆聽為主。所以這些耳機(jī)你想讓它來采集很好的聲音,比如說打電話、開會(huì),是不能夠期望它有很好的聲音的。目前全球的藍(lán)牙體系的聲音采集最多只能做到7000赫茲單通道的聲音,并且即便是7000赫茲的聲音,也是經(jīng)過了非常大的失真,丟失了很多細(xì)節(jié)的聲音。
而塞賓在做的一件事情是基于無線藍(lán)牙設(shè)備可以實(shí)現(xiàn)CD級(jí)的聲音的采集,也就是說人聽見的聽不見的,20千赫茲附近一直到低頻的20赫茲全部都能采集下來,然后做降噪做編碼,分享給遠(yuǎn)程的人。
主持人:中間這些技術(shù)的難點(diǎn),這些門檻都是怎么跨過的?
張博:其實(shí)很多方面有我們不同的研究者,在不同的領(lǐng)域深深的扎根,做持續(xù)的研究。在音頻的算法方面,我們也有很多相應(yīng)的積累,比如降噪。我們現(xiàn)在看到市面上絕大多數(shù)耳機(jī)的降噪,是降了1000赫茲以下的環(huán)境噪聲,讓你的耳腔里面形成一個(gè)非常小的安靜環(huán)境,它跟我們通信講的降噪是兩回事。這是第一種降噪,第二種降噪就是我剛才跟您分享的一段音頻也是一樣的,傳統(tǒng)的藍(lán)牙只能傳輸7000赫茲以下的聲音。所以他們把7000赫茲叫上行降噪,有的地方叫enc環(huán)境降噪。塞賓是做出了全球第一個(gè)片上全頻的和CD級(jí)的 HIFI降噪技術(shù)。
主持人:您的意思是指在人耳聽到的范圍當(dāng)中都可以降噪。
張博:對(duì),都可以降噪,并且保持人聲極大的還原度。而我們聽到的其它真無線的耳機(jī),它們可以用來打電話、開會(huì)等,因?yàn)闊o線方便。但它采集回來的聲音只能是7000赫茲以下的,這種失真是非常大的。而我們可以實(shí)現(xiàn)高品質(zhì)的全頻帶CD級(jí)的聲音采集,并且要把全頻帶里的噪音去除。
主持人:這里面有個(gè)問題,聲音在人耳聽出來,有的是美妙的,有的是噪聲?墒亲屢粋(gè)硬件設(shè)備讓一個(gè)話筒聽,它可聽不出來什么是好聽的什么是噪聲。
張博:我們有算法去分辨哪些是噪聲,哪些不是噪聲,我們的處理方法跟其他耳機(jī)處理還是不太一樣的。其它耳機(jī)把佩戴者本身的說話聲當(dāng)成有用信號(hào),把其他的所有信息都變成是干擾和噪聲全部壓制掉,寧可對(duì)佩戴者自己的聲音形成一些損傷,也要把一切外面的聲音干擾統(tǒng)統(tǒng)干掉,所以你能聽到一個(gè)聲音,幾乎聽不到外面干擾的聲音,但是人的聲音已經(jīng)非常明顯的變形了。
但我們對(duì)于聲音的理解不太一樣,我們從物理上到算法上模擬到數(shù)字上,通過各方面的技術(shù),實(shí)現(xiàn)對(duì)人聲極大的保留,并且對(duì)于背景噪音背景干擾極大的抑制。但是如果是全景聲,比如需要一些非常自然的類似于同期聲的時(shí)候,我們就不能對(duì)背景里一些聲音進(jìn)行過分的抑制。對(duì)一些比如風(fēng)扇的聲音,汽車發(fā)動(dòng)機(jī)的聲音,拍照的聲音、風(fēng)照的聲音,這些我們?cè)诮y(tǒng)計(jì)上評(píng)估上能夠研究出來,他們一般情況下不會(huì)作為有益的聲源,需要把它抑制掉。但是如果采集一個(gè)街道,比如南鑼鼓巷,你從里面走過,這時(shí)候錄音就一個(gè)干巴巴的聲音,旁邊鏡頭里能看到別人叫賣的聲音卻聽不到,讓人感覺非常不舒服不自然。我們需要把叫賣的聲音也錄下來,雖然他聲音的量級(jí)非常小,我們需要很保真。但是對(duì)于比如空調(diào)的聲音,我們還是需要進(jìn)行一定的壓制,所以我們?cè)陬l譜在識(shí)別的時(shí)候,要進(jìn)行模態(tài)上的分類,需要在什么場(chǎng)景下保留什么樣的聲音。
我們的第二代全景聲的產(chǎn)品,就有全景模式、樂隊(duì)模式、solo模式和音樂模式。在不同的場(chǎng)景下,所針對(duì)的主聲源是不一樣的,這時(shí)候我們就為用戶設(shè)計(jì)好了,在這種場(chǎng)景下怎么樣才能夠保護(hù)你的主要聲源,讓一些次要被聲源壓制掉,而不是像傳統(tǒng)藍(lán)牙耳機(jī)一刀切。
主持人:簡(jiǎn)單粗暴的方式肯定是不好的,但您剛才講到這一點(diǎn)我覺得很好奇,這個(gè)得要求工程師除了在算法的層面能夠有很很好的技術(shù)以外,其實(shí)還需要他對(duì)于生活有理解,有各種想象,哪些東西其實(shí)是人真的愿意關(guān)注的聲音,哪一些可能有沒有都無所謂,哪一些是必須要去掉的。
張博:因?yàn)橛泻芏嗟穆曉,每一個(gè)聲源多么好聽也好,多么有特點(diǎn)也好,當(dāng)聲源越來越多的時(shí)候,麥克風(fēng)采集到的信號(hào)本身會(huì)越來越趨近于一個(gè)噪聲化的東西。
主持人:這個(gè)和人耳是不一樣,因?yàn)槲覀兟曇羰峭ㄟ^大腦的處理,把聲音進(jìn)行了某種程度上的優(yōu)化。
張博:我們的耳朵、耳廓、肩膀、頭,到骨膜里面有耳蝸系統(tǒng)纖毛系統(tǒng)的感知,再到里面的感受處理,大腦對(duì)雙耳的處理能夠?qū)崿F(xiàn)雙耳對(duì)空間任何一個(gè)聲源的聚焦,然后把其他的聲源能夠屏蔽掉,這個(gè)是麥克風(fēng)實(shí)現(xiàn)不了的事情。所以我們當(dāng)時(shí)創(chuàng)業(yè)做的第一個(gè)事情,就是模擬人類的雙耳自然環(huán)境自然生長(zhǎng)的感受,能夠?qū)崿F(xiàn)人真正的雙耳聽覺的傳遞。比如我在現(xiàn)場(chǎng)能夠聽到上下左右前后遠(yuǎn)近各種各樣的聲音,它的定位,它生產(chǎn)的感受是怎樣,然后把這種信號(hào)進(jìn)行降噪,進(jìn)行編碼傳輸,到另外一個(gè)地方再把它呈現(xiàn)出來。這樣就可以實(shí)現(xiàn)身臨其境的體驗(yàn)。
主持人:我跟大家舉個(gè)例子,剛才張總說的這個(gè)是什么意思?比如說戴耳機(jī)聽音樂,其實(shí)你聽到的這個(gè)音樂哪怕說它的保真度很好,但是這個(gè)聲音只是從你的左耳朵和右耳朵分別進(jìn)去,即便是有立體聲,也就是一些生產(chǎn)向位的變化,所謂的向位就是可能大提琴在左邊,低音鼓在右邊,但要是用了這種模擬人耳的方式來去聽的話,你會(huì)發(fā)現(xiàn)這個(gè)聲音除了是左耳和右耳之外,在你的前面后面左上右上等等各個(gè)方向其實(shí)都會(huì)有聲音,就像是一個(gè)人或者一個(gè)樂隊(duì)在繞著你。但是說到這一點(diǎn)我就很好奇,到底是什么原因讓您決定要在聲音設(shè)備或者打造一種前所未有的聲音場(chǎng)的賽道上去進(jìn)行創(chuàng)業(yè)?
張博:這里面其實(shí)有很多的原因,第一個(gè)原因就是我作為一個(gè)通信行業(yè)的從業(yè)者,有一些深入的思考,我們?cè)趺礃咏鉀Q通信的終極體驗(yàn),實(shí)現(xiàn)千里之外身臨其境的體驗(yàn)傳輸,這是我們希望能夠做到的事情。從移動(dòng)互聯(lián)網(wǎng)的層面來看,我們其實(shí)很容易在PC到PC實(shí)現(xiàn)這種聲場(chǎng),比較容易。但是我們發(fā)現(xiàn)PC互聯(lián)網(wǎng)作為互聯(lián)網(wǎng)的第一代,其實(shí)到2010年,基本上就進(jìn)入了移動(dòng)互聯(lián)網(wǎng)第二代通訊,這種移動(dòng)互聯(lián)網(wǎng)是以手機(jī)作為介入終端做通訊終端。科技會(huì)讓人越來越隨心所欲,但這時(shí)候如果通訊系統(tǒng)只能綁定在固定的房間,把人限制在某個(gè)特定的地方進(jìn)行某種特殊的這種活動(dòng)的話,不符合人們發(fā)展的期望和訴求。對(duì)于這種科技,一定是要無線化、移動(dòng)化,要非常方便使用。我們做的這套通訊系統(tǒng),目前依然處于第二代移動(dòng)互聯(lián)網(wǎng)發(fā)展的平臺(tái)期,也就是說我們很多的事情還是基于手機(jī)來進(jìn)行的,這個(gè)時(shí)候跟移動(dòng)手機(jī)進(jìn)行配合,做這樣的通訊體驗(yàn)傳輸,是最便利的環(huán)境。這也是為什么近幾年對(duì)于音頻設(shè)備的需求,會(huì)像井噴一樣發(fā)展起來了。
主持人:我看到像塞賓科技這幾年的成長(zhǎng)非常好,除了您之外很多做音頻硬件,做耳機(jī)做相關(guān)配件的企業(yè),大大小小發(fā)展的都不錯(cuò),為什么現(xiàn)在大家賣這些東西生意這么好。
張博:說明大家對(duì)聲音的表達(dá)會(huì)越來越重視。以前在互聯(lián)網(wǎng)上表達(dá)一樣的信息,有寫博客寫文章,到后來大家發(fā)圖片,再到現(xiàn)在發(fā)視頻。但視頻里面很重要的一點(diǎn)就是聲音,因?yàn)槿绻曨l聲音不好,會(huì)給人的體驗(yàn)造成非常大的一種損失。為了讓視頻具有傳播力,顯得更專業(yè),很多人會(huì)采用一些稍微專業(yè)的設(shè)備。對(duì)于播客而言,相對(duì)于以前的專業(yè)的播音主持,體量非常大,因?yàn)樗鼪]有過多的門檻要求,任何一個(gè)人都可以隨時(shí)隨地開一個(gè)直播的口子,哪怕只有一個(gè)人或者是沒有人為自己鼓掌喝彩。這是一個(gè)全民直播的時(shí)代,這個(gè)時(shí)代大家更注重自己向世界傳遞信息,而不只是去聆聽世界,這是個(gè)趨勢(shì)性的問題。我們順應(yīng)這個(gè)趨勢(shì)來研發(fā)無線化更加便利化的設(shè)備,這應(yīng)該也是順應(yīng)潮流的需求。
主持人:您也看到了這些社會(huì)的變化,包括潛在的需求,所以您是決定來創(chuàng)業(yè)。而且創(chuàng)業(yè)方向就是我們剛才提到的,首先它要無線,第二是盡可能的方便,第三是要最大限度的還原真實(shí)的狀態(tài)。
張博:之前講傳統(tǒng)的,無論是做電影還是做音樂,像這些過程我都或多或少參與過。所謂的pgc或者專業(yè)內(nèi)容制作團(tuán)隊(duì),這里面會(huì)有好幾個(gè)層面的事情。大家認(rèn)為所謂的專業(yè),就是藝術(shù)家,其實(shí)不是的,以前唱歌的人或者主持人或者演員,他們是Artist是藝術(shù)家,他們是不負(fù)責(zé)來做這些內(nèi)容操作的。他們有專業(yè)的團(tuán)隊(duì),有錄音師、調(diào)音師、混音師等一些專業(yè)的人。還有專業(yè)的設(shè)備,像錄音棚里專業(yè)的麥克風(fēng),專業(yè)的Daw系統(tǒng),這些非常昂貴,不是普通人用的,操作這些專業(yè)設(shè)備比我們操作手機(jī)要復(fù)雜得多。pgc的p就是professional,這些各種操作的專業(yè)人就叫professional。
但是到了移動(dòng)互聯(lián)網(wǎng)時(shí)代,其實(shí)我們手機(jī)上有攝像頭,有麥克風(fēng),除了拿它來打電話,實(shí)現(xiàn)人與人之間的溝通交流之外,我們也可以拿手機(jī)拍照、拍視頻、錄音、采訪,然后把這些內(nèi)容分享到Y(jié)ouTube或抖音上,這樣的內(nèi)容叫做UGC。U就是user,用戶、消費(fèi)者,這樣產(chǎn)生的內(nèi)容相對(duì)來說質(zhì)量比較差一些,但是核心是方便。其實(shí)現(xiàn)在市面上也有非常多的人,拿這樣的設(shè)備,我們叫c端設(shè)備,或者是用戶側(cè)的設(shè)備去做內(nèi)容,這個(gè)叫UGC。
我們?nèi)e準(zhǔn)確意義上來說,不是做這種UGC的產(chǎn)品,很多時(shí)候也不是pgc的產(chǎn)品,而是我們稱之為pugc的產(chǎn)品。Pugc實(shí)際上是這個(gè)產(chǎn)品的形態(tài)和使用上面來說,更接近c(diǎn)端的消費(fèi)者,跟手機(jī)一樣非常方便使用,無論是麥克風(fēng)還是耳機(jī)、音箱、聲卡這樣的設(shè)備。
主持人:也就是說用起來不麻煩,買起來也不是很貴。
張博:但是它產(chǎn)生的內(nèi)容的質(zhì)量,是接近pgc這種制作方法或制作設(shè)備制作出來的攝影體驗(yàn)。
主持人:但是大家經(jīng)常說一分價(jià)錢一分貨十分價(jià)錢買不錯(cuò),我是一個(gè)聲音愛好者,在我正式從事廣播這個(gè)行業(yè)之前,也在這個(gè)領(lǐng)域花了很多錢,知道其實(shí)好的音頻設(shè)備是很貴的,但是今天您又說可以把它做成非常低的價(jià)格,這個(gè)中間是怎么實(shí)現(xiàn)的?
張博:以前的設(shè)備特別貴,有一些是歷史性的因素。我舉個(gè)例子,以前在大家聽HiFi的年代,所謂的HiFi就是一對(duì)立體的箱子,人坐在等邊三角形的頂點(diǎn)上,聽立體聲箱子發(fā)出來的古典音樂會(huì)的典型場(chǎng)景。音箱的背后它有功放,功放里面以前都是叫a類功放,有的是用這種電子管,電子管放大的聲音很暖,相應(yīng)的一些模擬器件的造價(jià)是比較昂貴的。如果要讓它做的好,就要花很高的價(jià)錢。再舉一個(gè)例子,我們當(dāng)時(shí)用的這些傳輸線。
主持人:對(duì),導(dǎo)線要用金線銀線。
張博:為什么用金線銀線?并不是說金線銀線顯得高貴,而是金銀的傳輸傳導(dǎo)率比較高,它能夠?qū)崿F(xiàn)聲音的傳輸質(zhì)量更好一些。當(dāng)時(shí)模擬音頻時(shí)代有這么個(gè)貴的道理。但是到了現(xiàn)在,我們其實(shí)是盡可能的非常早的把模擬音頻變到數(shù)字領(lǐng)域。
主持人:所以您的意思是正因?yàn)槲覀冞M(jìn)入到了數(shù)字領(lǐng)域,所以在底層的聲音的編解碼的層面來說,我們就已經(jīng)節(jié)省了很多的成本對(duì)。其實(shí)除此之外,還有一些成本的降低,也是跟咱們國家近些年工業(yè)化的程度不斷上升,而且大規(guī)模制造的程度不斷上升是有關(guān)系的。那么時(shí)間的原因,我們本期科創(chuàng)中國只能暫且聊在這里了。今天塞賓科技的創(chuàng)始人兼CEO張德明先生跟我們分享了他在聲音創(chuàng)業(yè)領(lǐng)域的很多故事,但是這僅僅是一個(gè)開始,未來我們還會(huì)邀請(qǐng)張總來節(jié)目中和大家聊一聊他所鐘愛的聲音設(shè)備的制造,包括傳輸?shù)南嚓P(guān)故事。