技術(shù)引領(lǐng)未來(lái),守護(hù)美好生活
1.基本概念
愛人的氣息是從不失職的溫柔路標(biāo),我們總能夠在一群人中一眼看到自己的愛人;同樣,愛人的聲音也總是那么獨(dú)特,在鼎沸的人聲中那么清晰。聽到TA的聲音后,其他一切聲音都已經(jīng)被屏蔽了,一聲入耳,再無(wú)其他。
這就是人所謂的定向拾音的能力,當(dāng)然這個(gè)比方不那么恰當(dāng)。實(shí)際上這是經(jīng)常聽說(shuō)的“雞尾酒會(huì)效應(yīng)”,指的是人能夠在復(fù)雜的升學(xué)環(huán)境中將注意力集中到某個(gè)人身上,并且忽略掉背景噪聲和其他人的聲音。這是人的聽覺選擇能力,涉及到雙耳結(jié)構(gòu)以及復(fù)雜的大腦處理機(jī)制。
2.實(shí)現(xiàn)原理和方式
目前,利用麥克風(fēng)模擬這種定向拾音能力,已經(jīng)有了一定的成果。從實(shí)現(xiàn)方式上來(lái)看,可以分為單通道麥克風(fēng)和多通道麥克風(fēng)(麥克風(fēng)陣列)兩種方式。
2.1 單通道麥克風(fēng)
利用單通道麥克風(fēng)實(shí)現(xiàn)定向拾音,指的是采用單指向性麥克風(fēng)拾取單一方向聲音。麥克風(fēng)的指向性指的是麥克風(fēng)從指定方向拾取聲音,包括心型、超心型、全向星和8字型等拾音模式。
2.1.1 心型模式
拾音模式一個(gè)心型的圖案,通常被用在工作室錄制人聲中,是歌手較喜歡的麥克風(fēng)。適用于不想拾取觀眾的聲音或者從監(jiān)控器中傳出的聲音。在工作室中,使用心型麥克風(fēng)可以有效的降低環(huán)繞聲和麥克風(fēng)反射回來(lái)的聲音。拾音模式如圖1所示。理論上說(shuō),這種心型模式的拾音前后比可達(dá)到20dB以上,實(shí)際測(cè)試結(jié)果顯示,常見的信心模式麥克風(fēng)能達(dá)到10dB已經(jīng)是很好的表現(xiàn)了。
圖1 心型拾音模式
這種指向性的麥克風(fēng)的拾音模式如圖2所示,在舞臺(tái)上它們能夠更好的收錄主唱的聲音,并且阻擋周圍樂隊(duì)的聲音,其缺點(diǎn)是也會(huì)收錄一些麥克風(fēng)后面的聲音。這就意味不應(yīng)該將你的監(jiān)聽音箱放在面前(一般情況下120或者240度的位置較好)。超心型話筒的指向性比心型更窄,特別適合近距離拾音。
圖2 超心型模式
2.1.3 全向型模式
這就是常見的無(wú)指向性麥克風(fēng),對(duì)所有角度都有相同的靈敏度,這意味著它可以從所有方向均衡地拾取聲音。這種麥克風(fēng)完全沒有指向性,不能用于定向拾音的場(chǎng)合。
圖3 全向型模式
2.1.4 8字型模式
顧名思義,8字型麥克風(fēng)的拾音形狀類似數(shù)字8,也叫雙心型麥克風(fēng)或也被叫做是雙指向形,它們通常被用在工作室而不是現(xiàn)場(chǎng),而且大部分此類麥克風(fēng)都是鋁帶式麥克風(fēng)。它們從前方和后發(fā)拾取聲音,而不是從兩側(cè)。這種是在正面和背面較靈敏左右測(cè)不夠靈敏,因?yàn)檫@種指向類型的話筒對(duì)來(lái)自話筒正前方和正后方的音頻信號(hào)具有同樣高的靈敏度,但是對(duì)來(lái)自話筒側(cè)面的信號(hào)不太敏感。
圖4 8字型拾音模式
采用單通道麥克風(fēng)實(shí)現(xiàn)定向拾音,可以實(shí)現(xiàn)一定程度上的定向效果,但對(duì)其他方向上的干擾抑制能力是遠(yuǎn)遠(yuǎn)不夠的。我們只想聽到TA的聲音,但這種單指向性的麥克風(fēng)做不到這一點(diǎn),第三者、第四者乃至更多的聲音都會(huì)不可避免地泄漏進(jìn)來(lái)。因此,需要采用更好的設(shè)計(jì)方案,即多通道麥克風(fēng)(麥克風(fēng)陣列)方案,實(shí)現(xiàn)更好的定向拾音效果。
2.2 麥克風(fēng)陣列方案
麥克風(fēng)陣列是由按照特定的拓?fù)浣Y(jié)構(gòu)分布在空間的多個(gè)麥克風(fēng)組合而成。與單個(gè)麥克風(fēng)相同,麥克風(fēng)陣列為一個(gè)整體,仍然可以看作一個(gè)復(fù)雜的傳感器,作為聲音與拾音系統(tǒng)的接口模塊;但不同的是,麥克風(fēng)陣列不但可以獲得聲音信號(hào)的時(shí)域信息還可以獲得空域信息。麥克風(fēng)陣列信號(hào)處理的主要目標(biāo)是盡可能地利用空時(shí)信息來(lái)提高接收端信號(hào)的質(zhì)量。
在使用麥克風(fēng)陣列對(duì)語(yǔ)音信號(hào)進(jìn)行處理的發(fā)展歷程中,產(chǎn)生了許多陣列結(jié)構(gòu),包括結(jié)構(gòu)相對(duì)簡(jiǎn)單的直線陣列、平面陣列以及復(fù)雜的三維球陣列。圖5給出了N個(gè)麥克風(fēng)等間距直線陣列的模型,θ為聲源的方位角。
圖5 直線陣列模型
在定向拾音中,直線陣列是較常見的結(jié)構(gòu)。對(duì)應(yīng)兩種拾音模式:端射和寬邊模式。簡(jiǎn)單地說(shuō),端射模式的拾取方向是陣列軸線方向,而寬邊模式拾取的方式是與陣列軸線垂直的方向。
2.2.1 端射模式
較常見的端射模式實(shí)現(xiàn)方式為微分麥克風(fēng)陣列,有時(shí)候也稱為差分麥克風(fēng)陣列。差分陣列表現(xiàn)的是空間聲壓的差異性,聲壓的一階差分可以由兩個(gè)相近放置的全向麥克風(fēng)輸出相減得到,同理,N個(gè)麥克風(fēng)可以獲得聲壓的N-1階差分。
下面以圖6所示的兩麥克風(fēng)組成的差分陣列為例,介紹差分陣列的定向拾音模式的設(shè)計(jì)思路。兩麥克風(fēng)組成的差分陣列,對(duì)應(yīng)的是階次為1,有兩個(gè)設(shè)計(jì)約束條件:
1.在目標(biāo)方向無(wú)失真(θ=0°時(shí),拾音增益為1);
2.在0°<θ≤180°的范圍內(nèi)存在一個(gè)零陷。
圖6 一階差分陣列
令表示麥克風(fēng)陣列的導(dǎo)向矢量,以圖6所示的陣列為例,導(dǎo)向矢量為
其中,ω表示角頻率(rad/s),δ表示麥克風(fēng)之間的間距(m),c表示聲速(一般為343m/s),τ0(s)表示聲音在兩個(gè)麥克風(fēng)之間的傳播時(shí)間差。
設(shè)計(jì)目標(biāo)就是為兩個(gè)麥克風(fēng)選擇合適的權(quán)重,滿足上面的兩個(gè)約束條件,即
θ1表示零陷所在的角度,決定了拾音模式。θ1=90°時(shí),對(duì)應(yīng)8字型模式;θ1=180°時(shí),對(duì)應(yīng)心型模式;θ1在(90°,180°)范圍時(shí),對(duì)應(yīng)超心型模式。
以心型模式為例,可求解得到權(quán)重h(ω):
對(duì)取泰勒近似,可將上式近似改寫為
觀察上述公式可以看出,實(shí)際上是將麥克風(fēng)2的信號(hào)滯后并與麥克風(fēng)1的信號(hào)相減之后,再進(jìn)行一個(gè)低通濾波的結(jié)果。顯然,差分麥克風(fēng)陣列體現(xiàn)的是一種“延遲相減”的思路,將不希望拾取的信號(hào)通過(guò)相減的方式抵消掉。
GSC方法由兩條支路組成,如圖7所示,上面的支路固定波束形成器(Fixed Beamformer,F(xiàn)BF)支路,一般由DSB算法實(shí)現(xiàn),用以增強(qiáng)目標(biāo)方向信號(hào),抑制其他方向的干擾;下面一條支路由阻塞矩陣(Blocking Matrix,BM)和自適應(yīng)干擾抵消器(Adaptive Interference Canceler,AIC)兩部分組成,阻塞矩陣用以獲得目標(biāo)信號(hào)零陷位置的參考噪音信號(hào),該信號(hào)與DSB輸出中的噪音信號(hào)相關(guān),自適應(yīng)干擾抵消器利用該參考噪音信號(hào)估計(jì)DSB輸出中的噪音信號(hào),并從DSB輸出信號(hào)中減去該估計(jì)信號(hào),得到波束形成輸出信號(hào)。
圖7 GSC算法結(jié)構(gòu)
在二元麥克風(fēng)小陣列中,由于兩個(gè)陣元間距較小,它們的脈沖響應(yīng)函數(shù)可以近似的認(rèn)為是相等的或者其差別可以忽略不計(jì)。由圖6可知,第二個(gè)麥克風(fēng)相對(duì)于第一個(gè)麥克風(fēng)的目標(biāo)信號(hào)相位差為,DSB方法就是對(duì)兩路麥克風(fēng)信號(hào)進(jìn)行時(shí)間上的對(duì)齊(即頻域的相位補(bǔ)償),對(duì)應(yīng)DSB輸出為:
其中,Y1和Y2分別表示兩路信號(hào)頻域轉(zhuǎn)換后的結(jié)果。
阻塞矩陣BM按照如下方式定義:
由此可見,理論上說(shuō),F(xiàn)BF支路的輸出是指定方向上的信號(hào);而BM支路輸出的是抵消了指定方向信號(hào)之后的純?cè)肼曅盘?hào)。從指定方向上的信號(hào)減去噪聲信號(hào),就是加強(qiáng)了的指定方向上的信號(hào),從而實(shí)現(xiàn)定向拾音。
計(jì)算語(yǔ)音存在先驗(yàn)概率:
其中,表示頻點(diǎn)k所對(duì)應(yīng)的相位差,即
符號(hào)表示取相位。需要注意的,相位差需要解卷繞到(-π,π]的區(qū)間中。表示相位差閾值,fs表示采樣頻率(Hz)。
考慮到相鄰頻點(diǎn)之間存在高度的相關(guān)性,因此,可以對(duì)相鄰頻點(diǎn)的語(yǔ)音存在概率進(jìn)行平滑,提高頻率計(jì)算結(jié)果的準(zhǔn)確性和相鄰幀之間結(jié)果的連續(xù)性。平滑后的各頻點(diǎn)語(yǔ)音存在先驗(yàn)概率如下所示:
其中,w(i),i=0,1,...,I-1表示Gammatone濾波器系數(shù),I為Gammatone通道的數(shù)量,典型值為I=20或40等,根據(jù)具體需求而定。按照下式進(jìn)行計(jì)算:
其中,表示兩路通道的信號(hào)均值。Hi(k),i=0,1,...,I-1表示Gammatone濾波器曲線的采樣值。
計(jì)算后驗(yàn)信噪比:
求語(yǔ)音存在的先驗(yàn)概率的均值,以此作為判斷單幀信號(hào)是否存在語(yǔ)音的一個(gè)標(biāo)識(shí):
其中,kmax和kmin分別表示最大頻點(diǎn)和最小頻點(diǎn)對(duì)應(yīng)的序號(hào)。考慮到語(yǔ)音信號(hào)在低頻范圍內(nèi)方向性不夠明顯,kmin的取值應(yīng)該保證對(duì)應(yīng)的頻率在1kHz左右;kmax的取值與兩個(gè)麥克風(fēng)的間距d有關(guān),通常需要保證對(duì)應(yīng)的頻率最高不超過(guò)4kHz。
求語(yǔ)音不存在后驗(yàn)概率q(k):
其中,表示先驗(yàn)概率均值的閾值,與拾音范圍角度的大小有關(guān)系,當(dāng)確定了拾音范圍角度之后,方可確定這個(gè)閾值。表示后驗(yàn)信噪比的最大值,取4~5之間的值,可取得較好的調(diào)試結(jié)果。
計(jì)算處理后的語(yǔ)音:
進(jìn)行傅里葉反變換,可得處理后的時(shí)域信號(hào)z(n),即定向拾音的結(jié)果:
3.應(yīng)用
定向拾音技術(shù)的應(yīng)用比較廣泛,較常見的應(yīng)用場(chǎng)合是本地?cái)U(kuò)聲。在本地?cái)U(kuò)聲中,由于定向拾音技術(shù)可以壓制某個(gè)方向上的聲音,因此可以將播音設(shè)備放置在這個(gè)方向,能夠很大程度上抑制可能發(fā)生的嘯叫,從而解決困擾本地?cái)U(kuò)聲的較大問題之一,在教室、會(huì)場(chǎng)等擴(kuò)聲場(chǎng)景中都有很大的應(yīng)用潛力。此外,該技術(shù)在存在角色分離錄音要求的場(chǎng)合也都有潛在的應(yīng)用空間。
全國(guó)統(tǒng)一服務(wù)熱線