EN

核心技術(shù)

所在位置:首頁 > 核心技術(shù)

定向拾音概念、實(shí)現(xiàn)原理和應(yīng)用

時(shí)間:2022-04-27   來源:原創(chuàng)    人氣:3997

定向拾音概念、實(shí)現(xiàn)原理和應(yīng)用

  1.基本概念
       愛人的氣息是從不失職的溫柔路標(biāo),我們總能夠在一群人中一眼看到自己的愛人;同樣,愛人的聲音也總是那么獨(dú)特,在鼎沸的人聲中那么清晰。聽到TA的聲音后,其他一切聲音都已經(jīng)被屏蔽了,一聲入耳,再無其他。
  這就是人所謂的定向拾音的能力,當(dāng)然這個(gè)比方不那么恰當(dāng)。實(shí)際上這是經(jīng)常聽說的“雞尾酒會(huì)效應(yīng)”,指的是人能夠在復(fù)雜的升學(xué)環(huán)境中將注意力集中到某個(gè)人身上,并且忽略掉背景噪聲和其他人的聲音。這是人的聽覺選擇能力,涉及到雙耳結(jié)構(gòu)以及復(fù)雜的大腦處理機(jī)制。
  2.實(shí)現(xiàn)原理和方式
  
目前,利用麥克風(fēng)模擬這種定向拾音能力,已經(jīng)有了一定的成果。從實(shí)現(xiàn)方式上來看,可以分為單通道麥克風(fēng)和多通道麥克風(fēng)(麥克風(fēng)陣列)兩種方式。
  2.1 單通道麥克風(fēng)
  
利用單通道麥克風(fēng)實(shí)現(xiàn)定向拾音,指的是采用單指向性麥克風(fēng)拾取單一方向聲音。麥克風(fēng)的指向性指的是麥克風(fēng)從指定方向拾取聲音,包括心型、超心型、全向星和8字型等拾音模式。
  2.1.1 心型模式

    拾音模式一個(gè)心型的圖案,通常被用在工作室錄制人聲中,是歌手較喜歡的麥克風(fēng)。適用于不想拾取觀眾的聲音或者從監(jiān)控器中傳出的聲音。在工作室中,使用心型麥克風(fēng)可以有效的降低環(huán)繞聲和麥克風(fēng)反射回來的聲音。拾音模式如圖1所示。理論上說,這種心型模式的拾音前后比可達(dá)到20dB以上,實(shí)際測試結(jié)果顯示,常見的信心模式麥克風(fēng)能達(dá)到10dB已經(jīng)是很好的表現(xiàn)了。


1 心型拾音模式



  2.1.2 超心型模式

  這種指向性的麥克風(fēng)的拾音模式如圖2所示,在舞臺(tái)上它們能夠更好的收錄主唱的聲音,并且阻擋周圍樂隊(duì)的聲音,其缺點(diǎn)是也會(huì)收錄一些麥克風(fēng)后面的聲音。這就意味不應(yīng)該將你的監(jiān)聽音箱放在面前(一般情況下120或者240度的位置較好)。超心型話筒的指向性比心型更窄,特別適合近距離拾音。


2 超心型模式


  2.1.3 全向型模式
  這就是常見的無指向性麥克風(fēng),對(duì)所有角度都有相同的靈敏度,這意味著它可以從所有方向均衡地拾取聲音。這種麥克風(fēng)完全沒有指向性,不能用于定向拾音的場合。



3 全向型模式


  2.1.4 8字型模式
  顧名思義,8字型麥克風(fēng)的拾音形狀類似數(shù)字8,也叫雙心型麥克風(fēng)或也被叫做是雙指向形,它們通常被用在工作室而不是現(xiàn)場,而且大部分此類麥克風(fēng)都是鋁帶式麥克風(fēng)。它們從前方和后發(fā)拾取聲音,而不是從兩側(cè)。這種是在正面和背面較靈敏左右測不夠靈敏,因?yàn)檫@種指向類型的話筒對(duì)來自話筒正前方和正后方的音頻信號(hào)具有同樣高的靈敏度,但是對(duì)來自話筒側(cè)面的信號(hào)不太敏感。



4 8字型拾音模式

  采用單通道麥克風(fēng)實(shí)現(xiàn)定向拾音,可以實(shí)現(xiàn)一定程度上的定向效果,但對(duì)其他方向上的干擾抑制能力是遠(yuǎn)遠(yuǎn)不夠的。我們只想聽到TA的聲音,但這種單指向性的麥克風(fēng)做不到這一點(diǎn),第三者、第四者乃至更多的聲音都會(huì)不可避免地泄漏進(jìn)來。因此,需要采用更好的設(shè)計(jì)方案,即多通道麥克風(fēng)(麥克風(fēng)陣列)方案,實(shí)現(xiàn)更好的定向拾音效果。

  2.2 麥克風(fēng)陣列方案
  麥克風(fēng)陣列是由按照特定的拓?fù)浣Y(jié)構(gòu)分布在空間的多個(gè)麥克風(fēng)組合而成。與單個(gè)麥克風(fēng)相同,麥克風(fēng)陣列為一個(gè)整體,仍然可以看作一個(gè)復(fù)雜的傳感器,作為聲音與拾音系統(tǒng)的接口模塊;但不同的是,麥克風(fēng)陣列不但可以獲得聲音信號(hào)的時(shí)域信息還可以獲得空域信息。麥克風(fēng)陣列信號(hào)處理的主要目標(biāo)是盡可能地利用空時(shí)信息來提高接收端信號(hào)的質(zhì)量。
  在使用麥克風(fēng)陣列對(duì)語音信號(hào)進(jìn)行處理的發(fā)展歷程中,產(chǎn)生了許多陣列結(jié)構(gòu),包括結(jié)構(gòu)相對(duì)簡單的直線陣列、平面陣列以及復(fù)雜的三維球陣列。圖5給出了N個(gè)麥克風(fēng)等間距直線陣列的模型,θ為聲源的方位角。



5 直線陣列模型




  在定向拾音中,直線陣列是較常見的結(jié)構(gòu)。對(duì)應(yīng)兩種拾音模式:端射和寬邊模式。簡單地說,端射模式的拾取方向是陣列軸線方向,而寬邊模式拾取的方式是與陣列軸線垂直的方向。
  2.2.1 端射模式
  較常見的端射模式實(shí)現(xiàn)方式為微分麥克風(fēng)陣列,有時(shí)候也稱為差分麥克風(fēng)陣列。差分陣列表現(xiàn)的是空間聲壓的差異性,聲壓的一階差分可以由兩個(gè)相近放置的全向麥克風(fēng)輸出相減得到,同理,N個(gè)麥克風(fēng)可以獲得聲壓的N-1階差分。
  下面以圖6所示的兩麥克風(fēng)組成的差分陣列為例,介紹差分陣列的定向拾音模式的設(shè)計(jì)思路。兩麥克風(fēng)組成的差分陣列,對(duì)應(yīng)的是階次為1,有兩個(gè)設(shè)計(jì)約束條件:
  1.在目標(biāo)方向無失真(θ=0°時(shí),拾音增益為1);
  2.在0°<θ≤180°的范圍內(nèi)存在一個(gè)零陷。



6 一階差分陣列

  令表示麥克風(fēng)陣列的導(dǎo)向矢量,以圖6所示的陣列為例,導(dǎo)向矢量為

      

  其中,ω表示角頻率(rad/s),δ表示麥克風(fēng)之間的間距(m),c表示聲速(一般為343m/s),τ0(s)表示聲音在兩個(gè)麥克風(fēng)之間的傳播時(shí)間差。

  設(shè)計(jì)目標(biāo)就是為兩個(gè)麥克風(fēng)選擇合適的權(quán)重,滿足上面的兩個(gè)約束條件,即

      

  θ1表示零陷所在的角度,決定了拾音模式。θ1=90°時(shí),對(duì)應(yīng)8字型模式;θ1=180°時(shí),對(duì)應(yīng)心型模式;θ1在(90°,180°)范圍時(shí),對(duì)應(yīng)超心型模式。

  以心型模式為例,可求解得到權(quán)重h(ω):

       

  對(duì)取泰勒近似,可將上式近似改寫為

      

  觀察上述公式可以看出,實(shí)際上是將麥克風(fēng)2的信號(hào)滯后并與麥克風(fēng)1的信號(hào)相減之后,再進(jìn)行一個(gè)低通濾波的結(jié)果。顯然,差分麥克風(fēng)陣列體現(xiàn)的是一種“延遲相減”的思路,將不希望拾取的信號(hào)通過相減的方式抵消掉。
  這種方式能夠很好的抑制零陷角度上的聲音,但存在白噪聲增益過小等方面的問題。
  2.2.2 寬邊模式
  與端射模式不同,寬邊模式采用是“延遲相加”的思路,通過延遲對(duì)齊將拾音方向上的聲音相加增強(qiáng),抑制其他方向上的聲音。波束形成是一種常見的實(shí)現(xiàn)思路,具體包括延遲求和法(Delay and Sum Beamforming,DSB)、廣義旁瓣抵消法(Generalized Side-lobe Canceler,GSC)等。DSB算法需要較多的麥克風(fēng)才能夠有比較明顯的效果,在麥克風(fēng)數(shù)量較少的情況,通常使用GSC方法。下面仍然以圖6所示的兩麥克風(fēng)組成的陣列為例,討論GSC方法。

  GSC方法由兩條支路組成,如圖7所示,上面的支路固定波束形成器(Fixed Beamformer,F(xiàn)BF)支路,一般由DSB算法實(shí)現(xiàn),用以增強(qiáng)目標(biāo)方向信號(hào),抑制其他方向的干擾;下面一條支路由阻塞矩陣(Blocking Matrix,BM)和自適應(yīng)干擾抵消器(Adaptive Interference Canceler,AIC)兩部分組成,阻塞矩陣用以獲得目標(biāo)信號(hào)零陷位置的參考噪音信號(hào),該信號(hào)與DSB輸出中的噪音信號(hào)相關(guān),自適應(yīng)干擾抵消器利用該參考噪音信號(hào)估計(jì)DSB輸出中的噪音信號(hào),并從DSB輸出信號(hào)中減去該估計(jì)信號(hào),得到波束形成輸出信號(hào)。


7 GSC算法結(jié)構(gòu)

  在二元麥克風(fēng)小陣列中,由于兩個(gè)陣元間距較小,它們的脈沖響應(yīng)函數(shù)可以近似的認(rèn)為是相等的或者其差別可以忽略不計(jì)。由圖6可知,第二個(gè)麥克風(fēng)相對(duì)于第一個(gè)麥克風(fēng)的目標(biāo)信號(hào)相位差為,DSB方法就是對(duì)兩路麥克風(fēng)信號(hào)進(jìn)行時(shí)間上的對(duì)齊(即頻域的相位補(bǔ)償),對(duì)應(yīng)DSB輸出為:

      

  其中,Y1和Y2分別表示兩路信號(hào)頻域轉(zhuǎn)換后的結(jié)果。

  阻塞矩陣BM按照如下方式定義:

      

  由此可見,理論上說,F(xiàn)BF支路的輸出是指定方向上的信號(hào);而BM支路輸出的是抵消了指定方向信號(hào)之后的純?cè)肼曅盘?hào)。從指定方向上的信號(hào)減去噪聲信號(hào),就是加強(qiáng)了的指定方向上的信號(hào),從而實(shí)現(xiàn)定向拾音。
  GSC方法定向拾音能力取決于麥克風(fēng)數(shù)量,對(duì)于二元麥克風(fēng)陣列,單純依賴GSC方法無法獲取良好的定向拾音效果。我們?cè)O(shè)計(jì)了新的方法,結(jié)合了GSC方法和后濾波方法,可以實(shí)現(xiàn)良好的定向拾音效果,實(shí)現(xiàn)類似于8字型的拾音模式,但拾音角度更窄,音質(zhì)比差分陣列更好。
  (1)計(jì)算拾音角度范圍內(nèi)的語音存在先驗(yàn)概率
  對(duì)兩路信號(hào)進(jìn)行離散傅里葉變換(DFT),得到頻域后的信號(hào)為Y1(k)和Y2(k),k=1,2,...,L,其中,k表示頻點(diǎn)序號(hào),L表示DFT長度。

  計(jì)算語音存在先驗(yàn)概率:

      

  其中,表示頻點(diǎn)k所對(duì)應(yīng)的相位差,即

      

  符號(hào)表示取相位。需要注意的,相位差需要解卷繞到(-π,π]的區(qū)間中。表示相位差閾值,fs表示采樣頻率(Hz)。

  考慮到相鄰頻點(diǎn)之間存在高度的相關(guān)性,因此,可以對(duì)相鄰頻點(diǎn)的語音存在概率進(jìn)行平滑,提高頻率計(jì)算結(jié)果的準(zhǔn)確性和相鄰幀之間結(jié)果的連續(xù)性。平滑后的各頻點(diǎn)語音存在先驗(yàn)概率如下所示:

      

  其中,w(i),i=0,1,...,I-1表示Gammatone濾波器系數(shù),I為Gammatone通道的數(shù)量,典型值為I=20或40等,根據(jù)具體需求而定。按照下式進(jìn)行計(jì)算:

      

  其中,表示兩路通道的信號(hào)均值。Hi(k),i=0,1,...,I-1表示Gammatone濾波器曲線的采樣值。
  (2)計(jì)算噪聲功率譜
  以作為單通道語音信號(hào),按照常見的噪聲譜估計(jì)方法,如最小值追蹤方法等,計(jì)算對(duì)應(yīng)的噪聲功率譜,用λ(k)表示。
  (3)計(jì)算拾音角度范圍內(nèi)語音存在概率

  計(jì)算后驗(yàn)信噪比:

      

  求語音存在的先驗(yàn)概率的均值,以此作為判斷單幀信號(hào)是否存在語音的一個(gè)標(biāo)識(shí):

      

  其中,kmax和kmin分別表示最大頻點(diǎn)和最小頻點(diǎn)對(duì)應(yīng)的序號(hào)??紤]到語音信號(hào)在低頻范圍內(nèi)方向性不夠明顯,kmin的取值應(yīng)該保證對(duì)應(yīng)的頻率在1kHz左右;kmax的取值與兩個(gè)麥克風(fēng)的間距d有關(guān),通常需要保證對(duì)應(yīng)的頻率最高不超過4kHz。

  求語音不存在后驗(yàn)概率q(k):

      

  其中,表示先驗(yàn)概率均值的閾值,與拾音范圍角度的大小有關(guān)系,當(dāng)確定了拾音范圍角度之后,方可確定這個(gè)閾值。表示后驗(yàn)信噪比的最大值,取4~5之間的值,可取得較好的調(diào)試結(jié)果。
  計(jì)算先驗(yàn)信噪比:
  計(jì)算語音存在的后驗(yàn)概率:
  其中,
  計(jì)算增益系數(shù):
  其中,
  表示增益的最小值,取值越小,對(duì)噪聲和非拾音范圍內(nèi)的語音壓制就越強(qiáng),但拾音范圍內(nèi)的語音失真度會(huì)越大。因此,應(yīng)該兼顧這兩個(gè)因素進(jìn)行取值,通常至少取值為0.1,以避免處理后的語音信號(hào)過度失真。

  計(jì)算處理后的語音:

      

  進(jìn)行傅里葉反變換,可得處理后的時(shí)域信號(hào)z(n),即定向拾音的結(jié)果:
      




  3.應(yīng)用
  定向拾音技術(shù)的應(yīng)用比較廣泛,較常見的應(yīng)用場合是本地?cái)U(kuò)聲。在本地?cái)U(kuò)聲中,由于定向拾音技術(shù)可以壓制某個(gè)方向上的聲音,因此可以將播音設(shè)備放置在這個(gè)方向,能夠很大程度上抑制可能發(fā)生的嘯叫,從而解決困擾本地?cái)U(kuò)聲的較大問題之一,在教室、會(huì)場等擴(kuò)聲場景中都有很大的應(yīng)用潛力。此外,該技術(shù)在存在角色分離錄音要求的場合也都有潛在的應(yīng)用空間。




分享到:
微信客服二維碼

掃一掃加好友咨詢