• / 13
  • 下載費用:30 金幣  

改進的語音可懂度.pdf

摘要
申請專利號:

CN201610412732.0

申請日:

2016.06.13

公開號:

CN106257584A

公開日:

2016.12.28

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G10L 21/0364申請日:20160613|||公開
IPC分類號: G10L21/0364(2013.01)I 主分類號: G10L21/0364
申請人: 恩智浦有限公司
發明人: 阿德里安·丹尼爾
地址: 荷蘭埃因霍溫高科技園區60
優先權: 2015.06.17 EP 15290161.7
專利代理機構: 中科專利商標代理有限責任公司 11021 代理人: 倪斌
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201610412732.0

授權公告號:

|||

法律狀態公告日:

2018.06.29|||2016.12.28

法律狀態類型:

實質審查的生效|||公開

摘要

本文公開了一種包括處理器和存儲器的裝置。存儲器包括從采樣環境噪聲計算噪聲頻譜估值的噪聲頻譜估計器,從輸入語音計算語音頻譜估值的語音頻譜估計器,使用在語音頻譜中檢測的每個共振峰內的噪聲頻譜估值和語音頻譜估值計算SNR估值的共振峰信噪比(SNR)估計器。存儲器還包括共振峰升高估計器,其計算一組增益因數并將該組增益因數應用到輸入語音的每個頻率分量,使得在每個共振峰內的所得SNR達到預選目標值。

權利要求書

1.一種裝置,其特征在于,包括:
處理器;
存儲器,其中,所述存儲器包括:
噪聲頻譜估計器,其從采樣環境噪聲計算噪聲頻譜估值;
語音頻譜估計器,其從輸入語音計算語音頻譜估值;
共振峰信噪比(SNR)估計器,其使用在所述輸入語音中所檢測的每個共振峰內的所述
噪聲頻譜估值和語音頻譜估值計算SNR估值;以及
共振峰提升估計器,其計算一組增益因數并將所述組增益因數應用到所述輸入語音的
每個頻率分量,使得在每個共振峰內的所得SNR達到預選的目標值。
2.根據權利要求1所述的裝置,其特征在于,所述噪聲頻譜估計器被配置成通過使用通
過采樣噪聲的離散傅里葉變換獲得的平滑參數和過去頻譜幅值求平均值來計算噪聲頻譜
估值。
3.根據權利要求1或2所述的裝置,其特征在于,所述語音頻譜估計器被配置成使用低
階線性預測濾波器計算所述語音頻譜估值。
4.根據權利要求3所述的裝置,其特征在于,所述低階線性預測濾波器使用萊文森-德
賓算法。
5.根據在前的任一項權利要求所述的裝置,其特征在于,所述共振峰SNR估計器被配置
成使用中心定在共振峰中心頻率上的關鍵波段上的語音與噪聲的頻譜幅度估值平方的總
和的比率計算所述共振峰SNR估值,其中所述關鍵波段是聽覺濾波器的頻率帶寬。
6.根據在前的任一項權利要求所述的裝置,其特征在于,所述組增益因數通過在所述
輸入語音中的每個共振峰分段乘以預選因數計算。
7.根據在前的任一項權利要求所述的裝置,其特征在于,另外包括輸出限制混頻器,其
中所述共振峰提升估計器產生濾波器以過濾所述輸入語音并且與所述輸入語音組合的所
述濾波器的輸出被傳遞通過所述輸出限制混頻器。
8.根據權利要求7所述的裝置,其特征在于,另外包括共振峰解遮蔽濾波器,其過濾所
述輸入語音并向將所述共振峰解遮蔽濾波器的輸出輸入到所述輸出限制混頻器。
9.根據權利要求6所述的裝置,其特征在于,在所述語音輸入中的所述每個共振峰通過
共振峰分段模塊檢測,其中所述共振峰分段模塊將所述語音頻譜估值分割成共振峰。
10.一種用于執行改進語音可懂度的操作的方法,其特征在于,包括:
接收輸入語音信號;
從采樣環境噪聲計算噪聲頻譜估值;
從所述輸入語音計算語音頻譜估值;
計算在所述計算的噪聲頻譜估值和所述語音頻譜估值中的共振峰信噪比(SNR);
分割在所述語音頻譜估值中的共振峰;以及
基于所述計算的共振峰提升估值計算用于所述共振峰中的每個共振峰的共振峰提升
因數。
11.根據權利要求10所述的方法,其特征在于,所述噪聲頻譜估值通過使用通對采樣環
境噪聲的離散傅里葉變換獲得的平滑參數和過去頻譜幅值求平均值的過程來計算。
12.根據權利要求10或11所述的方法,其特征在于,所述計算所述噪聲頻譜估值包括使
用低階線性預測濾波器計算所述語音頻譜估值。
13.根據權利要求12所述的方法,其特征在于,所述低階線性預測濾波器使用萊文森-
德賓算法。
14.根據權利要求10至13中任一項權利要求所述的方法,其特征在于,所述計算所述共
振峰SNR估值包括使用中心定在共振峰中心頻率上的關鍵波段上的語音與噪聲的頻譜幅度
估值平方的總和的比率計算所述共振峰SNR估值,其中所述關鍵波段是聽覺濾波器的頻率
帶寬。
15.根據權利要求10至14中任一項權利要求所述的方法,其特征在于,所述組增益因數
通過在所述輸入語音中的每個共振峰分段乘以預選因數計算。

說明書

改進的語音可懂度

技術領域

本發明涉及一種包括處理器和存儲器的裝置。

背景技術

在移動裝置中,降噪技術大大改進音頻質量。為改進在嘈雜環境中的語音可懂度,
對于耳機,主動噪聲消除(ANC)是有吸引力的提議并且ANC的確在某種程度改進在嘈雜環境
中的音頻再現。然而,當移動電話在沒有ANC耳機的情況下使用時,ANC方法很少或沒有益
處。此外,ANC方法在可被消除的頻率上受到限制。

然而,在嘈雜環境中,難以消除所有噪聲分量。為了在存在噪聲的情況下使語音信
號更可懂,ANC方法不對語音信號進行操作。

語音可懂度可通過提升共振峰來改善。共振峰提升可使用大約表示,通過增加匹
配共振峰的共振獲得。接著共振可以出自線性預測編碼(LPC)系數的參數形式獲得。然而,
共振意味著使用計算上昂貴的多項式求根算法。為降低計算復雜度,這些共振可通過線譜
對表示法(LSP)來操控。增強共振主要在于使自回歸傳遞函數的極點更接近單位圓移動。這
種解決方案還遇到相互作用的問題,其中由于彼此接近的共振相互作用,所以它們難以單
獨操控。因此,需要可計算上昂貴的迭代方法。但是即使小心進行,增強共振使其帶寬變窄,
這產生人工發聲的語音。

發明內容

提供此發明內容以簡化形式介紹在下文的具體實施方式中另外描述的概念選擇。
該發明內容不旨在識別所要求保護的主題的關鍵特征或基本特征,也不旨在用于限制所要
求保護的主題的范圍。

本文中所描述的實施例解決在存在獨立噪聲源的情況下改進待再現的語音信號
的可懂度的問題。舉例來說,位于嘈雜環境中的用戶正在通過電話收聽對話者。在其中不可
能對噪聲操作情況下,語音信號可被改進以使其在存在噪聲的情況下更可懂。

本文公開了一種包括處理器和存儲器的裝置。存儲器包括從采樣的環境噪聲計算
噪聲頻譜估值的噪聲頻譜估計器、從輸入語音計算語音頻譜估值的語音頻譜估計器、使用
在輸入語音中所檢測到的每個共振峰內的噪聲頻譜估值和語音頻譜估值計算SNR估值的共
振峰信噪比(SNR)估計器以及共振峰提升估計器,其計算一組增益因數并將該組增益因數
應用到輸入語音的每個頻率分量,使得在每個共振峰內的所得SNR達到預選的目標值。

在一些實施例中,噪聲頻譜估計器被配置成通過使用通過采樣環境噪聲的離散傅
里葉變換獲得的平滑參數和過去頻譜幅度值求平均值計算噪聲頻譜估值。在一個例子中,
語音頻譜估計器被配置成使用低階線性預測濾波器計算語音頻譜估值。低階線性預測濾波
器可使用萊文森-德賓(Levinson-Durbin)算法。

在一個例子中,共振峰SNR估計器被配置成使用在中心定在共振峰中心頻率上的
關鍵波段上的語音與噪聲頻譜幅度估值平方的總和的比率計算共振峰SNR估值。關鍵波段
是聽覺濾波器的頻率帶寬。

在一些例子中,該組增益因數通過在輸入語音中的每個共振峰分段乘以預選因數
計算。

在一個實施例中,該裝置還可包括輸出限制混頻器,以將通過共振峰提升估計器
形成的濾波器的輸出限制為預選的最大均方根水平或峰值水平。共振峰提升估計器產生過
濾輸入語音的濾波器,并且與輸入語音組合的濾波器的輸出穿過輸出限制混頻器。在語音
輸入中的每個共振峰通過共振峰分段模塊檢測,其中共振峰分段模塊將語音頻譜估值分割
成多個共振峰。

在另一個實施例中,公開了一種用于執行改進語音可懂度的操作方法。此外,公開
了一種對應的計算機程序產品。所述操作包括接收輸入語音信號、接收采樣環境噪聲、從采
樣環境噪聲計算噪聲頻譜估值、從輸入語音計算語音頻譜估值、從這些估值計算共振峰信
噪比(SNR)、分割在語音頻譜估值中的共振峰并基于計算的共振峰提升估值計算用于共振
峰中的每個共振峰的共振峰提升因數。

在一些例子中,噪聲頻譜估值的計算包括通過使用通過采樣環境噪聲的離散傅里
葉變換獲得的平滑參數和過去頻譜幅度值求平均值。噪聲頻譜估值的計算還可包括使用低
階線性預測濾波器。低階線性預測濾波器可使用萊文森-德賓算法。

附圖說明

為了可詳細地理解本發明的上述特征的方式,可通過參考實施例添加上文簡要地
概括的本發明的更特定描述,所述實施例中的一些實施例在附圖中示出。然而,應注意,附
圖僅示出本發明的典型實施例,且因此不應被視為限制本發明的范圍,因為本發明可準許
其它同樣有效的實施例。對于結合附圖閱讀本說明書的本領域的技術人員而言,所要求保
護的主題的優點將變得顯而易見,其中相同的附圖標號已用于指代相同的元件,其中:

圖1是根據本公開的一或多個實施例的裝置的一部分的示意圖;

圖2是根據本公開的一或多個實施例的裝置的存儲器的一部分的邏輯描述;

圖3描繪根據本公開的一或多個實施例的裝置的各模塊之間的相互作用;

圖4示出了根據本公開的更多實施例中的一個實施例的共振峰分段模塊的操作;
以及

圖5示出了根據本公開的更多實施例中的一個實施例的共振峰提升估算模塊的操
作。

具體實施方式

當用戶在嘈雜場所中接收移動電話呼叫或收聽從電子裝置輸出的聲音時,語音變
得不可懂。本公開的各種實施例通過改善語音可懂度和再現質量提高用戶體驗。本文中所
描述的實施例可用于包括語音再現的移動裝置和其它電子裝置中,諸如包括聲音方向的
GPS接收器、收音機、音頻書、播客等。

聲道在被稱作共振峰的語音信號-頻譜峰值中的特定頻率產生共振,其被聽覺系
統使用以在元音之間區分。然后,在可懂度中的重要因素是頻譜對比:在頻譜峰值和頻譜谷
值之間的能量差異。本文中所描述的實施例改進輸入語音信號在噪聲中的可懂度同時保持
其自然度。在本文中所描述的方法僅適用于有聲分段。背后的主要推理在于單獨頻譜峰值
應以所解遮蔽特定水平而不是頻譜谷值為目標。谷值可得到提升,因為解遮蔽增益被應用
于其環繞峰值,但是所述方法不應嘗試專門解遮蔽谷值(否則,共振峰結構可被破壞)。此
外,不管噪聲如何,本文中所描述的方法增加頻譜對比,這已被證明改進可懂度。本文中所
描述的實施例可用于靜態模式而與噪聲采樣無任何相關性,以根據預定義提升策略改善頻
譜對比。另選地,噪聲采樣可用于改進語音可懂度。

本文所述的一或多個實施例提供低復雜度無失真的解決方案,其允許頻譜解遮蔽
在噪聲中再現的有聲語音分段。這些實施例適用于實時應用,諸如電話對話。

為解遮蔽關于噪聲特性的在嘈雜環境中再現的語音,可使用時域或頻域方法的任
一個。時域方法遇到噪聲的頻譜特性的不良適應性。頻域方法依賴于允許獨立放大頻率分
量的的語音和噪聲兩者頻域表示法,由此定向特定頻譜信噪比(SNR)。然而,共同困難是語
音頻譜結構失真的風險-即,涉及獲得允許小心操作此類修改的語音表示法的語音共振峰
和計算復雜度。

圖1是無線通信裝置100的示意圖。如上所述,本文中所描述的實施例的應用不限
于無線通信裝置。再現語音的任何裝置可得益于由本文所述的一或多個實施例所產生的改
進的語音可懂度。無線通信裝置100僅作為例子使用。以免混淆本文中所描述的實施例,無
線通信裝置100的許多部件未示出。無線通信裝置100可為移動電話或能夠與另一個通信裝
置建立音頻/視頻通信鏈路的任何移動裝置。無線通信裝置100包括處理器102、存儲器104、
收發器114和天線112。應注意,如圖所示的天線112僅為圖示。天線112可為內部天線或外部
天線且可為與所示不同的形狀。此外,在一些實施例中,可存在多個天線。收發器114包括在
單個半導體芯片中的發射器和接收器。在一些實施例中,發射器和接收器可彼此分開實現。
處理器102包括合適的邏輯和編程指令(可存儲在存儲器104中和/或處理器102的內部存儲
器中)以處理通信信號并控制無線通信裝置100的至少一些處理模塊。處理器102被配置成
讀取/寫入并操控存儲器104的內容。無線通信裝置100還包括一或多個麥克風108和(一或
多個)揚聲器和/或(一或多個)擴音器110。在一些實施例中,麥克風108和擴音器110可經由
標準接口技術諸如藍牙耦接至無線通信裝置100的外部部件。

無線通信裝置100還包括編解碼器106。編解碼器106包括音頻解碼器和音頻編碼
器。音頻解碼器解碼從收發器114的接收器接收到的信號并且音頻編碼器編碼用于由收發
器114的發射器發射的音頻信號。在上行鏈路上,從麥克風108接收的音頻信號由出話語音
處理模塊120處理用于音頻改善。在下行鏈路上,從編解碼器106接收到的解碼的音頻信號
由來話語音處理模塊122處理用于音頻改善。在一些實施例中,編解碼器106可為軟件實現
的編解碼器并且可駐留在存儲器104中并由處理器102執行。編解碼器106可包括合適邏輯
以處理音頻信號。編解碼器106可被配置成處理通常用于移動電話的在不同采樣率的數字
信號。來話語音處理模塊122,(所述來話語音處理模塊122的至少一部分可駐留在存儲器
104中),被配置成使用如在以下段落中描述的提升模式改善語音。在一些實施例中,在下行
鏈路中的音頻改善處理也可使用在本文的以下章節中描述的其它處理模塊。

在一個實施例中,出話語音處理模塊120使用降噪、回波消除和自動增益控制改善
上行鏈路語音。在一些實施例中,噪聲估值(如下所述)可以借助于降噪和回波消除算法獲
得。

圖2為所述無線通信裝置100的存儲器104的一部分的邏輯描述。應注意,在圖2所
描繪的處理模塊中的至少一些還可在硬件中實現。在一個實施例中,存儲器104包括編程指
令,當所述編程指令由處理器102實行時,形成噪聲頻譜估計器150以執行噪聲頻譜估計,語
音頻譜估計器158用于計算語音頻譜估值,共振峰信噪比(SNR)估計器154用于形成SNR估
值,共振峰分段模塊156用于將語音頻譜估值分割成共振峰(聲道共振),共振峰提升估計器
形成應用到輸入語音的每個頻率分量的一組增益因數,輸出限制混頻器118用于查找應用
到輸入信號和輸出信號之間的差值的時變混合因數。

噪聲頻譜密度是每單位帶寬的噪聲功率;也就是說,噪聲頻譜密度是噪聲的功率
譜密度。噪聲頻譜估計器150通過使用平滑參數和過去頻譜幅度值(舉例來說,使用采樣環
境噪聲的離散傅里葉變換獲得的)求平均值產生噪聲頻譜估值。平滑參數可以是時變頻率
相關的。在一個例子中,在電話呼叫的情形中,近端語音不應是噪聲估值的一部分,并因此
所述平滑參數通過近端語音存在概率調節。

語音頻譜估計器158借助于低階線性預測濾波器(即,自回歸模型)產生語音頻譜
估值。在一些實施例中,此類濾波器可以使用萊文森-德賓算法計算。然后通過計算該自回
歸濾波器的頻率響應獲得頻譜估值。萊文森-德賓算法使用自相關法估計一段語音的線性
預測參數。線性預測編碼(也被稱作線性預測分析(LPA))用于以相對較少的參數表示一段
語音的波譜的形狀。

共振峰SNR估計器154在語音波譜中檢測的每個共振峰內產生SNR估值。為了這樣
做,共振峰SNR估計器154使用來自噪聲頻譜估計器150和語音頻譜估計器158的語音和噪聲
頻譜估值。在一個實施例中,與每個共振峰相關聯的SNR被計算為在中心被定在共振峰中心
頻率上的關鍵波段上的語音與噪聲頻譜幅度估值平方的總和的比率。

在聽力學和心理聲學中,術語“關鍵波段”是指由在內耳內的耳蝸、聽覺的感測器
官所形成的“聽覺濾波器”的頻率帶寬。關鍵波段大約是在該波段內通過聽覺掩蔽第二音調
將干擾第一音調的感知的音頻頻率的波段。濾波器是提升某些頻率并衰減其它頻率的裝
置。具體而言,帶通濾波器允許在帶寬內的頻率范圍穿過而阻止在截斷頻率之外的頻率范
圍。術語“關鍵波段”在Moore B.C.J.的“聽覺心理學的介紹(An Introduction to the
Psychology of Hearing)”中論述,該文獻以引用的方式并入本文中。

共振峰分段模塊156將語音頻譜估值分割為共振峰(例如,聲道共振)。在一些實施
例中,共振峰被定義為在兩個局部最小值(谷值)之間的光譜范圍,并因此該模塊檢測在語
音頻譜估值中的所有頻譜谷值。每個共振峰的中心頻率也通過此模塊計算為在所述共振峰
頻譜范圍(即,在兩個周圍的谷值之間)中的最大頻譜幅值。然后該模塊基于檢測的共振峰
分段歸一化語音波譜。

共振峰提升估計器152產生應用在輸入語音的每個頻率分量的一組增益因數,以
便在每個共振峰內的所得SNR(如上文所論述)達到特定目標或預選目標。這些增益因數通
過每個共振峰分段乘以特定或預選因數獲得,以確保達到在所述分段內的目標SNR。

輸出限制混頻器118查找應用到在輸入信號和輸出信號之間的差值的時變混合因
數,以便在與輸入信號混合時,最大允許動態范圍或均方根(RMS)水平未超出。因此,當輸入
信號已達到所述最大動態范圍RMS水平時,混合因數等于零并且輸出等于輸入。另一方面,
在輸出信號未超出最大動態范圍或RMS水平時,混合因數等于1,并且輸出信號不衰減。

將語音的每個頻譜分量獨立提升到特定頻譜信噪比(SNR)的目標根據噪聲引起成
形語音。只要頻率分辨率低(即,所述頻率跨越超過單個語音頻譜峰值),將峰值和谷值同樣
地處理為給定輸出SNR的目標產生可接受的結果。然而,在更精細分辨率的情況下,輸出語
音可能是高度失真的。噪聲可快速波動并且噪聲估值可能是不完美的。此外,噪聲和語音可
能不來自相同的空間位置。因此,收聽者可認知地區分語音和噪聲。甚至在存在噪聲的情況
下,可察覺出語音失真,因為所述失真不被噪聲完全遮蔽。

此類失真的一個例子是當噪聲恰好在頻譜語音谷值中存在時:對應于該谷值的所
述頻率分量的水平的直式調節增加它們的SNR將感知調低其周圍的峰值(即,然后頻譜對比
度下降)。更合理的技術將是提升兩個周圍的峰值,因為噪聲存在于峰值的附近。

共振峰提升通常使用適當的表示法,通過增加匹配共振峰的共振獲得。共振可以
出自LPC系數的參數形式獲得。然而,這意味著使用計算上昂貴的多項式求根算法。應急措
施通過線譜對表示法(LSP)操控這些共振。增強共振包括使自回歸傳遞函數的極點移動成
更接近單位圓。這種解決方案還遇到相互作用的問題,其中由于彼此接近的共振相互作用,
所以它們難以單獨操控。因此,解決方案需要計算上昂貴的迭代方法。增強共振還使它們的
帶寬變窄,這產生人工發聲的語音。

圖3描繪在裝置100的各模塊之間的相互作用。基于幀的處理方案同步用于噪聲和
語音兩者。首先,在步驟202和208,計算采樣環境噪聲和語音輸入幀的功率譜密度(PSD)。如
上文所解釋,目的中的一個是僅改進頻譜峰值周圍的SNR。換句話說,頻率分量越接近去掩
蔽的共振峰的峰值,對去掩蔽該共振峰的貢獻應該越大。其結果是,在頻譜谷值中的頻率分
量的貢獻應該是極小的。在步驟210,執行共振峰分段的過程。應注意,采樣環境噪聲是環境
噪聲而不是輸入語音中存在的噪聲。

共振峰分段模塊156專門將在步驟208計算的語音頻譜估值分割成共振峰。在步驟
204,連同在步驟202計算的噪聲頻譜估值,該分段用于計算一組SNR估值,一個SNR估值在每
個共振峰區域中。該分段的另一個結果是匹配輸入語音的共振峰結構的頻譜提升模式。

在步驟206,基于該提升模式并且基于SNR估值,應用到每個共振峰的必要提升使
用共振峰提升估計器152計算。在步驟212,可應用共振峰去掩蔽濾波器,并且可選地,步驟
212的輸出與輸入語音混合以限制輸出語音的動態范圍和/或RMS水平。

在一個實施例中,低階LPC分析,即,可采用自回歸模型用于語音的頻譜估算。高頻
共振峰的建模另外可以通過在LPC分析之前在輸入語音上應用預加強改進。然后頻譜估值
以LPC系數的頻率響應倒數獲得。在下文中,假定頻譜估值在對數域中,這避免冪升高運算
符(power elevation operators)。

圖4示出了共振峰分段模塊156的運算。通過共振峰分段模塊156執行的運算中的
一個是將語音波譜分割成各共振峰。在一個實施例中,共振峰定義為在兩個局部最小值之
間的頻譜分段。然后這些局部最小值的頻率指數定義頻譜谷值的位置。在頻譜谷值未達到
相同能級的意義上,語音自然是不均衡的。具體而言,在更多能量朝向低頻率的情況下,語
音通常是傾斜的。因此,為改進語音波譜分割成共振峰的過程,波譜可以可選地預先“被均
衡”。在一個實施例中,在步驟302,該均衡通過使用倒譜低頻濾波并從初始頻譜減去平滑頻
譜計算頻譜的平滑版本來執行。在步驟304和306,局部最小值通過區分均衡語音頻譜檢測,
一旦檢測到,則然后定位標志從負值改變為正值。區分長度n的信號X包括計算X的相鄰元素
之間的差值:[X(2)-X(1)X(3)-X(2)…X(n)-X(n-1)]。所定位的標志變化的頻率分量被標
記。在步驟308,分段線性信號由這些標記形成。均衡語音頻譜包絡的值被指派給所標記的
頻率分量,并且在兩者之間的值以線性方式插入。在步驟310,在所有局部最小值等于0dB的
情況下,從均衡語音頻譜包絡減去該分段線性信號以獲得“歸一化的”頻譜包絡。通常,負值
設定成0dB。步驟310的輸出信號構成共振峰提升模式,該共振峰提升模式被傳送到共振峰
提升估計器152上,而分段標記被傳送到共振峰SNR估計模塊156。

圖5示出了共振峰提升估計器152的運算。共振峰提升估計器152計算應用到每個
共振峰的整體提升量,并接著計算為了這樣做應用到每個頻率分量的必要增益。在步驟
402,采用心理聲學模型以單獨確定每個共振峰的目標SNR。心理聲學模型所需的能量估值
通過共振峰SNR估計器154計算。心理聲學模型從所述目標SNR扣除一組提升因數βi≥0。在
步驟404,然后這些提升因數通過提升模式的分段i的每個采樣乘以關聯因數βi應用。舉例
來說,非常基本的心理聲學模型將確保在應用提升因數之后,與每個共振峰關聯的SNR達到
特定的目標SNR。更高級的心理聲學型號可以包括聽覺掩蔽和語音感知的模型。步驟404的
結果是第一增益頻譜,在步驟406,所述第一增益頻譜被平滑出以形成共振峰揭露濾波器
408。然后輸入語音通過共振峰去掩蔽濾波器408處理。

在一個例子中,為了示出確保與每個共振峰相關聯的SNR達到某一的目標SNR的心
理聲學模型,提升因數可如下計算。本例子僅考慮在當前幀中檢測的所有共振峰的單個共
振峰。對于其它共振峰可重復相同過程。在所選的共振峰內的輸入SNR可以表述為:

<mrow> <msub> <mi>&xi;</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mi>S</mi> <msup> <mrow> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mi>D</mi> <msup> <mrow> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> </mrow>

其中,S和D分別是輸入語音和噪聲信號的幅值頻譜(在線性單元中表示),并且指
數K屬于中心定在所述共振峰中心頻率上的關鍵波段。A[k]是當前幀的提升模式,并且β是
所考慮共振峰的尋求提升因數。然后當增益頻譜在線性單元中表示時,將是A[k]β。在該增
益頻譜應用之后,與該共振峰相關聯的輸出SNR變為:

<mrow> <msub> <mi>&xi;</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>S</mi> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> <mi>A</mi> <msup> <mrow> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> </mrow> <mi>&beta;</mi> </msup> <mo>)</mo> </mrow> <mn>2</mn> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mi>D</mi> <msup> <mrow> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> </mrow>

在一個實施例中,尋找β的一個簡單方式是通過迭代,從0開始,以固定步長增加其
值并在每個迭代計算ξout直到達到目標輸出SNR。

均衡語音頻譜使所有頻譜谷值的能級更接近相同值。然后減去分段線性信號確保
所有局部最小值,即,每個頻譜谷值的“中心”等于0dB。這些0dB連接點提供在所述提升模式
的各分段之間的必要一致性:將一組不等的提升因數應用到提升模式直到產生在各連續片
段之間具有平滑過渡的增益頻譜。所得的增益頻譜觀察事先陳述的期望特性:因為在歸一
化頻譜中的局部最小值等于0dB,對應于頻譜峰值的單獨頻率分量通過乘法運算提升,并且
頻譜值越大,所得頻譜增益就越大。增益頻譜本身確保去掩蔽共振峰中的每個(在心理聲學
模型中的極限),但是對于給定共振峰的必要提升可能是非常高的。因此,增益頻譜可能是
非常陡峭的并且輸出語音是不自然的。后續的平滑運算將增益稍微展開成谷值以獲得更自
然的輸出。

在一些應用中,輸出動態范圍和/或均方根(RMS)水平可被限制為例如在移動通信
應用中。為解決該問題,輸出限制混頻器118提供限制輸出動態范圍和/或RMS水平的機制。
在一些實施例中,由輸出限制混頻器118提供的RMS水平限制不基于信號衰減。

除非本文中另外指出或明顯與內容相矛盾,否則在描述主題的情況下(尤其在以
上權利要求書的情況下)使用術語“一(a/an)”和“所述”以及類似指示物應理解為涵蓋單數
和復數。除非本文中另有說明,否則本文中的值范圍的敘述僅旨在充當單獨地提及在所述
范圍內的每一個單獨的值的速記方法,并且每一個單獨的值并入本說明書中,如同在本文
單獨地敘述一般。此外,上述描述僅出于說明的目的,而不是出于限制的目的,因為尋求保
護的范圍由附屬權利要求及其任何等效物來限定。本文所提供的任何和所有例子或示例性
語言(例如,“諸如”)僅僅是旨在更好說明所述主題并不對所述主題的范圍造成限制,除非
另有要求。使用術語“基于”和其它類似短語指示在附屬權利要求和書面描述中產生結果的
條件,并不旨在排除產生該結果的其它條件。本說明書中的任何語言都不應理解為指示實
施所要求保護的本發明所必需的任何不要求保護的元件。

本文中描述的本發明的優選實施例,包括本發明人已知的用于進行所要求保護的
主題的最佳模式。當然,那些優選實施例的變型對于閱讀上述描述的本領域普通技術人員
將是顯而易見的。本發明人期望熟練的業內人士適當時采用此類變型,并且本發明人旨在
以不同于本文中特定描述的其它方式來實施本發明所要求保護的主題。因此,所要求保護
的主題包括可適用法律所準許的在附屬權利要求中敘述的主題的所有變化和等效物。此
外,除非本文另外指示或以其他方式明確指出與內容相矛盾,否則本發明涵蓋上述要素以
其所有可能的變化形式的任何組合。

關 鍵 詞:
改進 語音 可懂度
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:改進的語音可懂度.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100867.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图