• / 7
  • 下載費用:30 金幣  

一種基于深度學習的會話情感自動分析方法.pdf

摘要
申請專利號:

CN201510731781.6

申請日:

2015.11.02

公開號:

CN105427869A

公開日:

2016.03.23

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G10L 25/63申請日:20151102|||公開
IPC分類號: G10L25/63(2013.01)I; G06F17/27 主分類號: G10L25/63
申請人: 北京大學
發明人: 張曉東; 王厚峰
地址: 100871北京市海淀區頤和園路5號
優先權:
專利代理機構: 北京萬象新悅知識產權代理事務所(普通合伙)11360 代理人: 賈曉玲
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510731781.6

授權公告號:

|||

法律狀態公告日:

2016.04.20|||2016.03.23

法律狀態類型:

實質審查的生效|||公開

摘要

本發明公開了一種基于深度學習的會話情感自動分析方法,屬于自然語言處理、數據挖掘領域。本發明基于去噪自編碼器學習語音和文本的表示,再通過深度學習方法將兩種表示深度融合,得到高層的統一表示,基于融合后的高層表示再進行情感分析。利用本發明提供的技術方案,可以深度融合聲學和文本兩種特征,提高情感分類的準確率。

權利要求書

1.一種會話情感自動分析方法,具體包括如下步驟:
A.將一通對話根據說話人轉變和聲音停頓分割為若干段語音;
B.使用ASR技術將語音轉換為文本;
C.提取聲學特征,執行如下操作:
C1.提取一段語音中每一幀的特征;
C2.基于多個統計量得到一段語音的全局特征;
D.提取文本特征,執行如下操作:
D1.基于大規模語料訓練,學習到每個詞的向量表示;
D2.基于詞向量計算口語會話中每段文本的表示;
E.形成兩種特征的融合表示并進行情感分類,執行如下操作:
E1.分別學習聲學特征和文本特征的表示;
E2.通過深度學習,再將兩種表示進行深度融合,得到高層表示;
E3.基于融合的高層表示訓練分類器,對每段語音分類。
2.如權利要求1所述的會話情感自動分析方法,其特征在于,步驟A具體執行如下操作:
A1.識別說話人轉換點的候選;
A2.通過聚類確定說話人轉換點;
A3.將時長超過某一閾值的停頓切分。
3.如權利要求1所述的會話情感自動分析方法,其特征在于,步驟B中ASR引擎包含:特
征提取、聲學模型、語言模型、詞典、解碼器。
4.如權利要求1所述的會話情感自動分析方法,其特征在于,步驟D中文本特征為該段文本
包含的詞所對應的詞向量的平均值,即
F ( s ) = Σ w i s E M B ( w i ) / | s | ]]>
其中F(s)表示s的文本特征,EMB(wi)表示s中詞wi的詞向量,|s|表示s中詞的個數。
5.如權利要求1所述的會話情感自動分析方法,其特征在于,步驟E中使用MSDA將兩種
特征深度融合,得到高層表示。
6.如權利要求5所述的會話情感自動分析方法,其特征在于,MSDA的過程包括:首先是無
指導的預訓練,使用無標注數據從下往上依次訓練,然后使用有標注數據做有指導的微調。

說明書

一種基于深度學習的會話情感自動分析方法

技術領域

本發明屬于自然語言處理、數據挖掘領域,具體涉及基于深度學習的語音會話中的情感
分析方法。

背景技術

語音會話的情感分析是通過分析話語來判斷會話人的情感狀態,如高興、滿意、憤怒等。
語音會話大量存在于實際領域,包括各種呼叫中心、人機交互系統等。會話情感自動分析有
助于動態了解會話人的心理狀態和情緒情感變化,有著廣闊的應用前景。以呼叫中心為例,
通過分析客服對話過程中會話人的情緒和情感變化,管理人員可以發現客戶服務過程中服務
員態度是否友好,客戶是否有不滿情緒,以盡早解決問題。

針對語音會話的情感分析,一般的做法是對一段話提取一系列聲學特征,基于這些聲學
特征訓練分類器。然而,只使用聲學特征的問題在于無法考慮到話語的語義信息,而語義與
情感是密切相關的。

近些年來,語言信息逐步受到重視。通常做法是使用自動語音識別(ASR)技術將語音
轉換為文本,然后從文本中提取一系列文本特征,再利用音學和文本二種特征進行會話的情
感分析。基于聲學和文本兩種特征,目前主要有兩種方法:一是先分別用兩種特征訓練兩個
獨立的分類器,然后將兩個獨立分類器的結果再進行結合,得到最終結果。這種方法只對兩
種分類結果進行結合,忽視了特征之間的關聯性。二是將兩種特征直接合并,在合并的基礎
上再進行分類。然而,聲學特征和文本特征的低層表示通常是非線性關系,這種直接合并難
以捕獲到兩種特征之間的關聯,而且合并后的維度可能非常大。本發明的主要目的是通過深
度學習方法將聲學特征和文本特征有機融合在一起,使彼此之間的關聯通過一種新的表示形
式統一表達出來,形成高層表示,作為分類器的輸入,以此進行會話的情感分析。

發明內容

本發明提供一種語音會話中的情感分析方法,將語音會話中的聲音特征與文本特征進行
融合并得到高層的表示。

為了便于說明,首先引入如下幾個概念:

情感分類:對會話人的情感狀態進行分析,將話語劃分到正確的情感類別中。根據實際
需求的不同,可以定義不同的情感類別。

詞向量:使用低維實數向量表示一個詞的信息。與傳統的稀疏表示相比,詞向量沒有維
數災難的問題。

自編碼器(AE)[1]:只有一層隱藏節點,輸入和輸出通常具有相同節點數的神經網絡,
可以學習到輸入的壓縮表示。

去噪自編碼器(DAE)[1]:隨機地將自編碼器的一些輸入置零,迫使隱藏層單元發現更
多魯棒性好的特征。

多特征棧式去噪自編碼器(MSDA):基于去噪自編碼器,可以在多種不同特征甚至不同
類型特征組合上進行學習,得到融合后的高層表示。

本發明的目的是提供一種新的方法,通過深度學習將語音會話中的聲學特征和文本特征
融合在一起,得到一種高層的表示,用于語音會話的情感分析。所得到的高層表示并不是簡
單的組合,更不是直接的拼接,而是通過深度學習進行非線性變換得到的。

本發明的原理是:首先使用ASR將語音識別文本,然后分別提取聲學特征和文本特征,
接下來使用MSDA將兩種特征深度融合,得到高層表示,最后基于該表示,使用分類器進行
情感分類。

本發明對應的流程圖如圖1所示,詳細技術方案如下:

A.將一通對話根據說話人轉變和聲音停頓分割為若干段語音,執行如下操作:

A1.識別說話人轉換點的候選

A2.通過聚類確定說話人轉換點

A3.將時長超過某一閾值的停頓切分

B.使用ASR技術將語音轉換為文本

C.提取聲學特征,執行如下操作:

C1.提取一段語音中每一幀的特征

C2.基于多個統計量得到一段語音的全局特征

D.提取文本特征,執行如下操作:

D1.基于大規模語料訓練,學習到每個詞的向量表示

D2.基于詞向量計算口語會話中每段文本的表示

E.形成兩種特征的融合表示并進行情感分類,執行如下操作:

E1.分別學習聲學特征和文本特征的表示

E2.通過深度學習,再將兩種表示進行深度融合,得到高層表示

E3.基于融合的高層表示訓練分類器,對每段語音分類

利用本發明提供的技術方案,可以充分利用聲學和文本兩種特征,通過深度學習得到融
合的高層表示,提高情感分類的準確率。

附圖說明

圖1為本發明流程示意圖;

圖2為本發明基于深度學習的兩種特征融合框架。

具體實施方式

下面通過一個實例對本發明作說明。需要注意的是,公布實施例的目的在于幫助進一步
理解本發明。在不脫離本發明及所附的權利要求的精神和范圍內,各種替換和修改都是可能
的。因此,本發明不應局限于實施本例所公開的內容,本發明要求保護的范圍以權利要求書
界定的范圍為準。

假定需要分析一通中文語音對話(如售后服務的語音對話),判斷其中是否存在不友好(負
面情感)的話語,如果有,則標記出來。

首先需要將對話按照會話雙方說話人的切換來切分。對話切分主要包括兩步:識別說話
人轉換點和無監督聚類。這里將語音中所有字的邊界作為轉換點的候選,然后通過聚類將同
一人連續所說的字合并,從而確定說話人的轉換點,再按轉換點將會話進行切分。為避免處
理會話一方過長的連續話語,還會將針對切分后,話語時長超過某一閾值的靜音在靜音處再
作切分。

在切分之后,使用ASR引擎將每段語音轉換為文本。本例使用的ASR引擎包含5個部
分:特征提取、聲學模型、語言模型、詞典、解碼器。特征為40維的對數filter-banks[2]。聲
學模型、語言模型和詞典組合成一個加權有限狀態傳感器(weightedfinitestatetransducers,
WFST)[3]。

根據切分的結果提取每段語音的聲學特征。一段語音被劃分為若干幀,每幀時長25毫秒。
本例中對每幀提取26個聲學特征(包括12個MFCC、8個LSP、3個F0、2個Intensity和1
個MZCR)以及每個特征的一階導數,共計52個特征。然后使用19個統計量(包括4個
Regression、6個Percentile、3個Moment和6個Extreme)計算一段語音的全局特征,這樣
每段語音的聲學特征可表示為一個988維的向量。

基于語音轉換后的文本,提取每段話語的文本特征。為了提取文本特征,先需要基于大
規模語料進行訓練,學習到詞向量。詞向量的學習可以直接使用開源工具Word2Vec,大規模
語料可以使用中文Gigaword、維基百科和搜狗新聞語料等,也可以使用其他大規模語料。詞
向量維度可以根據情況設置,例如設置為200維。對每段話語的文本s,首先進行分詞,將每
個詞對應到預先訓練得到的詞向量上。文本s的特征則為,該段文本包含的詞所對應的詞向量
的平均值,即

F ( s ) = Σ w i s E M B ( w i ) / | s | ]]>

其中F(s)表示s的文本特征,EMB(wi)表示s中詞wi的詞向量,|s|表示s中詞的個數。

最后,基于本發明提出的MSDA模型,學習將聲音和文本兩種特征融合的高層表示,進
行情感分類。MSDA的結構如圖2所示。MSDA的基本構成單元是DAE。聲學特征和文本特
征輸入到MSDA后,各自通過DAE學習到相應的表示。這兩種特征的表示合并(串接)后,
繼續通過深層學習,得到融合的高層表示,該表示作為分類器的輸入最終得到情感類別。
MSDA的訓練過程包括兩步:首先是無指導的預訓練,使用無標注數據從下往上依次訓練。
然后使用有標注數據做有指導的微調。分類結果的計算可以使用深度神經網中常用的Softmax
方法(也可以使用其他方法)。針對訓練數據中不同的情感類別數量不平衡的問題,在損失函
數中可以針對不同的類別設置不同的權重因子。預測時選擇Softmax給出的最大概率類別作
為預測的情感類別。

參考文獻:

[1]P.Vincent,H.Larochelle,I.Lajoie,Y.Bengio,andP.A.Manzagol.2010.Stacked
denoisingautoencoders:Learningusefulrepresentationsinadeepnetworkwithalocaldenoising
criterion.TheJournalofMachineLearningResearch,11,3371-3408.

[2]L.Deng,J.Li,J.T.Huang,K.Yao,D.Yu,F.Seide,M.L.Seltzer,G.Zweig,X.He,J.
Williams,Y.Gong,andA.Acero.2013.Recentadvancesindeeplearningforspeechresearchat
Microsoft.ICASSP,pages8604-8608.

[3]C.Allauzen,M.Mohri,M.Riley,andB.Roark.2004.Ageneralizedconstructionof
integratedspeechrecognitiontransducers.ICASSP,volume1,pages761-764.

關 鍵 詞:
一種 基于 深度 學習 會話 情感 自動 分析 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種基于深度學習的會話情感自動分析方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6345765.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图