• / 14
  • 下載費用:30 金幣  

一種基于依存關系模板抽取觀點評價對象的BOOTSTRAPPING算法.pdf

摘要
申請專利號:

CN201610537567.1

申請日:

2016.07.08

公開號:

CN106257455A

公開日:

2016.12.28

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20160708|||公開
IPC分類號: G06F17/30; G06F17/27 主分類號: G06F17/30
申請人: 閩江學院
發明人: 楊曉燕; 徐戈
地址: 350108 福建省福州市閩侯縣上街鎮文賢路1號
優先權:
專利代理機構: 福州元創專利商標代理有限公司 35100 代理人: 蔡學俊
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201610537567.1

授權公告號:

|||

法律狀態公告日:

2017.01.25|||2016.12.28

法律狀態類型:

實質審查的生效|||公開

摘要

本發明涉及一種基于依存關系模板抽取觀點評價對象的Bootstrapping算法,考慮了情感詞與觀點評價對象詞之間的語法、語義關系,構造觀點評價對象詞與情感詞之間的依存關系模板,采用Bootstrapping方法抽取觀點評價對象。本發明避免了直接采用詞匯上下文抽取評價對象方法所帶來的噪音,提高了觀點評價對象抽取性能。

權利要求書

1.一種基于依存關系模板抽取觀點評價對象的Bootstrapping算法,其特征在于:包括
以下步驟:
步驟S1:以情感詞為中心尋找與初始依存關系模板匹配的詞,并對該詞進行過濾處理,
獲得候選觀點評價對象詞;
步驟S2:用下式計算候選觀點評價對象詞j的分數:
<mrow> <msub> <mi>sw</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <mfrac> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>u</mi> </mfrac> <mo>;</mo> </mrow>
將依存關系模板與候選觀點評價對象詞之間的匹配關系用二維矩陣表示:W=(wij),i
={1,2,...,u},j={1,2,...,v},其中,u表示模板個數,v表示候選觀點評價對象詞候選個
數;當第i個依存關系模塊與第j個候選觀點評價對象詞存在匹配關系時,wij=wij+1;
步驟S3:按候選觀點評價對象詞的分數排序,挑選分數最高的5個詞進入觀點評價對象
種子集;
步驟S4:從觀點評價對象種子集出發尋找觀點評價對象詞與情感詞之間的依存關系,
如果存在依存關系則構造候選依存關系模板;
步驟S5:用下式計算候選依存關系模板分數:
<mrow> <msub> <mi>sp</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>m</mi> </mfrac> <mo>;</mo> </mrow>
將一個觀點評價對象詞與候選依存關系模板的關系用二維矩陣表示:P=(pij),i={1,
2,...,m},j={1,2,...,n},其中,m表示觀點評價對象個數,n表示候選依存關系模板個數;
當第i個觀點評價對象詞與第j個候選依存關系模板存在匹配關系時,pij=pij+1;
步驟S6:按候選依存關系模板的分數排序,挑選分數大于閾值θ的依存關系模板進入模
板集;
步驟S7:重復步驟S1至步驟S6,直至沒有新的候選觀點評價對象詞產生;
步驟S8:利用依存分析和語義角色標注技術的規則,對得到的候選觀點評價對象進行
邊界識別。
2.根據權利要求1所述的一種基于依存關系模板抽取觀點評價對象的Bootstrapping
算法,其特征在于:步驟S1中所述對該詞進行過濾處理具體包括詞性過濾與停用詞過濾;所
述詞性過濾為將名詞短語作為候選觀點評價對象;所述停用詞包括通用停用詞與領域停用
詞。
3.根據權利要求1所述的一種基于依存關系模板抽取觀點評價對象的Bootstrapping
算法,其特征在于:步驟S8中,所述依存分析和語義角色標注技術的規則具體包括:
合并規則:如果當前詞是觀點評價對象詞,該詞的前一個詞或后一個詞出現在候選觀
點評價對象集中,則前一個詞或后一個詞擴展為觀點評價對象詞;
ATT規則:如果當前詞是觀點評價對象,前一個詞或后一個詞與該詞具有ATT或QUN或DE
句法依存關系,則前一個詞或后一個詞擴展為觀點評價對象詞;
LAD規則:如果當前詞與當前詞的父親詞依存關系是LAD且前一個詞是觀點評價對象
詞,則當前詞的父親詞是觀點評價對象詞;
COO規則:如果當前詞與當前詞的兒子詞依存關系是COO,且當前詞是觀點評價對象詞,
則當前詞的兒子詞是觀點評價對象詞;
SRL規則:如果當前詞與某些詞的語義關系是施事關系同時又與另外一些詞的語義關
系存在受事關系且受事者中包含情感詞則施事者是觀點評價對象詞。

說明書

一種基于依存關系模板抽取觀點評價對象的Bootstrapping算法

技術領域

本發明涉及觀點挖掘領域,特別是一種基于依存關系模板抽取觀點評價對象的
Bootstrapping算法。

背景技術

隨著網絡的快速發展,互聯網上產生了一種由大量用戶參與的嶄新的模式—用戶
生成內容(Users Generate Content,UGC)模式。在UGC上用戶發表對于諸如事件、產品、人
物等評論信息,這些評論信息對于用戶購買決策、興趣挖掘、個性化信息服務、輿情監控、信
息預測等工作都具有重要的價值和意義。然而,這些評論數量龐大,品質良莠不齊,且多為
短文本描述,手工分析和挖掘異常困難,因此,設計實現面向評論的觀點挖掘(opinion
mining)工具成為自然語言處理和數據挖掘界的熱點問題之一。

目前觀點挖掘算法中,基于模板匹配的方法使用得較為普遍,其本質是從樣本中
構造相關模板,將待分析文本與模板進行匹配從而提取需要的信息。王昌厚等將種子詞出
現位置的前一個詞和后一個詞的組合構造詞形模式庫用于抽取情感詞。張凌等通過提取情
感對象到情感詞之間的一組詞性模板形成詞性模板庫,用于提取原子情感對象。宋曉雷等
利用種子詞的前一個詞和后一個詞的詞形、詞性分別構造詞形模板、詞性模板用于抽取觀
點評價對象。然而,基于詞形、詞性模板的方法只考慮詞、詞性信息,句法信息沒得到有效利
用。例如“329/m元/q的/u價格/n是/v酷冷/a愛好者/n不錯/a的/u選擇/v。”這句中“價格”是
觀點評價對象,如果用該詞的前一個詞和后一個詞的詞形、詞性構造詞形模板和詞性模板
并用該模板去匹配待分析文本“這/r款/q產品/n最/d大/a的/u特點/n是/v性價比/n非常/d
高/a。/wp”會抽取得到“特點”這個詞作為觀點評價對象,而這個句子的觀點評價對象是“性
價比”。產生錯誤的原因就是在獲取觀點評價對象過程中僅考慮詞的信息而忽略了情感詞
與觀點評價對象詞在語法和語義上的信息。

國內外關于觀點評價對象抽取的研究如下:觀點評價對象抽取(opinion target)
是指抽取出評論所針對的對象或對象的屬性。如“索尼NWZ-A826外形設計簡約大氣。”這個
句子中觀點評價對象是“索尼NWZ-A826外形設計”,“簡約大氣”是評價短語。觀點評價對象
抽取為信息分類、檢索與歸納等工作打下基礎,是觀點挖掘的重要任務。目前自動抽取觀點
評價對象已成為觀點挖掘亟待解決的問題,國際上一些著名的評測如TREC Blog Track和
NTCIR以及國內中文傾向性分析評測都將觀點評價對象抽取作為其任務之一。觀點評價對
象抽取算法可以歸結為無監督的機器學習(unsupervised machine learning)、監督的機
器學習(supervised machine learning)、半監督的機器學習(semi-supervised
learning)。無監督機器學習方法抽取觀點評價對象主要采用模板和規則兩種方法。張凌等
提出利用詞性模板庫提取情感要素的方法。顧正甲等使用SBV極性傳遞法從語料中抽取觀
點評價對象。趙妍妍等基于句法路徑獲取觀點評價對象。任彬等基于依存句法分析的方法
通過規則匹配的方式從文本中提取信息。王素格等利用詞對之間的依存關系和相關詞性,
構建含有情感詞和觀點評價對象的組塊規則,再以此為基礎抽取候選觀點評價對象。在英
文方面,Bloom等基于依存分析人工制定了31條依存規則用于抽取評價短語-觀點評價對象
的搭配。總的來說,無監督的機器學習方法不需標注語料,能降低成本,但是由于模板、規則
構造不完備,因此泛化能力較差,獲取的觀點評價對象準確率較低。監督的機器學習方法抽
取觀點評價對象是將觀點評價對象抽取問題看成是標注問題,這方面的代表方法有張磊等
引入詞形、詞性、依存關系結構特征、距離特征、路徑等特征模板,利用最大熵模型進行訓
練,提取觀點評價對象-情感詞對。袁璐等對句子進行淺層句法分析并制定相應規則,再結
合隱馬爾科夫模型進行訓練。戴敏等引入詞形、依存關系、語義角色標注等特征基于條件隨
機場模型進行觀點評價對象抽取。以上方法均采用監督學習的方法進行觀點評價對象識
別,這些方法需要標注大量的訓練數據,費時費力,精確率較高,但召回率較低。而且不同領
域的訓練數據是無法共享的,這大大影響了監督機器學習方法的適用性。針對中文語料庫
規模較小的不足之處,許多學者采用半監督學習算法抽取觀點評價對象。半監督機器學習
算法能夠避免數據和資源的浪費,同時解決監督學習算法的模型泛化能力不強和無監督學
習算法的模型不精確等問題,已經被應用于解決實際問題,尤其是自然語言處理問題。半監
督機器學習的一種主流方法是自舉(Bootstrapping)方法。該方法通過人工干預得到種子,
然后增量式地迭代,在每一輪迭代中,都將產生新的標注樣例,用這些新的有標注樣例重新
訓練模型,如此循環往復,直到最終收斂結束。Michael Thelen等基于Bootstrapping算法
原理提出詞與模板雙向評分的詞典生成算法,取得較理想的效果。Wei Jin等將候選觀點評
價對象的同義詞、近義詞標注為候選觀點評價對象,再重新訓練模型,但該方法帶入許多低
頻詞匯影響識別性能。Shu Zhang等采用圖模型識別觀點評價對象與情感詞,把觀點評價對
象與情感詞看做是一個評價搭配關系對,每增加m個候選觀點評價對象就產生n個候選情感
詞,這樣不斷迭代產生觀點評價對象與情感詞,該方法不足之處是評價候選觀點評價對象
時只考慮候選觀點評價對象與情感種子詞的共現率,召回率較低。Qiu Guang等提出利用小
規模種子情感詞以及觀點評價對象和情感詞之間的依存關系,通過觀點評價對象和情感詞
之間的雙向傳播策略,增量式地識別新情感詞和觀點評價對象,但該方法需要依靠人工經
驗構造依存關系模板。宋曉雷等從種子觀點評價對象和種子詞形模板、詞性模板出發通過
Bootstrapping方法識別觀點評價對象,但該方法忽略情感詞的作用。由于Bootstrapping
方法的優良特性,本發明采用Bootstrapping方法進行觀點評價對象的抽取。

國內外關于依存分析技術的研究如下:依存分析(dependency parsing)是一種語
言結構,通過分析語言單位內成分之間的依存關系揭示其句法結構,描述句中詞和詞之間
存在的支配與被支配的依存關系,由于依存分析可以反映出句子各成分之間的語義修飾關
系,可以獲得長距離的搭配信息,并且依存分析與句子成分的物理位置無關,更傾向于人的
語言直覺,能夠提供更精確的結果,因此依存分析技術得到人們的廣泛關注。例句1“這款產
品最大的特點是性價比非常高。”的依存分析結構圖如圖1所示。圖1中帶箭頭的有向弧表示
兩個詞之間的從屬關系,這條有向弧叫做依存弧。每個依存弧上標記依存關系類型,如果詞
與詞之間直接發生依存關系,則其中一個詞稱為核心詞,也叫支配詞;另一個詞稱為修飾
詞,也叫從屬詞,依存弧的方向總是由核心(父親)詞指向修飾(兒子)詞。

國內外關于語義角色標注技術的研究如下:語義角色標注(semantic role
labeling)是自然語言處理領域的一個熱門研究內容。它并不對整個語句做詳細的語義分
析,而只是標注句子中給定謂詞的語義角色,從而使計算機對語句有一個“淺層”的理解。對
于漢語中的大多數謂詞來講,其角色參數在句中比較固定,A0一般表示動作結果的施事者,
A1表示動作結果的受事者。如例句2:“明系列是摩托羅拉手機的一個頂峰。”該句的語義角
色標注結果如圖2所示。句子中“是”是謂詞,“明系列”是謂詞“是”的“施事者”,“摩托羅拉手
機的一個頂峰”是謂詞“是”的“受事者”。

發明內容

有鑒于此,本發明的目的是提出一種基于依存關系模板抽取觀點評價對象的
Bootstrapping算法,避免了直接采用詞匯上下文抽取評價對象方法所帶來的噪音,提高了
觀點評價對象抽取性能。

本發明采用以下方案實現:一種基于依存關系模板抽取觀點評價對象的
Bootstrapping算法,具體包括以下步驟:

步驟S1:以情感詞為中心尋找與初始依存關系模板匹配的詞,并對該詞進行過濾
處理,獲得候選觀點評價對象詞;

步驟S2:用下式計算候選觀點評價對象詞j的分數:

<mrow> <msub> <mi>sw</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <mfrac> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>u</mi> </mfrac> <mo>;</mo> </mrow>

將依存關系模板與候選觀點評價對象詞之間的匹配關系用二維矩陣表示:W=
(wij),i={1,2,...,u},j={1,2,...,v},其中,u表示模板個數,v表示候選觀點評價對象詞
候選個數;當第i個依存關系模塊與第j個候選觀點評價對象詞存在匹配關系時,wij=wij+
1;

步驟S3:按候選觀點評價對象詞的分數排序,挑選分數最高的5個詞進入觀點評價
對象種子集;

步驟S4:從觀點評價對象種子集出發尋找觀點評價對象詞與情感詞之間的依存關
系,如果存在依存關系則構造候選依存關系模板;

步驟S5:用下式計算候選依存關系模板分數:

<mrow> <msub> <mi>sp</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>m</mi> </mfrac> <mo>;</mo> </mrow>

將一個觀點評價對象詞與候選依存關系模板的關系用二維矩陣表示:P=(pij),i
={1,2,...,m},j={1,2,...,n},其中,m表示觀點評價對象個數,n表示候選依存關系模板
個數;當第i個觀點評價對象詞與第j個候選依存關系模板存在匹配關系時,pij=pij+1;

步驟S6:按候選依存關系模板的分數排序,挑選分數大于閾值θ的依存關系模板進
入模板集;

步驟S7:重復步驟S1至步驟S6,直至沒有新的候選觀點評價對象詞產生;

步驟S8:利用依存分析和語義角色標注技術的規則,對得到的候選觀點評價對象
進行邊界識別。

進一步地,步驟S1中所述對該詞進行過濾處理具體包括詞性過濾與停用詞過濾;
所述詞性過濾為將名詞短語作為候選觀點評價對象;所述停用詞包括通用停用詞與領域停
用詞。

進一步地,步驟S8中,所述依存分析和語義角色標注技術的規則具體包括:

合并規則:如果當前詞是觀點評價對象詞,該詞的前一個詞或后一個詞出現在候
選觀點評價對象集中,則前一個詞或后一個詞擴展為觀點評價對象詞;

ATT規則:如果當前詞是觀點評價對象,前一個詞或后一個詞與該詞具有ATT或QUN
或DE句法依存關系,則前一個詞或后一個詞擴展為觀點評價對象詞;

LAD規則:如果當前詞與當前詞的父親詞依存關系是LAD且前一個詞是觀點評價對
象詞,則當前詞的父親詞是觀點評價對象詞;

COO規則:如果當前詞與當前詞的兒子詞依存關系是COO,且當前詞是觀點評價對
象詞,則當前詞的兒子詞是觀點評價對象詞;

SRL規則:如果當前詞與某些詞的語義關系是施事關系同時又與另外一些詞的語
義關系存在受事關系且受事者中包含情感詞則施事者是觀點評價對象詞。

觀點評價對象抽取與傳統的信息抽取任務不同,抽取的信息必須是與情感詞存在
修飾關系的詞語,而非客觀描述的對象,所以在抽取時要考慮情感詞對觀點評價對象抽取
的影響。觀點評價對象詞與情感詞的依存關系存在以下5種形式,如圖3-7所示。其中T代表
觀點評價對象詞,O代表情感詞,M代表中間詞。圖3表示“父親關系”,即觀點評價對象詞是情
感詞的父親節點;圖4表示“兒子關系”,即觀點評價對象詞是情感詞的兒子節點;圖5表示
“祖父關系”,即觀點評價對象詞是情感詞的父親的父親節點;圖6表示“孫子關系”,即觀點
評價對象詞是情感詞的兒子的兒子節點,圖7表示“兄弟關系”,即觀點評價對象詞與情感詞
有同一個祖先詞。我們將這5種關系形式分為兩組,一組稱為直接依存關系,包括“父親關
系”和“兒子關系”,另一組稱為間接依存關系,包括“祖父關系”、“孫子關系”、“兄弟關系”。

針對以上依存關系形式,本發明提出觀點評價對象詞與情感詞之間的直接依存關
系模板和間接依存關系模板。直接依存關系模板表示為(dp,target,relate,opinion)。其
中:dp表示觀點評價對象詞與情感詞之間的依存關系類型;target指觀點評價對象詞,
opinion指情感詞;relate表示觀點評價對象詞與情感詞之間的依存關系形式,(-1)表示觀
點評價對象詞是情感詞的父親節點;(+1)表示上觀點評價對象詞是情感詞的兒子節點。間
接依存關系模板表示為(dp1,target,relate1,middle)+(dp2,middle,relate2,opinion),
其中dp1表示觀點評價對象詞與中間詞的依存關系類型;relate1表示觀點評價對象詞與中
間詞的依存關系形式,(-1)表示觀點評價對象詞是中間詞的父親節點;(+1)表示觀點評價
對象詞是中間詞的兒子節點;dp2表示情感詞與中間詞的依存關系類型;middle指中間詞;
relate2表示情感詞與中間詞的依存關系形式,(-1)表示中間詞是情感詞的父親節點;(+1)
表示中間詞是情感詞的兒子節點。以例句1為例,觀點評價對象詞“性價比”與情感詞“高”之
間的依存關系類型是SBV關系,用直接依存關系模板表示為:(SBV,性價比,+1,高)。

與現有技術相比,本發明有以下有益效果:本發明采用一種以種子詞與情感詞之
間的依存關系構造模板,并采用Bootstrapping方法實現觀點評價對象的抽取。通過在
COAE2011電子數據集上的實驗結果表明本發明提出的方法能有效利用情感詞與觀點評價
對象詞之間的語法、語義信息,避免了直接采用詞匯上下文抽取評價對象方法所帶來的噪
音,提高了觀點評價對象抽取性能。

附圖說明

圖1為本發明背景技術中依存分析結構示意圖。

圖2為本發明背景技術中語義角色標注示意圖。

圖3為本發明觀點評價對象詞與情感詞的依存關系形式之父親關系。

圖4為本發明觀點評價對象詞與情感詞的依存關系形式之兒子關系。

圖5為本發明觀點評價對象詞與情感詞的依存關系形式之祖父關系。

圖6為本發明觀點評價對象詞與情感詞的依存關系形式之孫子關系。

圖7為本發明觀點評價對象詞與情感詞的依存關系形式之兄弟關系。

圖8為本發明實施例中閾值的設置對性能的影響。

圖9為本發明實施例中合并規則、ATT規則示意圖。

圖10為本發明實施例中COO規則示意圖。

圖11為本發明實施例中SRL規則示意圖。

具體實施方式

下面結合附圖及實施例對本發明做進一步說明。

本實施例提供了一種基于依存關系模板抽取觀點評價對象的Bootstrapping算
法,具體包括以下步驟:

步驟S1:以情感詞為中心尋找與初始依存關系模板匹配的詞,并對該詞進行過濾
處理,獲得候選觀點評價對象詞;

步驟S2:用下式計算候選觀點評價對象詞j的分數:

<mrow> <msub> <mi>sw</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <mfrac> <msub> <mi>w</mi> <mi>k</mi> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>u</mi> </mfrac> <mo>;</mo> </mrow>

將依存關系模板與候選觀點評價對象詞之間的匹配關系用二維矩陣表示:W=
(wij),i={1,2,...,u},j={1,2,...,v},其中,u表示模板個數,v表示候選觀點評價對象詞
候選個數;當第i個依存關系模塊與第j個候選觀點評價對象詞存在匹配關系時,wij=wij+
1;

在本實施例中,設集合X={x1,x2,...,xi,...,xu}與集合Y={y1,y2,...,yj,...,
yv},我們取X×Y的一個子集R構造一個從X到Y的匹配關系。即若<xi,yj>∈R,即稱xi與yj有
匹配關系,記作xiRyj。若即稱xi與yj沒有匹配關系,記作

步驟S3:按候選觀點評價對象詞的分數排序,挑選分數最高的5個詞進入觀點評價
對象種子集;

步驟S4:從觀點評價對象種子集出發尋找觀點評價對象詞與情感詞之間的依存關
系,如果存在依存關系則構造候選依存關系模板;

步驟S5:用下式計算候選依存關系模板分數:

<mrow> <msub> <mi>sp</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>m</mi> </mfrac> <mo>;</mo> </mrow>

將一個觀點評價對象詞與候選依存關系模板的關系用二維矩陣表示:P=(pij),i
={1,2,...,m},j={1,2,...,n},其中,m表示觀點評價對象個數,n表示候選依存關系模板
個數;當第i個觀點評價對象詞與第j個候選依存關系模板存在匹配關系時,pij=pij+1;

步驟S6:按候選依存關系模板的分數排序,挑選分數大于閾值θ的依存關系模板進
入模板集;

步驟S7:重復步驟S1至步驟S6,直至沒有新的候選觀點評價對象詞產生;

步驟S8:利用依存分析和語義角色標注技術的規則,對得到的候選觀點評價對象
進行邊界識別。

在本實施例中,步驟S1中所述對該詞進行過濾處理具體包括詞性過濾與停用詞過
濾;所述詞性過濾為將名詞短語作為候選觀點評價對象;所述停用詞包括通用停用詞與領
域停用詞。

在本實施例中,步驟S8中,所述依存分析和語義角色標注技術的規則具體包括:

合并規則:如果當前詞是觀點評價對象詞,該詞的前一個詞或后一個詞出現在候
選觀點評價對象集中,則前一個詞或后一個詞擴展為觀點評價對象詞;

ATT規則:如果當前詞是觀點評價對象,前一個詞或后一個詞與該詞具有ATT或QUN
或DE句法依存關系,則前一個詞或后一個詞擴展為觀點評價對象詞;

LAD規則:如果當前詞與當前詞的父親詞依存關系是LAD且前一個詞是觀點評價對
象詞,則當前詞的父親詞是觀點評價對象詞;

COO規則:如果當前詞與當前詞的兒子詞依存關系是COO,且當前詞是觀點評價對
象詞,則當前詞的兒子詞是觀點評價對象詞;

SRL規則:如果當前詞與某些詞的語義關系是施事關系同時又與另外一些詞的語
義關系存在受事關系且受事者中包含情感詞則施事者是觀點評價對象詞。

在本實施例中,觀點評價對象抽取與傳統的信息抽取任務不同,抽取的信息必須
是與情感詞存在修飾關系的詞語,而非客觀描述的對象,所以在抽取時要考慮情感詞對觀
點評價對象抽取的影響。觀點評價對象詞與情感詞的依存關系存在以下5種形式,如圖3-7
所示。其中T代表觀點評價對象詞,O代表情感詞,M代表中間詞。圖3表示“父親關系”,即觀點
評價對象詞是情感詞的父親節點;圖4表示“兒子關系”,即觀點評價對象詞是情感詞的兒子
節點;圖5表示“祖父關系”,即觀點評價對象詞是情感詞的父親的父親節點;圖6表示“孫子
關系”,即觀點評價對象詞是情感詞的兒子的兒子節點,圖7表示“兄弟關系”,即觀點評價對
象詞與情感詞有同一個祖先詞。我們將這5種關系形式分為兩組,一組稱為直接依存關系,
包括“父親關系”和“兒子關系”,另一組稱為間接依存關系,包括“祖父關系”、“孫子關系”、
“兄弟關系”。

針對以上依存關系形式,本發明提出觀點評價對象詞與情感詞之間的直接依存關
系模板和間接依存關系模板。直接依存關系模板表示為(dp,target,relate,opinion)。其
中:dp表示觀點評價對象詞與情感詞之間的依存關系類型;target指觀點評價對象詞,
opinion指情感詞;relate表示觀點評價對象詞與情感詞之間的依存關系形式,(-1)表示觀
點評價對象詞是情感詞的父親節點;(+1)表示上觀點評價對象詞是情感詞的兒子節點。間
接依存關系模板表示為(dp1,target,relate1,middle)+(dp2,middle,relate2,opinion),
其中dp1表示觀點評價對象詞與中間詞的依存關系類型;relate1表示觀點評價對象詞與中
間詞的依存關系形式,(-1)表示觀點評價對象詞是中間詞的父親節點;(+1)表示觀點評價
對象詞是中間詞的兒子節點;dp2表示情感詞與中間詞的依存關系類型;middle指中間詞;
relate2表示情感詞與中間詞的依存關系形式,(-1)表示中間詞是情感詞的父親節點;(+1)
表示中間詞是情感詞的兒子節點。以例句1為例,觀點評價對象詞“性價比”與情感詞“高”之
間的依存關系類型是SBV關系,用直接依存關系模板表示為:(SBV,性價比,+1,高)。

通過對數據集的分析,本實施例將出現頻率較高的6個觀點評價對象作為初始種
子詞,分別為“外觀”、“性能”、“設計”、“配置”、“功能”、“價格”;選4個出現頻率較高的依存
關系模板作為初始種子模板,其中直接關系模板3個分別是“SBV,target,-1,opinion”、
“SBV,target,+1,opinion”、“ATT,target,+1,opinion”和一個間接關系模板“ATT,
target,-1,middle”+“VOB,middle,+1,opinion”。

在本實施例中,為了提高算法的精確率,對候選觀點評價對象詞進行打分之前對
其進行如下過濾處理。具體包括詞性過濾與停用詞過濾。詞性過濾:我們將名詞或名詞短語
作為候選觀點評價對象。雖然其他詞性的詞語也可能是候選觀點評價對象,但這些詞性的
引入會帶來較大噪聲。停用詞過濾:這里的停用詞包括通用停用詞和領域停用詞,如“上”,
“的”,“時”等。

在本實施例中,還對比了現有技術與本申請的實驗結果,其中,實驗數據來自
COAE2011電子領域評論語料大約150篇。語料中每個句子用哈爾濱工業大學的語言技術平
臺(Language Technology Platform,LTP)進行分句、分詞、詞性分析、依存分析、語義角色
標注等預處理工作。評價短語、候選觀點評價對象的答案由人工標注。以準確率、召回率和
調和評價值作為評價標準,公式如下所示。評價方法采用精確評價和覆蓋評價兩種方法。精
確評價是指系統抽取結果與答案完全匹配,覆蓋評價是指系統抽取結果與答案有重疊就算
正確。

其中,準確率的計算如下:


召回率的計算如下:


調和評價值得計算如下:

<mrow> <mi>F</mi> <mo>-</mo> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mo>&times;</mo> <mi>Re</mi> <mi>c</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mo>&times;</mo> <mi>Pr</mi> <mi>e</mi> <mi>c</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> </mrow> <mrow> <mi>Re</mi> <mi>c</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mo>+</mo> <mi>Pr</mi> <mi>e</mi> <mi>c</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> </mrow> </mfrac> <mo>;</mo> </mrow>

在本實施例中,實驗結果與分析如下:

實驗一:閾值設定對結論的影響。

為了說明閾值θ的設定對結論的影響,本文對閾值θ取不同值進行實驗,實驗結果
如圖8所示。通過實驗驗證閾值θ取0.10時得到的觀點評價對象結果達到最優。

實驗二:初始種子集、初始模板集、過濾處理、邊界識別規則對結論的影響。

為了驗證初始種子集、初始模板集、過濾處理、邊界識別規則對觀點評價對象抽取
的影響,我們采用如下五種方法進行實驗,實驗結果見表1。

方法一:以初始觀點評價對象種子集出發進行觀點評價對象的自動抽取,并對候
選觀點評價對象進行過濾處理、邊界識別。

方法二:以初始依存關系模板集出發進行觀點評價對象的自動抽取,并對候選觀
點評價對象經過過濾處理、邊界識別。

方法三:以初始依存關系模板集及初始觀點評價對象種子集出發抽取候選觀點評
價對象,未對候選觀點評價對象進行過濾處理,對候選觀點評價對象的邊界進行識別。

方法四:以初始依存關系模板集及初始觀點評價對象種子集出發抽取候選觀點評
價對象,對候選觀點評價對象進行過濾處理,未對觀點評價對象使用邊界識別規則。

本發明用初始依存模板集及初始觀點評價對象種子集進行觀點評價對象的自動
抽取并對候選觀點評價對象進行過濾處理,對觀點評價對象的邊界進行識別。

表1觀點評價對象自動抽取結果



本發明方法與方法一、方法二對比,說明同時使用初始觀點評價對象種子集和初
始依存關系模板集抽取觀點評價對象相對于單一使用初始觀點評價對象種子集或初始依
存關系模板集性能有一定提升。

本發明方法與方法三對比說明詞性過濾處理和停用詞過濾處理對觀點評價對象
抽取結果影響較大,在一定程度上可以減少噪聲(即非觀點評價對象)的產生。

本發明方法與方法四對比說明增加邊界識別規則能使觀點評價對象抽取性能有
一定提升。如例句3:“索尼NWZ-A826外形設計簡約大氣。”的依存分析結果如圖9所示。已知
“設計”是觀點評價對象種子詞,而“外形”是候選觀點評價對象,根據合并規則將“外形設
計”作為觀點評價對象。再依據依存分析“索尼”與“外形”、“NWZ-A826”與“外形”的依存關系
分別是“ATT”、“ATT”,根據ATT規則得到“索尼NWZ-A826外形設計”這個信息完整的觀點評價
對象。

如例句4:“E60的揚聲器音量和穿透力很強。”的依存分析結果如圖10所示。這個句
子中,“音量”是觀點評價對象詞,“音量”與其兒子詞“穿透力”的依存關系是“COO”,根據COO
規則,“穿透力”也是觀點評價對象詞。

如例句2:“明系列是摩托羅拉手機的一個頂峰。”的依存分析結果如圖11所示。該
句中“是”是謂詞,“明系列”是謂詞“是”的施事者,“摩托羅拉手機的一個頂峰”是謂詞“是”
的受事者。根據SRL規則謂詞“是”的受事者中包含情感詞“頂峰”,因此施事者“明系列”是觀
點評價對象。

實驗三:與詞性、詞形模板進行對比。

為了驗證本發明提出的基于依存關系模板的Bootstrapping方法抽取觀點評價對
象有效性,使用王昌厚等基于詞形模板的Bootstrapping算法和宋曉雷等基于詞性、詞形模
板的Bootstrapping算法作為對比模型。本發明和王昌厚等、宋曉雷等方法采用相同的數據
集、過濾處理方法、初始觀點評價對象種子集、相同的計算觀點評價對象詞、模板的公式以
及采用相同的邊界識別規則和自舉算法。宋曉雷等方法的初始詞性模板4個分別為:“#,
word,a”,“a,word,c”,“u,word,d”,“u,word,v”。王昌厚等、宋曉雷等方法的初始詞形模板
選4個分別為:“在,word,方面”,“在,word,上”,“的,word,是”,“#,word,還是”。其中“#”代
表句子的開始。實驗結果如表2所示。

表2本文方法與詞性、詞形模板對比



由實驗結果可知:采用依存關系構造模板相對詞性、詞形模板的方法,在精確評
價、覆蓋評價都有很大提高。主要原因是詞性、詞形模板方法只利用詞的信息而忽略了情感
詞與觀點評價對象詞之間的語法、語義信息。如例句1“這款產品最大的特點是性價比非常
高。”,該句子情感詞“高”與兒子詞“性價比”之間的依存關系類型是SBV,采用本發明方法能
與模板庫中已存在的依存關系模板SBV匹配,因此能獲得“性價比”這個觀點評價對象,而詞
性、詞形模板方法只利用詞性、詞形信息忽略了情感詞的作用只能抽取得到“特點”作為觀
點評價對象,因此觀點評價對象抽取性能較低。

以上所述僅為本發明的較佳實施例,凡依本發明申請專利范圍所做的均等變化與
修飾,皆應屬本發明的涵蓋范圍。

關 鍵 詞:
一種 基于 依存 關系 模板 抽取 觀點 評價 對象 BOOTSTRAPPING 算法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種基于依存關系模板抽取觀點評價對象的BOOTSTRAPPING算法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100773.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图