• / 16
  • 下載費用:30 金幣  

漢老雙語平行語料自動采集的系統及實現方法.pdf

摘要
申請專利號:

CN201510407497.3

申請日:

2015.07.13

公開號:

CN105022728A

公開日:

2015.11.04

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/28申請日:20150713|||公開
IPC分類號: G06F17/28 主分類號: G06F17/28
申請人: 廣西達譯商務服務有限責任公司; 南寧市平方軟件新技術有限責任公司
發明人: 溫家凱; 農強; 劉連芳; 劉永俊
地址: 530007廣西壯族自治區南寧市科園東五路4號508室
優先權:
專利代理機構: 北京科億知識產權代理事務所(普通合伙)11350 代理人: 張鋒
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510407497.3

授權公告號:

|||

法律狀態公告日:

2015.12.02|||2015.11.04

法律狀態類型:

實質審查的生效|||公開

摘要

一種漢老雙語平行語料自動采集的系統及實現方法,包括漢老雙語平行信息的自動發現、自動提取、自動整理,首先,制定需要采集語料的關鍵詞組,通過搜索引擎搜索網站,采集網頁得到搜索結果,對搜索結果的信息進行過濾和篩選后,將經過濾得搜索結果存儲于搜索結果數據庫;其次,通過訪問搜索結果數據庫里的網頁,自動提取漢老雙語平行信息;最后,針對自動提取的漢老雙語平行信息,進行數據過濾,并將經過過濾處理后的漢老雙語平行數據存放到漢老雙語平行語料庫。本發明為漢老語言研究和機器翻譯應用提供重要基礎數據,解決了語料采集人員和研究人員所面臨的數據來源的問題,為雙語語料自動采集的發展和漢老自然語言處理做出了杰出的貢獻。

權利要求書

權利要求書
1.  一種漢老雙語平行語料自動采集的系統,包括漢老雙語平行信息的自動發現模塊、自動提取模塊、自動整理模塊,其特征在于:
(1)自動發現模塊:實現漢菲雙語平行語料自動發現的功能,制定需要采集語料的關鍵詞組,通過搜索引擎搜索網站,采集網頁得到搜索結果,對搜索結果的信息進行過濾和篩選后,將經過濾得搜索結果存儲于搜索結果數據庫;
(2)自動提取模塊:實現漢菲雙語平行語料自動提取的功能,通過訪問搜索結果數據庫里的網頁,自動提取漢老雙語平行信息;
(3)自動整理模塊:針對自動提取的漢老雙語平行信息,進行數據過濾,并將經過過濾處理后的漢老雙語平行數據存放到漢老雙語平行語料庫。

2.  根據權利要求1所述的漢老雙語平行語料自動采集的系統,其特征在于,所述自動發現模塊的漢老雙語平行語料自動發現工作流程為:制定一組或多組漢老互譯關鍵詞組,通過搜索引擎獲取搜索結果,分析搜索結果并以之為目標進行數據獲取。

3.  根據權利要求1所述的漢老雙語平行語料自動采集的系統,其特征在于,所述自動發現模塊的漢老雙語平行語料自動發現設計原則為:
a. 所選關鍵詞組應為特定領域范圍內的漢老互譯詞組對;
b. 使用的第三方搜索引擎工具為開放式提供搜索服務方;
c. 通過關鍵詞組搜索得到結果后,只保存前n頁信息,n與所選關鍵詞的熱門程度關聯,保存內容包括搜素結果URL地址、搜索結果標題和搜索結果摘要。

4.  根據權利要求1所述的漢老雙語平行語料自動采集的系統,其特征在于,所述自動提取模塊的雙語平行語料自動提取工作流程為:使用網頁機器人對目標網頁進行訪問,使用對應的漢老互譯關鍵詞組對目標頁面內容進行內容定位,從定位點開始,前后遍歷并獲取頁面數據。

5.  根據權利要求1所述的漢老雙語平行語料自動采集的系統,其特征在于,所述自動提取模塊的網絡雙語平行語料提取原則:
a. 規定訪問的頁面文件類型只能為“html”、“htm”、“shtml”以及常見的頁面文件類型,對非規定類型的頁面將不進行訪問;
b. 訪問目標網頁前,網絡檢查目標網站的robots.txt文件,若目標頁面存在于robots.txt文件上,將不對該目標網頁進行訪問;
c. 要多抽取完整雙語數據,在抽取過程中,包含在目標語言數據里的html標簽頁將視為抽取對象。

6.  根據權利要求1所述的漢老雙語平行語料自動采集的系統,其特征在于,所述自動提取模塊的工作流程主要包含以下幾個步驟:
 (1) 非目標語言信息過濾:分別對采集到的漢老數據進行字符過濾,主要過濾html標簽、網頁代碼和一些非語言符號,去除采集信息中的噪音數據,得到干凈的漢老雙語平行數據;
 (2) 漢老分詞過程:使用漢語和老撾語分詞工具,對漢語和老撾語數據進行分詞操作,為后面的數據處理過程提供基礎。

7.  根據權利要求1所述的漢菲雙語平行語料自動采集的系統,其特征在于,所述自動整理模塊的工作流程主要包含以下幾個步驟:
(1) 長度比和互譯匹配率計算:針對自動抽取的數據進行有效過濾,分別對抽取回來的漢菲雙語平行數據中的每一組雙語數據進行長度比和互譯匹配率的計算,將長度差距較大的數據進行過濾,并進行漢菲雙語平行數據的互譯匹配判斷,篩選出正確的平行數據;
(2)將經過處理后的漢菲雙語平行數據將存放入漢菲雙語平行語料庫。

8.  根據權利要求1所述的漢菲雙語平行語料自動采集的系統,其特征在于,所述漢菲雙語平行語料自動采集系統的實現方法為:設置數據采集服務器、數據處理服務器、數據存儲服務器和外網交換機、內網交換機,將自動發現模塊嵌入數據采集服務器,自動提取模塊、自動整理模塊嵌入數據處理服務器;
數據采集人員將數據采集服務器與外網交換機連接,使數據采集服務器能訪問到互聯網服務,數據采集人員使用外網臺式計算機編排需要采集數據的相關關鍵詞組,確定采集任務后,向數據采集服務器發送啟動自動采集請求,數據采集服務器接收臺式電腦傳輸的關鍵詞組數據和任務啟動命令后,開始運行數據自動發現程序,通過互聯網獲取所有關鍵詞組的搜索結果后,將搜索結果保存到本地;數據采集人員將數據采集服務器與外網交換機斷開連接,并與內網交換機連接;
數據采集人員啟動數據處理服務器中的數據自動提取和自動整理程序,數據處理服務器讀取存儲在數據采集服務器中的搜索結果,進行數據自動提取和自動整理,程序完成工作后,將獲取到的所有的雙語數據保存于數據存儲服務器。

說明書

說明書漢老雙語平行語料自動采集的系統及實現方法
技術領域
本發明涉及計算機應用技術領域,尤其是涉及一種漢老雙語平行語料自動采集的系統及實現方法。
背景技術
“平行語料”(Parallel Texts)是指使用不同語言撰寫、相互間具有“翻譯關系”的文本。在計算語言學界,它有別于“對比語料”(Comparable Texts),后者也使用不同的語言撰寫、并且針對同一主題,但相互之間卻不存在直接的“翻譯關系”。
人類歷史上曾有過各式各樣的平行語料。埃及出土的羅塞塔石碑,其碑文用兩種語言、三種文字刻成,是頗具盛名的古代的平行語料。通過比較石碑上的文字,法國古代語學者商博良解讀了古埃及的象形文字。此外,用不同語言對照書寫的契約協議、宗教經典、文學作品也在不同的時期和不同的領域影響著人們的生活。20世紀50年代末,平行語料開始出現在機器翻譯研究中。由于當時計算機的存儲空間和計算能力有限,而大量文本數據的輸入又相當困難,平行語料庫的作用并沒有得到太多的關注。70年代末期,翻譯資源的收集工作在 Xerox PARC 、Brigham Young 等研究中心廣泛地開展起來。1987年,Martin Kay 和 Martin Roscheisen 提出了最早的平行語料自動對齊算法。之后各種對齊方法層出不窮,對齊后的平行語料也被系統地應用到自然語言處理中,包括建立翻譯記憶、編纂詞典和雙語術語表、跨語言信息檢索、計算機輔助教學、語言對比研究等。
語料庫的建設是統計學習方法的重要基礎,近年來,語料庫資源對于自然語言處理研究的巨大價值已經得到越來越多的認可。特別是雙語語料庫(Bilingual Corpus),已經成為機器翻譯、機器輔助翻譯以及翻譯知識獲取研究不可或缺的重要資源。一方面,雙語語料庫的出現直接推動了機器翻譯新技術的發展,像平行語料庫為統計機器翻譯的模型構建提供了必不可少的訓練數據(e.g.,Brown et al.1990; Melamed 2000; Och and Ney 2002),基于統計(Statistic-Based)和基于實例(Example-Based)等基于語料庫的翻譯方法為機器翻譯研究提供了新的思路,有效改善了翻譯質量,在機器翻譯研究領域掀起了新的高潮。另一方面,雙語語料庫又是獲取翻譯知識的重要來源,從中可以挖掘學習各種細粒度的翻譯知識,如翻譯詞典(e.g., Gale and Church 1991; Melamed 1997)和翻譯模板,從而改進傳統的機器翻譯技術。此外,雙語語料庫也是跨語言信息檢索(e.g., Davis and Dunning 1995; Jian-Yun Nie, TREC8;),翻譯詞典編撰、雙語術語自動提取以及多語言對比研究等的重要基礎資源。  雙語平行語料庫建設與獲取存在著很大的困難,各國都投入了大量的人力、物力和財力,但是雙語平行語料庫的來源主要集中在政府報告、新聞法律等特定領域,不適合真實文本應用。同時,互聯網上的大規模雙語文本并且具有很好的時效性和覆蓋性,這為雙語平行語料庫的獲取提供了潛在的解決途徑。  
加拿大蒙特利爾大學的研究者聶建云開發的系統PT Miner(Parallel Text Miner,1999):通過搜索引擎查找含有特定錨文本的網站構成雙語候選網站,再依賴預先定義的語言的前后綴表,抽取出具有URL命名相似性的候選網頁即如果某一URL含有一種語言的前后綴,則將這些前后綴替換為另一種語言的,構建出一個URL,如果這樣構建出來的URL存在。則找到了一對候選網頁對,最后再根據文本長度,網頁的HTML標記結構,網頁的語言等特征過濾掉候選網頁中不平行的網頁對。PT Miner系統在中英平行網頁文本挑出幾百對的中英平行網頁對,經過人工的評價,有將近90%的準確率。獲取到的英文文本有137M,中文文本有117M。
美國馬里蘭大學的研究者Resnik開發的系統STRAND(Structural Translation Recognition, Acquiring Natural Data,2003)也是利用搜索引擎和定義的挑選候選網站的規則來得到雙語候選網站。同PT Miner相比,STRAND再利用URL命名相似性來查找一個網站內的候選網頁對時,采取在中、英URL中刪去預先定義與語言相關的字符串的方式,如果去除語言相關的字串后,中、英URL相等,則說明當前的中英URL是一對候選雙語平行網頁。此外,STRAND更加細致深入的研究了平行網頁在結構上具有的相似性,采用了更多的基于網頁結構的特征來過濾掉候選平行網頁中不是互為翻譯的網頁對。人工評估了大約400對的中英平行網頁對,取得了98%的準確率和61%的召回率。STRAND系統獲取到大約3,500對中英平行網頁對。  BITS(Bilingual Internet Text Search, Ma and Liberman 1999),下載指定域名下的所有網站作為候選網站,定義了一種計算中英網頁內容之間相似度的計算方式即互翻譯詞占文本總詞數的比例,來進行中英平行網頁對的確定。  澳大利亞莫納什大學陳紀淞等人開發的PTI(The Parallel Text Identification System,2004)通過網頁采集器下載了大量的雙語網頁之后,首先通過了文件名比較模型即根據URL命名的相似性來得到雙語平行網頁對,原理同PT Miner,在這一過程沒有相應對齊鏈接的網頁再通過一個文件內容分析模型,定義了計算網頁文本內容之間的相似度計算方式,從而得到雙語平行的網頁對。PTI系統總共獲取到193對的中英平行文本,其中180對是正確的,正確率為93%,召回率為96%。
亞洲微軟研究院的吳克等人開發的WPDE(Web Parallel Data Extraction,2006)在利用搜索引擎獲取候選網站時,不僅利用了錨文本還采用了圖片的ALT信息。在根據URL命名相似性獲取候選雙語平行網頁對時,采用將URL分成pathname和basename,pathname的配對查找上也利用預先定義的啟發式字符串,在具體的查找時定義了一些匹配規則;basename的查找配對不用于前面系統采用的基于預先定義的字符串形式,而是基于改進的最小編輯距離算法,這樣的方式經過試驗證明取得了更好的效果。候選雙語平行網頁對的過濾時除采用了文本長度,網頁html結構等特征,還引入了一個基于網頁內容的特征即候選雙語平行網頁文本句子對齊的好壞。在同PTI同樣的測試集合上,WPDE系統取得了97%的正確率與94%的召回率。
隨著網絡信息時代的高速發展,網絡資源正以爆炸式的方式不斷增長。互聯網是現代信息的重要來源,人們可以通過互聯網得到大量的信息資源,但互聯網中混雜著大量各式各樣的數據,如何從互聯網中的海量信息中提取有價值的雙語數據,是目前數據采集人員和相關企業所面臨的重要問題。研究基于Web的大規模雙語平行語料庫獲取技術對于解決雙語語料庫獲取難題,推動相關技術發展和實用化具有重要的意義。目前,針對漢老雙語平行語料的語料采集工具和方法還非常欠缺,能進行自動采集的就更寥寥無幾。所以現急需一種能自動采集漢老雙語平行語料的方法來解放語料采集人員繁瑣的采集工作和為企業提供有價值的語料資源。
發明內容
針對現有技術的不足,本發明提供一種漢老雙語平行語料自動采集的系統及實現方法,建立了一個基于Web的雙語語料自動獲取系統,從互聯網中自動采集網絡漢老雙語平行語料,能夠自動獲取文本級漢老雙語平行語料庫和句子級的漢老雙語平行語料庫,實現了漢老雙語平行信息自動發現、自動提取、自動整理的雙語平行語料采集系統。
本發明是采用以下技術方案實現的:
一種漢老雙語平行語料自動采集的系統,包括漢老雙語平行信息的自動發現模塊、自動提取模塊、自動整理模塊,其中:
(1)自動發現模塊:實現漢菲雙語平行語料自動發現的功能,制定需要采集語料的關鍵詞組,通過搜索引擎搜索網站,采集網頁得到搜索結果,對搜索結果的信息進行過濾和篩選后,將經過濾得搜索結果存儲于搜索結果數據庫;
(2)自動提取模塊:實現漢菲雙語平行語料自動提取的功能,通過訪問搜索結果數據庫里的網頁,自動提取漢老雙語平行信息;
(3)自動整理模塊:針對自動提取的漢老雙語平行信息,進行數據過濾,并將經過過濾處理后的漢老雙語平行數據存放到漢老雙語平行語料庫。
所述自動發現模塊的漢老雙語平行語料自動發現工作流程為:制定一組或多組漢老互譯關鍵詞組,通過搜索引擎獲取搜索結果,分析搜索結果并以之為目標進行數據獲取。
所述自動發現模塊的漢老雙語平行語料自動發現設計原則為:
a. 所選關鍵詞組應為特定領域范圍內的漢老互譯詞組對;
b. 使用的第三方搜索引擎工具為開放式提供搜索服務方;
c. 通過關鍵詞組搜索得到結果后,只保存前n頁信息,n與所選關鍵詞的熱門程度關聯,保存內容包括搜素結果URL地址、搜索結果標題和搜索結果摘要。
所述自動提取模塊的雙語平行語料自動提取工作流程為:使用網頁機器人對目標網頁進行訪問,使用對應的漢老互譯關鍵詞組對目標頁面內容進行內容定位,從定位點開始,前后遍歷并獲取頁面數據。
所述自動提取模塊的網絡雙語平行語料提取原則:
a. 規定訪問的頁面文件類型只能為“html”、“htm”、“shtml”以及常見的頁面文件類型,對非規定類型的頁面將不進行訪問;
b. 訪問目標網頁前,網絡檢查目標網站的robots.txt文件,若目標頁面存在于robots.txt文件上,將不對該目標網頁進行訪問;
c. 要多抽取完整雙語數據,在抽取過程中,包含在目標語言數據里的html標簽頁將視為抽取對象。
所述自動提取模塊的工作流程主要包含以下幾個步驟:
 (1) 非目標語言信息過濾:分別對采集到的漢老數據進行字符過濾,主要過濾html標簽、網頁代碼和一些非語言符號,去除采集信息中的噪音數據,得到干凈的漢老雙語平行數據;
 (2) 漢老分詞過程:使用漢語和老撾語分詞工具,對漢語和老撾語數據進行分詞操作,為后面的數據處理過程提供基礎;
所述自動整理模塊的工作流程主要包含以下幾個步驟:
(1) 長度比和互譯匹配率計算:針對自動抽取的數據進行有效過濾,分別對抽取回來的漢菲雙語平行數據中的每一組雙語數據進行長度比和互譯匹配率的計算,將長度差距較大的數據進行過濾,并進行漢菲雙語平行數據的互譯匹配判斷,篩選出正確的平行數據;
(2)將經過處理后的漢菲雙語平行數據將存放入漢菲雙語平行語料庫。
所述漢菲雙語平行語料自動采集系統的實現方法為:設置數據采集服務器、數據處理服務器、數據存儲服務器和外網交換機、內網交換機,將自動發現模塊嵌入數據采集服務器,自動提取模塊、自動整理模塊嵌入數據處理服務器,為保證數據安全,使用內外網物理隔離。當數據采集服務器需要訪問互聯網時,數據采集服務器將與外網交換機連接,并斷開與內網交換機的連接。當數據采集服務器需要訪問內網時,數據采集服務器將與內網交換機連接,并斷開與外網交換機的連接。外網交換機實現外網間的通訊。內網交換機實現內網間的通訊。
數據采集人員將數據采集服務器與外網交換機連接,使數據采集服務器能訪問到互聯網服務。數據采集人員使用外網臺式計算機編排需要采集數據的相關關鍵詞組。確定采集任務后,向數據采集服務器發送啟動自動采集請求;數據采集服務器接收臺式電腦傳輸的關鍵詞組數據和任務啟動命令后,開始運行數據自動發現程序。通過互聯網獲取所有關鍵詞組的搜索結果后,將搜索結果保存到本地;數據采集人員將數據采集服務器與外網交換機斷開連接,并與內網交換機連接。數據采集人員啟動數據處理服務器中的數據自動提取和自動整理程序,數據處理服務器讀取存儲在數據采集服務器中的搜索結果,進行數據自動提取和自動整理。程序完成工作后,將獲取到的所有的雙語數據保存于數據存儲服務器。
本文的漢老雙語是指漢語和老撾語。
漢語(Hànyǔ)又稱“華語”,是漢族的母語,亦是中華人民共和國和新加坡的官方語言、聯合國官方語言,也是世界上使用人數最多的語言,主要流通于中國、新加坡、馬來西亞,以及緬甸、泰國、美國、加拿大、澳大利亞、新西蘭、日本等國家的海外華人社區。也是馬來西亞、緬甸、美國、加拿大、澳洲、新西蘭等國家的通用少數民族語言。
老撾語是老撾的官方語言。使用人口約500萬。除分布于老撾外,也分布于泰國東北部和北部老撾族居住地區。老撾語屬漢藏語系壯侗語族侗臺語支。老撾文和泰文在外觀上十分相似,兩種語言在口語上基本能互相溝通。老撾文是在梵文和巴利文的基礎上逐漸演變而來的。泰國、越南和柬埔寨的泰族,緬甸的撣族,中國的傣族也粗通老撾語。
 本發明的突出的實質性特點和顯著的進步是:
1、本發明提供的一種漢老雙語平行語料自動采集的系統及實現方法,充分利用網頁漢老雙語平行語料自動發現技術、網頁漢老雙語平行語料自動提取技術和網頁漢老雙語平行語料過濾技術,形成漢老雙語平行語料的自動采集的系統;
2、本發明使用的方案能從海量的互聯網信息中收集有價值的漢老雙語平行語料并進行分析研究,為漢老語言研究和機器翻譯應用提供重要基礎數據,解決了語料采集人員和研究人員所面臨的數據來源的問題,為雙語語料自動采集的發展和漢老自然語言處理做出了杰出的貢獻;
3、平行語料庫是語料庫的一種重要類型,漢老平行語料庫的建設目前還是空白,本發明的一種漢老雙語平行語料自動采集的系統及實現方法,其中包括漢老雙語平行信息自動發現、自動提取和自動整理,可以在語言對比、翻譯研究、語言教學和詞典編纂方面發揮獨特作用;
4、應用本發明所提供的方案,能夠獲取兩種語言之間的平行語料,從而解決語言之間語料資源稀缺的問題,并且有利于獲得較高質量的翻譯規則以構建統計機器翻譯系統;
5、在翻譯課教學中,利用本發明的平行語料庫,可以提供豐富的譯例,確定多種譯文的可能性,并擇優選擇,根據平行語料庫信息還可以用來驗證雙語詞典、教學詞典、語法書中的例證、定義、使用規則和使用環境,從而確定教學重點;
6、漢老雙語平行語料庫建設與獲取存在著很大的困難,雖然投入了大量的人力、物力和財力,但是漢老雙語平行語料庫的來源主要集中在政府報告、新聞法律等特定領域,不適合真實文本應用,鑒于互聯網上的大規模雙語文本并且具有很好的時效性和覆蓋性,本發明使用的系統和方法能從海量的互聯網信息中收集有價值的漢老雙語平行語料并進行分析研究,并建成漢老雙語平行語料庫,推動相關技術發展和實用化具有重要的意義;
7、利用本發明的系統收集到相關的雙語數據與旅游景點、博物館、科技展覽館等的電子導覽設備連接,能夠把景區和陳列展示的物品圖文并茂的用雙語對照的形式表現出來,使游客在邊看邊聽中,汲取知識,了解內涵,享受文化,游客們可以充分了解觀賞對象深厚的文化底蘊,同時,景點、展品的豐富內涵在對照瀏覽后得到升華。
附圖說明
圖1是本發明漢老雙語平行語料自動采集的系統及實現方法的系統結構圖;
圖2是本發明漢老雙語平行語料自動采集的方法的流程圖;
圖3是本發明漢老雙語平行語料過濾的方法的流程圖。
圖4是作為本發明的實施例中所采用的信息處理設備的個人計算機的示例性結構的框圖;
圖5是本發明系統的網絡拓撲結構圖。
具體實施方式  
在下面的說明書部分中給出本發明實施例的具體實現方式,其中,詳細說明用于充分地公開本發明實施例的優選實施例,而不對其施加限定。
如圖1所示,一種漢老雙語平行語料自動采集的系統,包括漢老雙語平行信息的自動發現、自動提取、自動整理,首先是漢老雙語平行數據自動發現過程,制定需要采集語料的關鍵詞組,通過搜索引擎搜索網站,采集網頁得到搜索結果,對搜索結果的信息進行過濾和篩選后,將經過濾得搜索結果存儲于搜索結果數據庫;其次是漢老雙語平行語料自動提取過程,通過訪問搜索結果數據庫里的網頁,自動提取漢老雙語平行信息;最后是漢老雙語平行語料自動整理過程,針對自動提取的漢老雙語平行信息,進行數據過濾,并將經過過濾處理后的漢老雙語平行數據存放到漢老雙語平行語料庫。
如圖2所示,本發明漢老雙語平行語料自動采集的方法,包括以下步驟:
網頁漢老雙語平行語料自動發現技術:
首先制定需要采集語料的相關關鍵詞組。這里的關鍵詞組為漢老互譯詞組對,例如:“玉米  ????”。以關鍵詞組為起點,通過搜索引擎得到相關搜索結果。
然后進對搜索結果進行過濾。主要是為了通過對搜索結果的信息進行過濾和篩選,提高采集效率和質量,降低采集成本。具體做法如下    :
通過URL地址、標題和摘要的對比,判斷是否為重復的搜索結果信息。如判斷為重復信息,將進行過濾。
通過URL地址分析網頁的文件形式,將不屬于常見網頁文件類型的URL地址去除。只保存常見網頁文件類型的URL地址,如“html”、“htm”、“shtml”、“jsp”、“php”等常見網頁文件類型。
通過關鍵詞組和摘要的分析進行過濾。主要通過關鍵詞定位摘要信息,通過泰文信息和中文信息的長度比進行過濾,去除單個互譯詞組對的情況。
最后,將經過濾得搜索結果(包括關鍵詞組、URL地址、標題和摘要)存儲于搜索結果數據庫。
網頁漢老雙語平行語料自動提取技術:
通過訪問搜索結果數據庫里的網頁,自動提取雙語信息。具體實現如下:
首先,從搜索結果數據庫中獲得新加入的待訪問的URL地址隊列。從URL地址隊列中取出一個待訪問的URL地址。系統檢測目標網站上是否存在robot.txt文件,且該目標URL地址是否存在于robot.txt文件中。若該URL地址不允許訪問,系統跳過該URL地址,取出下一個待訪問的URL地址。若該URL地址允許訪問,系統開始訪問并解析該URL地址的網頁。
通過解析網頁,系統開始自動提取頁面的漢老雙語平行數據。具體步驟如下:
1.漢老雙語數據粗提取:
 (1)將整個頁面內容讀取成一個字符串S。
 (2)將S分解成兩個字符串s1,s2。s1保存S中所有的老撾語數據。s2保存S中所有的中文數據。
 (3)所有被保存的中文和泰文數據要求保留原本在頁面上的排列順序。并保留所有泰文數據間和中文數據間的HTML標簽和語言信息字符,包括標點、數字、特殊符號等(暫不考慮摻雜的英文信息)。
2.HTML標簽替換:
將s1,s2里的所有HTML標簽統一替換為一個間隔標記<T>。
3.漢老雙語平行數據抽取:
 (1)對s1進行老撾語分句,得到字符串數組st1[m]。對s2進行中文分句,得到字符串數組st2[n]。這里的m和n分別表示老撾語句子總數和中文句子總數。
 (2)清除st1[m]和st2[n]里的所有間隔標記<T>。
 (3)對st1[m]里的所有字符串進行老撾語分詞。對st2[n]里的所有字符串進行中文分詞。
 (4)過濾掉st1[m]和st2[n]里面只有單個詞組成的句子。
 (5)雙語平行句對自動匹配方法:
a.從st1[m]中取出一個已分詞的老撾語句子s_th。
b.利用漢老互譯詞典將s_th里每個老撾語詞組翻譯成中文。得到句子s_th_ch。
c.從s_th_ch中取出一個中文詞組,在st2[n]里尋找存在該中文詞組的所有句子,得到st2[n']。若st2[n]中不存在含有該中文詞組的句子,則從s_th_ch中取出下一個中文詞組。繼續在st2[n]里尋找存在該中文詞組的所有句子。若n'> 1;則從s_th_ch中取出下一個詞,繼續在st2[n']里尋找存在該中文詞組的所有句子。循環這一步,直到n' = 1或者s_th_ch中的詞已經遍歷完。若n' = 1,也就是st2[n']里只存在一個句子。那么,我們將st2[n']里的這一個句子視為該s_th對應的最佳漢語平行句子s_ch。若s_th_ch中的詞已經遍歷完畢,且n' > 1;則取st2[n']里字符串長度最小的句子作為該s_th對應的最佳漢語平行句子s_ch。
d.將s_th和s_ch作為一個漢老雙語平行句對保存,并將s_th和s_ch分別在st1[m]和st2[n]中去除。
e.若取出的s_th沒找到對應的s_ch,則st1[m]取下一個已分詞的老撾語句子。重復上述步驟。直至將遍歷完st1[m]。
f.遍歷完st1[m]后,若m > 1,且n > 1,說明可能還存在未匹配的漢老雙語平行句對,則根據上述步驟,反過來從st2[n]去st1[m]中尋找最佳老撾語平行句子。
從URL地址隊列中取出下一個待訪問URL地址,重復上述步驟,直至提取完成所有待訪問URL地址的漢老雙語平行語料數據。所有自動提取的漢老雙語平行句對組成待過濾漢老雙語平行數據隊列。
漢老雙語平行數據過濾技術:針對自動提取的漢老雙語平行信息,進行數據過濾。其在很大程度上提高采集信息的質量。
如圖3所示,網頁漢老雙語平行語料過濾的方法,包括以下內容:
信息去噪:為保證數據純凈,再次對采集到數據中的非語言信息進行過濾。包括HTML標簽和非語言字符。
采集信息對比過濾:針對已去噪的漢老雙語平行信息進行過濾。對每一組漢老雙語平行信息進行以下操作:
首先進行長度比過濾。分別對老撾語信息和中文信息進行分詞操作。統計得出老撾語信息詞組數為a,中文信息詞組數位b,設定最小長度比μ和最大長度比λ,設定當a / b > λ或b / a > λ或a / b < μ或b / a < μ時,視為無價值漢老雙語平行數據信息,并將該組信息過濾。
然后,對于符合長度比要求的漢老雙語平行信息進行匹配率過濾。已分詞的中文信息中存在M個詞組,從中抽取出m個詞組,通過漢老詞典將這m個詞組翻譯成對應的m個老撾語詞組。這m個老撾語詞組在已分詞的老撾語信息中存在n個能與之完全匹配的詞組。那么p(cn|th) = m2/(n*M),我們視p(cn|th)為中文信息對應泰文信息的匹配率。同理,p(th|cn)為泰文信息對應中文信息的匹配率。那么,我們規定采集的一組雙語平行信息的匹配率為p = (p(th|cn)+ p(cn|th)) / 2。根據對每一組雙語平行信息進行匹配率計算,設置最小匹配率ρ,當p < ρ時,對該組雙語平行信息進行過濾處理。
最后,根據漢老雙語平行語料庫對采集到的漢老雙語平行信息進行查重過濾。經過處理后的漢老雙語平行數據將存放入漢老雙語平行語料庫。
應用實施例1:
如圖4所示,CPU、ROM和RAM經由總線彼此連接。輸入/ 輸出接口也連接到總線;輸入系統、輸出系統、存儲系統、通信系統和驅動系統連接到輸入/ 輸出接口;輸入系統,包括鍵盤、鼠標等;輸出系統,包括顯示器、揚聲器等;存儲系統,包括硬盤等;通信系統,包括網絡接口卡比如LAN卡、調制解調器等,通信系統經由網絡比如因特網執行通信處理;根據需要,驅動系統也連接到輸入/ 輸出接口;移動儲存介質比如磁盤、光盤、磁光盤、USB閃存盤等根據需要連接到驅動系統上,使得從中讀出的計算機程序根據需要存儲到移動儲存介質上。
中央處理單元(CPU)根據只讀存儲器(ROM)中存儲的程序或從存儲部分加載到隨機存取存儲器(RAM)的程序執行各種處理。在RAM中,也根據需要存儲當CPU執行各種處理等等時所需的數據。
本發明的指令代碼可由以上載體讀取并執行時。
應用實施例2:
如圖5所示,對網絡拓撲結構圖進行簡要說明:
節點說明
交換機X:外網交換機
交換機Y:內網交換機
服務器A:數據采集服務器(嵌入自動發現模塊)
服務器B:數據處理服務器(嵌入自動提取模塊、自動整理模塊)
服務器C:數據存儲服務器
網絡通信
為保證數據安全,使用內外網物理隔離,服務器經過防火墻和路由器與Internet連接。當需要服務器A需要訪問互聯網時,服務器A將與交換機X連接,并斷開與交換機Y的連接。當服務器A需要訪問內網時,服務器A將與交換機Y連接,并斷開與交換機X的連接。
交換機X實現外網間的通訊。
交換機Y實現內網間的通訊。
其工作過程如下:
(1)數據采集人員將服務器A與交換機X連接,使服務器A能訪問到互聯網服務。數據采集人員使用外網臺式計算機編排需要采集數據的相關關鍵詞組。確定采集任務后,向服務器A發送啟動自動采集請求。
(2)服務器A接收臺式電腦傳輸的關鍵詞組數據和任務啟動命令后,開始運行數據自動發現程序。通過互聯網獲取所有關鍵詞組的搜索結果后,將搜索結果保存到本地。
(3)數據采集人員將服務器A與交換機X斷開連接,并與交換機Y連接。數據采集人員啟動服務器B中的數據自動提取和自動整理程序,服務器B讀取存儲在服務器A中的搜索結果,進行數據自動提取和自動整理。程序完成工作后,將獲取到的所有的雙語數據保存于服務器C。
應用實施例3:
瑯勃拉邦是老撾現存的最古老的一個城鎮,也是著名的觀光旅游地,中國每年都有許多人去觀光游覽,由于當地講解人員有限,特別是漢語講解,很難為每位游客提供規范如一的講解服務,于是在一些比較著名的景點設置電子導游機系統,使用本發明的系統收集到相關的雙語數據,可以把景區和陳列展示的物品圖文并茂的用漢老雙語對照的形式表現出來,使觀眾在邊看邊聽中,汲取知識,了解內涵,享受文化。游客們可以充分了解觀賞對象深厚的文化底蘊。睹物思情、浮想聯翩,景點、展品的豐富內涵在對照瀏覽后得到升華。
應用實施例4:
萬象是老撾的首都和經濟中心,該城市的博物館、科技館、會展中心等室內展館內,用電子導覽系統取代了人工導游以及因噪音大而影響它人游覽的高音喇叭,該系統與本發明的系統聯網,通過漢老雙語對照的形式對陳列展品的內容以圖文并茂的方式展現給游客,使游客在觀賞展品的過程中使其內涵得以延伸,更加生動。游客在充分欣賞了展品的外觀表象后,又獲得了豐富的知識。除此以外,游客還可以通過觸摸屏上的按鈕,查詢展區的位置及路徑,自由地享受自助游覽的樂趣。
以上所述,僅為本發明的具體實施方式,但本發明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到的變化或替換,都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應該以權利要求的保護范圍為準。

關 鍵 詞:
雙語 平行 語料 自動 采集 系統 實現 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:漢老雙語平行語料自動采集的系統及實現方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6353714.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图