• / 12
  • 下載費用:30 金幣  

一種知識的檢索方法.pdf

摘要
申請專利號:

CN201510284563.2

申請日:

2015.05.28

公開號:

CN104915396A

公開日:

2015.09.16

當前法律狀態:

撤回

有效性:

無權

法律詳情: 發明專利申請公布后的視為撤回IPC(主分類):G06F 17/30申請公布日:20150916|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150528|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 杭州電子科技大學
發明人: 蘇少輝; 李鵬飛; 徐匡; 黃成毅; 曾垂遠; 吳凡超
地址: 310018浙江省杭州市下沙高教園區2號大街
優先權:
專利代理機構: 浙江杭州金通專利事務所有限公司33100 代理人: 王佳健
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510284563.2

授權公告號:

||||||

法律狀態公告日:

2018.08.28|||2015.10.14|||2015.09.16

法律狀態類型:

發明專利申請公布后的視為撤回|||實質審查的生效|||公開

摘要

本發明公開了一種知識的檢索方法。本發明認為檢索的匹配性高必須較全面表達知識的結構和語義,綜合語義距離和語義屬性計算相似性,為此,提出了基于本體的知識表示流程和基于本體的知識檢索模型以及算法。本發明通過將提出的基于本體的檢索算法配合應用在所提出的檢索模型中,針對概念的語義距離和概念屬性進行相似性計算,使得出的結果更加接近用戶需求,挺高了檢索的效率和知識的重用。

權利要求書

權利要求書
1.  一種知識的檢索方法,該檢索方法基于的檢索模型分為三個層次:人機交互層、資源層和檢索匹配層,在檢索過程中需要本體庫的支撐;
所述的人機交互層主要實現用戶與計算機之間的語言交流;用戶輸入需要查詢的內容到用戶界面上,計算機發出檢索請求;用戶的檢索請求多種多樣,為了使計算機能夠準確識別,需要根據本體庫的知識分析用戶的真實檢索意圖,進而使檢索請求標準化,進一步轉向檢索匹配層進行檢索請求的預處理;人機交互層面上還有一個功能就是對檢索結果的處理,合成用戶所需要的檢索結果;
所述資源層主要是收集知識源;通過本體庫中的相關知識對收集的知識有一個語義上的分析和標注,因此可以建立相應的索引信息放入索引庫內,并且已標注的知識能夠補充和完善本體庫;在模型中運行過程是將本體庫中的相關知識應用到檢索請求分析和檢索請求預處理,對檢索內容的語義標注和檢索內容的語義擴展,對檢索內容和索引庫的匹配,以及對檢索結果的排序、再處理和合成;
所述檢索匹配層是整個檢索流程的關鍵;首先對檢索請求進行預處理,使檢索請求信息規范化和標準化;然后通過本體知識對檢索內容進行語義標注,使計算機能夠充分識別檢索內容,并且在本體知識的作用下對已標注的語句進行語義上同義詞或近義詞的擴展;進而根據本體庫中的相關知識對檢索內容進行相應的語法匹配和語義匹配;最后根據相關程度對檢索結果進行排序處理,將檢索結果呈現給用戶;
其特征在于該方法包括以下步驟:
步驟1.用戶輸入所需要檢索的請求,系統提取檢索請求概念,并將這些概念設定為一個用戶概念集,定義這個用戶概念集為A,其中A={A1,A2,A3,…,An},并按概念的權值由高到低的順序進行排序;
步驟2.利用本體映射概念將用戶概念集A映射為過渡概念集a={a1,a2,a3,…,an},其映射關系如下表所示,并將過渡概念集a整理后得到對應的本體概念集B={B1,B2,B3,…,Bn},整理得到的映射后相對應的概念的權值不變;

步驟3.將本體概念集B中的每一個概念Bi按權值的高低進行語義相似度計算,計算在知識本體中語義相似度Sim(ci,ck)≥λ(i,k∈(1,n),λ為相似度閾值)的概念,其中得到新的檢索需求概念空間,把它稱為本體核心概念集,記為C={C1,C2,C3,…,CK},其中(1,k)∈(1,n);
其中的基于語義距離相似度Sim(ci,ck)計算公式為:
Sim(ci,ck)=[w×(dl(ci)+dl(ck))][max(Dist(ci,ck),w)×2×maxdl×max(|dl(ci)-dl(ck)|,1)]]]>
其中,dl(ci)和dl(ck)分別是概念ci、ck在領域本體中所處的層次;Dist(ci,ck)是本體樹型中概念ci、ck之間的最小路徑;maxdl是指本體樹型中深度最大值;w是一個權值,w≥0;
步驟4.將本體核心概念集C與知識庫進行語義匹配,進行基于屬性相似度計算,計算相似度Sim(cj,cl)≥θ(j,l∈(1,k),θ為相似度閾值)的概念,得到知識解集D,記D={D1,D2,D3,…,Di},其中(1,i)∈(1,k);
其中的基于屬性相似度Sim(ci,ck)計算公式為:
Sim(cj,cl)=Count(Attr(cj)Attr(cl))Count(Attr(cj)Attr(cl))]]>
其中,Attr(cj)和Attr(cl)分別表示概念cj、cl的屬性集,Attr(cj)∩Attr(cl)表示兩概念集具有相同屬性的集合,Attr(cj)∪Attr(cl)表示兩概念所有屬性的集合,Count()表示相應集合中屬性的數量;
步驟5.對得出的知識解集進行相應的條件判定,如果不為空集,那么再計算用戶概念集B和知識解集D的綜合相似度;如果為空集,那么就重新回到本體映射概念,并且增大相似度的范圍,使得可能性更大;根據整體相似度的計算結果大小將匹配成功的知識從高到低依次排列出來,并呈現在系統界面上;
其中綜合相似度Sim(cx,cy)計算公式為:
Sim(cx,cy)=α×Sim(ci,ck)+β×Sim(cj,cl)
其中,相似度Sim(ci,ck)和Sim(cj,cl)分別代表基于語義相似度值和基于屬性相似度值;α和β是相似度權重,α+β=1,概念集范圍x,y∈(1,i)。

說明書

說明書一種知識的檢索方法
技術領域
本發明屬于計算機應用數據處理領域,尤其涉及一種知識的檢索方法。
背景技術
在設計、制造過程中,為了滿足客戶對知識的高效檢索要求,知識的檢索時間應該縮短和知識重用性應當變高。因此,必須要合理的重用已有的制造信息和開發一種能夠高效搜索的檢索模型,通過信息重用和高效檢索方法來縮短設計周期、降低設計成本、保證設計質量。在重用千斤頂設計信息過程中,相似性檢索方法起著十分關鍵的作用,檢索機制由檢索標準或算法來體現,目的是通過檢索手段盡快、盡可能準確地搜索到與當前產品設計知識相似的實例。現有檢索算法都是從語義距離或者語義屬性方面考慮。
發明內容
本發明針對現有技術的不足,提供了一種知識的檢索方法。
對于一個高效的檢索模型,其關鍵技術主要體現在檢索算法。也就是說檢索算法直接影響檢索模型的高效性。
知識檢索模型可以通過特定的工具對自然語言進行相應的請求分析、語義理解和標注、檢索結果匹配等功能,而且具有一定的流程方向約束。此處提出了基于本體的機械領域知識檢索模型。檢索模型分為3個層次:人機交互層、資源層和檢索匹配層,在檢索過程中需要本體庫(本體技術)的支撐。
1-1人機交互層主要實現用戶與計算機之間的語言交流。用戶輸入需要查詢的內容到用戶界面上,計算機發出檢索請求。用戶的檢索請求多種多樣,為了使計算機能夠準確識別,需要根據本體知識庫的知識分析用戶的真實檢索意圖,進而使檢索請求標準化,進一步轉向檢索匹配層進行檢索請求的預處理。人機交互層面上還有一個功能就是對檢索結果的處理,合成用戶所需要的檢索結果。
1-2資源層主要是收集知識源。通過本體中的相關知識對收集的知識有一個語義上的分析和標注,因此可以建立相應的索引信息放入索引庫內,并且已標注的知識能夠補充和完善本體庫。在模型中運行過程是將本體庫中的相關知 識應用到檢索請求分析和檢索請求預處理,對檢索內容的語義標注和檢索內容的語義擴展,對檢索內容和索引庫的匹配,以及對檢索結果的排序、再處理和合成。
1-3檢索匹配層是整個檢索流程的關鍵。首先對檢索請求進行預處理,使檢索請求信息規范化和標準化。然后通過本體知識對檢索內容進行語義標注,使計算機能夠充分識別檢索內容,并且在本體知識的作用下對已標注的語句進行語義上同義詞或近義詞的擴展。進而根據本體庫中的相關知識對檢索內容(語義標注的內容和語義擴展的內容)進行相應的語法匹配和語義匹配。最后根據相關程度對檢索結果進行排序處理,將檢索結果呈現給用戶。
1-4知識檢索過程中檢索的搜索算法是影響檢索的核心部分。檢索的搜索算法影響檢索的檢索效率,相似度的計算影響檢索的查準率和查全率。檢索算法在下面展開介紹。
2檢索算法步驟:
2-1用戶輸入所需要檢索的請求,系統提取檢索請求概念,并將這些概念設定為一個用戶概念集,定義這個用戶概念集為A,其中A={A1,A2,A3,…,An},并按概念的權值由高到低的順序進行排序。
2-2利用本體映射概念將用戶概念集A映射為過渡概念集a={a1,a2,a3,…,an},其映射關系如下表所示,并將過渡概念集a整理后得到對應的本體概念集B={B1,B2,B3,…,Bn},整理得到的映射后相對應的概念的權值不變。
表1用戶概念和過渡概念映射關系表

2-3將本體概念集B中的每一個概念Bi按權值的高低進行語義相似度計算,計算在知識本體中語義相似度Sim(ci,ck)≥λ(i,k∈(1,n),λ為相似度閾值)的概念,其中。得到新的檢索需求概念空間,把它稱為本體核心概念集,記為C={C1,C2,C3,…,CK},其中(1,k)∈(1,n)。
2-4將本體核心概念集C與知識庫進行語義匹配,進行基于屬性相似度計 算,計算相似度Sim(cj,cl)≥θ(j,l∈(1,k),θ為相似度閾值)的概念,得到知識解集D,記D={D1,D2,D3,…,Di},其中(1,i)∈(1,k)。
2-5對得出的知識解集進行相應的條件判定,如果不為空集,那么再計算用戶概念集B和知識解集D的綜合相似度;如果為空集,那么就重新回到本體映射概念,并且增大相似度的范圍,使得可能性更大。根據整體相似度的計算結果大小將匹配成功的知識從高到低依次排列出來,并呈現在系統界面上。
注:定義1:設定機械領域本體中的兩個概念cm、ch,其中m,h∈(1,n)。兩概念之間存在著一定的關系,其中比較常見的關系有同義關系、整體-部分關系、繼承關系等。
定義2:考慮概念間的關系類型。如果兩概念間的關系類型不同,則兩概念的語義相似度也就不同,相應地兩概念間的語義距離、權值也不同。本文設定權值越高,兩概念的語義相似度越高,語義距離越小。因此,將概念cm和概念cn間的權值與其類型的關系定義為:

定義3:設定本發明中相似度值在0和1之間。cm和ch是基于定義1的兩個概念集合,Sim(cm,ch)表示cm和ch之間的相似度。Sim(cm,ch)=1,表示概念cm和概念ch是相同的兩個概念;Sim(cm,ch)=0,表示概念cm和概念ch是兩個完全不同的概念。
整個檢索算法過程中涉及到以下三個不同計算式,分別是基于語義距離的相似度計算,基于屬性的相似度計算和綜合相似度計算。具體如下。
(1)基于語義距離相似度計算
根據基于本體的檢索模型通常是以樹型的上下位關系的結構形式,語義相似度采用的主要是基于距離的相似度計算方法。相似度算法式為
Sim(ci,ck)=[w×(dl(ci)+dl(ck))][max(Dist(ci,ck),w)×2×maxdl×max(|dl(ci)-dl(ck)|,1)]]]>
其中,dl(ci)和dl(ck)分別是概念ci、ck在領域本體中所處的層次;Dist(ci,ck)是本體樹型中概念ci、ck之間的最小路徑;maxdl是指本體樹型中深度最大值;w是一個權值,w≥0。
(2)基于屬性相似度計算
在產品知識表示中,屬性的表示是不可缺少的一部分,兩個產品擁有相同屬性越多,產品之間的相似度可能越高。因此,基于屬性特征的相似度通過兩個產品相同屬性的個數與兩個產品所有屬性的個數的比值來衡量,屬性特征的相似度計算式為
Sim(cj,cl)=Count(Attr(cj)Attr(cl))Count(Attr(cj)Attr(cl))]]>
其中,Attr(cj)和Attr(cl)分別表示概念cj、cl的屬性集,Attr(cj)∩Attr(cl)表示兩概念集具有相同屬性的集合,Attr(cj)∪Attr(cl)表示兩概念所有屬性的集合,Count()表示相應集合中屬性的數量。
(3)綜合相似度計算
單從語義上或者屬性上是無法完全的表達出兩概念的實際相似度。通過語義與屬性在相似度計算中的影響程度而設置相似度的權重,這樣能夠有效的計算出實際相似度。綜合相似度計算式為
Sim(cx,cy)=α×Sim(ci,ck)+β×Sim(cj,cl)
其中,概念集范圍x,y∈(1,i),相似度Sim(ci,ck)和Sim(cj,cl)分別代表基于語義相似度值和基于屬性相似度值。α和β是相似度權重,α+β=1。
本發明的有益效果:通過將提出的基于本體的檢索算法配合應用在所提出的檢索模型中,針對概念的語義距離和概念屬性進行相似性計算,使得出的結果更加接近用戶需求,挺高了檢索的效率和知識的重用。
附圖說明
圖1是本發明檢索模型流程圖;
圖2是本發明的檢索算法流程圖;
圖3液壓千斤頂部分本體模型。
具體實施方式
下面通過實施例,并結合附圖,對本發明的技術方案作進一步具體的說明。
本發明認為檢索的匹配性高必須較全面表達知識的結構和語義,綜合語義距離和語義屬性計算相似性,為此,提出了基于本體的知識表示流程和基于本體的知識檢索模型以及算法。
實施例1:本實施例是根據圖1和圖2所示的檢索模型圖和檢索算法流程步驟流程圖,以圖3所示液壓千斤頂部分本體模型為例,通過概念之間的匹配進行檢索。
圖3中,QK20、RCH-606、JSAH-306和JSAH-606等分別是液壓千斤頂的型號,代表液壓千斤頂的實例。在液壓千斤頂部分本體模型中對每一對概念通過本文提出的相似度算法進行計算。在計算實驗過程中,設定參數:α=β=0.5。
3-1開始輸入檢索需求,輸入檢索的請求:型號為“JSAH-606”的JSAH系列單作用空心液壓千斤頂。系統提取檢索請求概念,那么定義的用戶概念集為A={A1,A2,A3,A4,A5}={“JSAH-606”的JSAH系列單作用空心液壓千斤頂,JSAH系列單作用空心液壓千斤頂,單作用空心液壓千斤頂,單作用液壓千斤頂,液壓千斤頂(用Y表示)},并按概念的權值由高到低的順序進行排序。
3-2利用本體映射概念將用戶概念集A映射為過渡概念集a,再整理后得本體概念集B,分析相應的本體概念得本體概念集B={B1,B2,B3,B4,B5}={JSAH-606,JSAH系列,單作用,空心,Y},映射后相對應的概念的權值不變。
表2液壓千斤頂部分用戶概念和過渡概念映射關系表

3-3將B中的每一個概念Bi按權值的高低進行語義相似度計算,根據基于語義距離的相似度計算式可知:
Sim(B1,B1)=[w×(dl(B1)+dl(B2))][max(Dist(B1,B2),w)×2×maxdl×max(|dl(B1)-dl(B2)|,1)]=[1×(5+5)][(0+1)×2×5×1]=1]]>
Sim(B1,B2)=[w×(dl(B1)+dl(B2))][max(Dist(B1,B2),w)×2×maxdl×max(|dl(B1)-dl(B2)|,1)]=[0.75×(5+4)][(1+0.75)×2×5×1]=0.675]]>
類似可計算出
Sim(B1,B3)=0.200,Sim(B1,B4)=0.116,Sim(B1,B5)=0.075,
Sim(B2,B3)=0.656,Sim(B2,B4)=0.187,Sim(B2,B5)=0.104,
Sim(B3,B4)=0.625,Sim(B3,B5)=0.167,Sim(B4,B5)=0.375。
計算結果根據在知識本體中語義相似度Sim(ci,ck)≥λ(λ為相似度閾值)的概念來判斷,那么此處設定λ的為0.65,因此可得到新的檢索需求概念空間,所得的結果組成一個本體核心概念集C={C1,C2,C3}={JSAH-606,JSAH系列(“JSAH-120”,“JSAH-121”,“JSAH-123”,“JSAH-202”,“JSAH-206”,“JSAH-302”,“JSAH-306”,“JSAH-603”,“JSAH-1003”),單作用}。
3-4將本體核心概念集C與知識庫進行相應的相似度計算,主要根據屬性特征來計算他們的相似度,根據基于屬性的相似度計算式可知,
Sim(C1,JSAH-606)=Count(Attr(C1)Attr(JSAH-606))Count(Attr(C1)Attr(JSAH-606))=55=1]]>
Sim(C1,JSAH-306)=Count(Attr(C1)Attr(JSAH-306))Count(Attr(C1)Attr(JSAH-306))=46=0.667]]>
Sim(C1,RCH-606)=Count(Attr(C1)Attr(RCH-606))Count(Attr(C1)Attr(RCH-606))=37=0.428]]>
類似可計算出
Sim(C2,JSAH-606)=0.8
Sim(C2,RCH-120)=0.5
Sim(C3,JSAH-606)=0.8
計算結果根據相似度Sim(cj,cl)≥θ(θ為相似度閾值)的概念來判斷,那么此處設定θ的為0.6,因此可得到新的檢索需求概念空間,所得的結果組成一個本體核心概念集D={D1,D2}={JSAH-606,JSAH系列(“JSAH-120”,“JSAH-121”,“JSAH-123”,“JSAH-202”,“JSAH-206”,“JSAH-302”,“JSAH-306”,“JSAH-603”,“JSAH-1003”)}。
3-5對得出的知識解集D進行相應的條件判定,有得到的結果可知知識解集D不為空集,那么不需要返還到B處重新求解,可以直接進行下一步整體相似度的求解。
3-6根據得到的結果綜合計算用戶概念集A和知識集D的整體相似度,根據整體相似度計算式可知,
Sim(A1,D1)=α×Sim(B1,B1)+β×Sim(C1,JSAH-606)=1
Sim(A1,D2)=α×Sim(B1,B2)+β×Sim(C2,JSAH-606)=0.828
Sim(A2,D1)=α×Sim(B1,B2)+β×Sim(C1,JSAH-606)=0.928
Sim(A3,D2)=α×Sim(B1,B3)+β×Sim(C2,JSAH-606)=0.313
3-7根據相似度所求得的值將得到的知識解集D里的解由大到小的排列如下:“JSAH-606”的JSAH系列單作用空心液壓千斤頂,JSAH系列單作用空心液壓千斤頂(“JSAH-120”,“JSAH-121”,“JSAH-123”,“JSAH-202”,“JSAH-206”,“JSAH-302”,“JSAH-306”,“JSAH-603”,“JSAH-1003”),因此,通過本檢索算法是可以得出檢索所需的解。

關 鍵 詞:
一種 知識 檢索 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種知識的檢索方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6373450.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图