• / 6
  • 下載費用:30 金幣  

一種基于多層次的微博查詢擴展方法.pdf

摘要
申請專利號:

CN201510294437.5

申請日:

2015.06.02

公開號:

CN104915405A

公開日:

2015.09.16

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150602|||公開
IPC分類號: G06F17/30; G06F17/27 主分類號: G06F17/30
申請人: 華東師范大學
發明人: 胡琴敏; 陳琴; 賀樑
地址: 200241上海市閔行區東川路500號
優先權:
專利代理機構: 上海藍迪專利事務所31215 代理人: 徐筱梅; 張翔
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510294437.5

授權公告號:

||||||

法律狀態公告日:

2018.10.23|||2015.10.14|||2015.09.16

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種基于多層次的微博查詢擴展方法,其特點是將原微博查詢詞對應的語料庫PRF層和外部源的web層中提取關鍵詞作為候選查詢擴展詞,將候選查詢擴展詞與原始微博查詢語句合并作為標簽集對PRF層中的文檔進行標注,并利用Labeled LDA對標注的PRF文檔進行語義建模,然后將來自不同源的候選查詢擴展詞和微博查詢詞映射到統一的語義層,挖掘出它們潛在的語義,并根據它們之間的語義相似度,過濾掉與微博查詢詞語義無關的候選擴展詞,組成新的微博查詢詞進行更為精準的查詢和檢索。本發明與現有技術相比具有查詢漂移少,檢索效率高,準確性好,尤其將擴展詞進行有效的整合,以達到最優的擴展效果,使查詢結果能符合用戶真實的信息需求。

權利要求書

權利要求書
1.  一種基于多層次的微博查詢擴展方法,其特征在于將原微博查詢詞在其對應的語料庫PRF層和外部源的web層中提取關鍵詞作為候選查詢擴展詞,以候選查詢擴展詞與原微博查詢詞為標簽集對PRF層中的文檔進行標注,利用Labeled LDA對標注的PRF文檔進行語義建模,然后將來自不同源的候選查詢擴展詞和原微博查詢詞映射到統一的語義層,挖掘出它們潛在的語義,并根據它們之間的語義相似度,過濾掉與原微博查詢詞語義無關的候選擴展詞,作為查詢擴展詞添加到原微博查詢詞中組成新微博查詢詞,使用擴展后的新微博查詢詞進行查詢,其查詢結果更能符合用戶的真實信息需求,微博查詢的具體擴展按下述步驟進行: 
(一)、基于PRF層的候選擴展詞提取
將原微博查詢詞在其對應的語料庫中進行初步檢索,并將前K1個檢索結果作為PRF 文檔,利用TFIDF在 PRF 文檔中提取關鍵詞為候選查詢擴展詞,其中:K1 =10~20;
(二)、基于web層的候選擴展詞提取
將原微博查詢詞在外部源的web層中進行檢索,保存前K2個包括標題和片段的檢索結果,從標題和片段中提取TF較高的關鍵詞為候選查詢擴展詞,其中:K2 =10~20;
(三)、統一語義層建模
將PRF層和web層檢索得到的候選查詢擴展詞與原微博查詢詞合并為標簽集對PRF文檔進行標注,并利用Labeled LDA對標注的PRF文檔進行語義建模得到標簽-詞分布,然后根據標簽與候選查詢擴展詞和原微博查詢詞之間的一一對應關系以及標簽-詞分布,得到原微博查詢詞和候選查詢擴展詞關于所有詞的分布表示,從中選取權重最高的n個詞來表示其潛在的語義;其中:n=10~20;
 (四)、候選查詢擴展詞的篩選
根據上述潛在語義的表示采用余弦相似度計算每個候選查詢擴展詞與原微博查詢詞的語義相似度,并設定一個閾值,對候選查詢擴展詞進行過濾,將語義相似度大于閾值的候選查詢擴展詞作為查詢擴展詞添加到原微博查詢詞中組成新微博查詢詞,使用擴展后的新微博查詢詞進行查詢,其查詢結果更能符合用戶的真實信息需求。

關 鍵 詞:
一種 基于 多層次 查詢 擴展 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種基于多層次的微博查詢擴展方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6373491.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图