• / 15
  • 下載費用:30 金幣  

一種查詢資源匹配度判斷的方法及裝置.pdf

摘要
申請專利號:

CN201510966907.8

申請日:

2015.12.21

公開號:

CN105468782A

公開日:

2016.04.06

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20151221|||公開
IPC分類號: G06F17/30; G06K9/62 主分類號: G06F17/30
申請人: 北京奇虎科技有限公司; 奇智軟件(北京)有限公司
發明人: 石玉明
地址: 100088北京市西城區新街口外大街28號D座112室(德勝園區)
優先權:
專利代理機構: 北京鼎佳達知識產權代理事務所(普通合伙)11348 代理人: 王偉鋒; 劉鐵生
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510966907.8

授權公告號:

||||||

法律狀態公告日:

2019.05.17|||2016.05.04|||2016.04.06

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種查詢-資源匹配度判斷的方法及裝置,涉及互聯網技術領域,解決了現有的根據用戶反饋判斷query-資源匹配度的方式傷害用戶體驗的問題。本發明的方法包括:從資源分類體系中收集的各個類別的訓練樣本進行處理,獲得對應類別的樣本空間,并將訓練樣本向量化后訓練支持向量機SVM模型,得到SVM分類模型,通過SVM分類模型對query近鄰文檔進行分類,根據近鄰文檔的分類結果判斷query的類別與對應資源的類別是否匹配。本發明主要用于對查詢query與資源的匹配度進行判斷。

權利要求書

1.一種查詢-資源匹配度判斷的方法,其特征在于,所述方法包括:
根據資源分類體系收集各個類別的文檔作為訓練樣本;
對所述訓練樣本進行處理,獲得對應不同類別的樣本空間,所述樣本
空間包括特征分詞;
將所述訓練樣本向量化后訓練支持向量機SVM模型,得到SVM分類模
型;
通過所述SVM分類模型對獲取的查詢query近鄰文檔進行分類;
統計所述近鄰文檔的分類結果,判斷所述query的類別與對應資源的
類別是否匹配。
2.根據權利要求1所述的方法,其特征在于,所述根據資源分類體系
收集各個類別的文檔作為訓練樣本,包括:
在各個類別資源中隨機收集一批query并通過搜索引擎抓取相應的文
檔,得到包含各個類別文檔的訓練樣本;和/或
從互聯網上抓取網頁文檔,根據網頁文檔所屬的分類信息從所述網頁
文檔中得到包含各個類別文檔的訓練樣本。
3.根據權利要求1-2任一項所述的方法,其特征在于,對所述訓練樣
本進行處理,獲得對應不同類別的樣本空間,包括:
將所述訓練樣本的文檔進行分詞處理得到切分詞串;
計算所述切分詞串中每個分詞的信息增益;
按照信息增益由大到小的順序篩選出排序前20%的分詞作為特征分詞,
形成所述樣本空間。
4.根據權利要求1-3任一項所述的方法,其特征在于,將所述訓練樣
本向量化后訓練支持向量機SVM模型,得到SVM分類模型,包括:
根據所述訓練樣本的文檔的每個分詞在所述樣本空間中出現與否,將
文檔的每個分詞轉換為特征值,形成文檔向量;
從各個類別的文檔向量中隨機選擇數量相同的文檔向量作為樣本文檔
向量;
獲取SVM模型的參數,所述參數包括:懲罰系數C和徑向基函數自帶
的參數gamma;
根據所述樣本文檔向量和所述參數計算出SVM分類模型。
5.根據權利要求1-4任一項所述的方法,其特征在于,所述獲取SVM
模型的參數,包括:
調用網格參數尋優函數獲取最優參數。
6.根據權利要求1-5任一項所述的方法,其特征在于,根據所述樣本
文檔向量和所述最優參數計算出SVM分類模型,包括:
在所述樣本文檔向量中找出各個類別的文檔向量與其他類別的文檔向
量的最優分類超平面,得到代表各個類別的文檔向量的支持向量,形成SVM
分類模型的判別函數。
7.根據權利要求1-6任一項所述的方法,其特征在于,通過所述SVM
分類模型對獲取的查詢query近鄰文檔進行分類,包括:
通過搜索引擎對query進行搜索,從搜索結果中獲取前K個文檔作為
query的近鄰文檔;
對所述近鄰文檔進行向量化處理;
通過所述SVM分類模型對向量化的近鄰文檔進行分類。
8.根據權利要求1-7任一項所述的方法,其特征在于,統計所述近鄰
文檔的分類結果,判斷所述query的類別與對應資源的類別是否匹配,包
括:
根據所述近鄰文檔的分類結果計算對應的query的置信度,所述近鄰
文檔的分類結果同時為query對應資源的類別。
9.一種查詢-資源匹配度判斷的裝置,其特征在于,所述裝置包括:
收集單元,用于根據資源分類體系收集各個類別的文檔作為訓練樣本;
處理單元,用于對所述收集單元收集的所述訓練樣本進行處理,獲得
對應不同類別的樣本空間,所述樣本空間包括特征分詞;
訓練單元,用于將所述收集單元收集的所述訓練樣本向量化后訓練支
持向量機SVM模型,得到SVM分類模型;
分類單元,用于通過所述訓練單元得到的所述SVM分類模型對獲取的
查詢query近鄰文檔進行分類;
判斷單元,用于根據所述分類單元得到的所述近鄰文檔的分類結果,
判斷所述query的類別與對應資源的類別是否匹配。
10.根據權利要求9所述的裝置,其特征在于,所述收集單元用于在
各個類別資源中隨機收集一批query并通過搜索引擎抓取相應的文檔,得
到包含各個類別文檔的訓練樣本;和/或
從互聯網上抓取網頁文檔,根據網頁文檔所屬的分類信息從所述網頁
文檔中得到包含各個類別文檔的訓練樣本。

說明書

一種查詢-資源匹配度判斷的方法及裝置

技術領域

本發明涉及互聯網技術領域,特別是涉及一種查詢-資源匹配度判斷的
方法及裝置。

背景技術

在互聯網領域搜索廠商通常在幾十個垂直方向上與眾多的內容生產者
進行合作,由合作方提供各個垂直領域的高質量結構化數據,并指定了相
應的一批查詢query(稱為種子query)。這些種子query大多與結構化數
據非常匹配,用戶搜索這些種子query或相關query時展現對應的結構化
數據,有助于提升用戶體驗。但在實際情況中,合作方為了追求更多的導
流,會在提供的種子query中含有一些與其結構化數據并不相關的數據。
例如,“江南”、“小公主”等種子query與汽車的相關性弱,但被合作方作
為種子query與一些型號的汽車進行關聯。這樣當用戶搜索“江南”、“小
公主”等種子query時得到的將會是關于汽車的信息,這樣會傷害用戶體
驗和搜索廠商的品牌。

現有的query-資源匹配度計算是通過用戶的行為來判斷的,當用戶搜
索某個種子query時,先把合作方提供的結構化數據信息展現給用戶,一
段時間后,當用戶點擊數/資源展現數的值低于設定的閾值時,則認為種子
query與資源不匹配,對種子query做下線處理。

在使用現有處理方式的過程中,發明人發現:雖然這種處理方式對于
高頻的種子query來說是有效的,但還是以傷害用戶體驗為代價;而對于
低頻的種子query來說,由于統計信息不足,難以獲得統計特征,因此處
理結果不一定有效,錯誤的種子query在線上的存在時間也更長。

發明內容

有鑒于此,本發明提出了一種查詢-資源匹配度判斷的方法及裝置,主
要目的在于解決現有的根據用戶反饋判斷query-資源匹配度的方式傷害用
戶體驗的問題。

依據本發明的第一個方面,本發明提供了一種查詢-資源匹配度判斷的
方法,包括:

根據資源分類體系收集各個類別的文檔作為訓練樣本;

對訓練樣本進行處理,獲得對應不同類別的樣本空間,樣本空間包括
特征分詞;

將訓練樣本向量化后訓練支持向量機SVM模型,得到SVM分類模型;

通過SVM分類模型對獲取的查詢query近鄰文檔進行分類;

統計近鄰文檔的分類結果,判斷query的類別與對應資源的類別是否
匹配。

進一步的,所述根據資源分類體系收集各個類別的文檔作為訓練樣本,
包括:

在各個類別資源中隨機收集一批query并通過搜索引擎抓取相應的文
檔,得到包含各個類別文檔的訓練樣本;和/或

從互聯網上抓取網頁文檔,根據網頁文檔所屬的分類信息從所述網頁
文檔中得到包含各個類別文檔的訓練樣本。

進一步的,對所述訓練樣本進行處理,獲得對應不同類別的樣本空間,
包括:

將所述訓練樣本的文檔進行分詞處理得到切分詞串;

計算所述切分詞串中每個分詞的信息增益;

按照信息增益由大到小的順序篩選出排序前20%的分詞作為特征分詞,
形成所述樣本空間。

進一步的,將所述訓練樣本向量化后訓練支持向量機SVM模型,得到
SVM分類模型,包括:

根據所述訓練樣本的文檔的每個分詞在所述樣本空間中出現與否,將
文檔的每個分詞轉換為特征值,形成文檔向量;

從各個類別的文檔向量中隨機選擇數量相同的文檔向量作為樣本文檔
向量;

獲取SVM模型的參數,所述參數包括:懲罰系數C和徑向基函數自帶
的參數gamma;

根據所述樣本文檔向量和所述參數計算出SVM分類模型。

進一步的,所述獲取SVM模型的參數,包括:

調用網格參數尋優函數獲取最優參數。

進一步的,根據所述樣本文檔向量和所述最優參數計算出SVM分類模
型,包括:

在所述樣本文檔向量中找出各個類別的文檔向量與其他類別的文檔向
量的最優分類超平面,得到代表各個類別的文檔向量的支持向量,形成SVM
分類模型的判別函數。

進一步的,通過所述SVM分類模型對獲取的查詢query近鄰文檔進行
分類,包括:

通過搜索引擎對query進行搜索,從搜索結果中獲取前K個文檔作為
query的近鄰文檔;

對所述近鄰文檔進行向量化處理;

通過所述SVM分類模型對向量化的近鄰文檔進行分類。

進一步的,統計所述近鄰文檔的分類結果,判斷所述query的類別與
對應資源的類別是否匹配,包括:

根據所述近鄰文檔的分類結果計算對應的query的置信度,所述近鄰
文檔的分類結果同時為query對應資源的類別。

依據本發明的第二個方面,本發明提供了一種查詢-資源匹配度判斷的
裝置,包括:

收集單元,用于根據資源分類體系收集各個類別的文檔作為訓練樣本;

處理單元,用于對收集單元收集的訓練樣本進行處理,獲得對應不同
類別的樣本空間,樣本空間包括特征分詞;

訓練單元,用于將收集單元收集的訓練樣本向量化后訓練支持向量機
SVM模型,得到SVM分類模型;

分類單元,用于通過訓練單元得到的SVM分類模型對獲取的查詢query
近鄰文檔進行分類;

判斷單元,用于根據分類單元得到的近鄰文檔的分類結果,判斷query
的類別與對應資源的類別是否匹配。

進一步的,所述收集單元用于在各個類別資源中隨機收集一批query
并通過搜索引擎抓取相應的文檔,得到包含各個類別文檔的訓練樣本;和/
或從互聯網上抓取網頁文檔,根據網頁文檔所屬的分類信息從所述網頁文
檔中得到包含各個類別文檔的訓練樣本。

進一步的,所述處理單元包括:

分詞模塊,用于將所述訓練樣本的文檔進行分詞處理得到切分詞串;

計算模塊,用于計算所述切分詞串中每個分詞的信息增益;

篩選模塊,用于按照信息增益由大到小的順序篩選出排序前20%的分詞
作為特征分詞,形成所述樣本空間。

進一步的,所述訓練單元包括:

轉換模塊,用于根據所述訓練樣本的文檔的每個分詞在所述樣本空間
中出現與否,將文檔的每個分詞轉換為特征值,形成文檔向量;

選擇模塊,用于從各個類別的文檔向量中隨機選擇數量相同的文檔向
量作為樣本文檔向量;

獲取模塊,用于獲取SVM模型的參數,所述參數包括:懲罰系數C和
徑向基函數自帶的參數gamma;

計算模塊,用于根據所述樣本文檔向量和所述參數計算出SVM分類模
型。

進一步的,所述訓練單元用于調用網格參數尋優函數獲取最優參數。

進一步的,所述訓練單元用于在所述樣本文檔向量中找出各個類別的
文檔向量與其他類別的文檔向量的最優分類超平面,得到代表各個類別的
文檔向量的支持向量,形成SVM分類模型的判別函數。

進一步的,所述分類單元包括:

搜索模塊,用于通過搜索引擎對query進行搜索,從搜索結果中獲取
前K個文檔作為query的近鄰文檔;

處理模塊,用于對所述近鄰文檔進行向量化處理;

分類模塊,用于通過所述SVM分類模型對向量化的近鄰文檔進行分類。

進一步的,所述判斷單元還用于根據所述近鄰文檔的分類結果計算對
應的query的置信度,所述近鄰文檔的分類結果同時為query對應資源的
類別。

借由上述技術方案,本發明實施例提供的查詢-資源匹配度判斷的方法
及裝置,能夠對從資源分類體系中收集的各個類別的訓練樣本進行處理,
獲得對應不同類別的樣本空間,并將訓練樣本向量化后訓練支持向量機SVM
模型,得到SVM分類模型,通過SVM分類模型對query近鄰文檔進行分類,
根據近鄰文檔的分類結果判斷query的類別與對應資源的類別是否匹配;
而現有技術中query-資源匹配度計算是通過用戶的行為來判斷,先把合作
方提供的結構化信息展現給用戶,經過一段時間后通過用戶點擊數/資源展
現數的比值是否小于閾值來確認query與資源是否匹配。與現有技術會傷
害用戶體驗的缺陷相比,本發明能夠定向收錄合作方數據,在數據入庫之
前就完成對query與資源的匹配度計算,濾除與資源明顯不匹配的query,
避免當用戶搜索這些query時,把不匹配的資源展現給用戶。

上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的
技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和
其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。

附圖說明

通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于
本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目
的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符
號表示相同的部件。在附圖中:

圖1示出了本發明實施例提供的一種查詢-資源匹配度判斷的方法的流
程圖;

圖2示出了本發明實施例提供的一種查詢-資源匹配度判斷的裝置的組
成框圖;

圖3示出了本發明實施例提供的一種查詢-資源匹配度判斷的裝置的組
成框圖;

圖4示出了本發明實施例提供的一種查詢-資源匹配度判斷的裝置的組
成框圖。

具體實施方式

下面將參照附圖更加詳細地描述本公開的示例性實施例。雖然附圖中
顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公
開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠
更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技
術人員。

現有的query-資源匹配度計算是通過用戶的行為來判斷的,當用戶搜
索某個種子query時,先把合作方提供的結構化數據信息展現給用戶,一
段時間后,當用戶點擊數/資源展現數的值低于設定的閾值時,則認為種子
query與資源不匹配,對種子query做下線處理。雖然這種處理方式對于高
頻的種子query來說是有效的,但還是以傷害用戶體驗為代價;而對于低
頻的種子query來說,由于統計信息不足,難以獲得統計特征,因此處理
結果不一定有效,錯誤的種子query在線上的存在時間也更長。

為了解決上述問題,本發明實施例提供了一種查詢-資源匹配度判斷的
方法,能夠定向收錄合作方數據,在數據入庫之前就完成對query與資源
的匹配度計算,如圖1所示,該方法包括:

101、根據資源分類體系收集各個類別的文檔作為訓練樣本。

搜索廠商通常在幾十個垂直方向上與眾多的內容生產者進行合作,由
合作方提供各個垂直領域高質量的結構化數據。廠商根據業務需求可以構
建資源分類體系,該資源分類體系可以包括:旅游、汽車、游戲、體育、
小說等類別。在本實施例的步驟101中,需要根據資源分類體系中的資源
分類情況收集各個類別的文檔作為訓練樣本。

102、對訓練樣本進行處理,獲得對應不同類別的樣本空間。

由于資源分類體系中業務復雜,通常獲取的訓練樣本規模過大,規模
過大的訓練樣本可能會造成后續處理的癱瘓,因此需要從大量的訓練樣本
中選擇出一些有代表性的樣本而又不影響分類的效果。因此在步驟101中
得到包含各個類別文檔的訓練樣本后,需要對訓練樣本進行處理,獲得對
應不同類別的樣本空間,該樣本空間包含一些有代表性的特征樣本,也就
是特征分詞。

103、將訓練樣本向量化后訓練SVM模型,得到SVM分類模型。

由于支持向量機SVM分類的前提是把文本向量化表示,因此在訓練SVM
模型時需要結合步驟102得到的樣本空間,將訓練樣本向量化后才能通過
訓練得到SVM分類模型。

104、通過SVM分類模型對獲取的查詢query近鄰文檔進行分類。

通常對于某一新實例來說,在訓練數據集中找到與該新實例最鄰近的K
個實例,這K個實例多數屬于某個類,就可以把該新實例分類到這個類中。
因此,要判斷query對應資源的類別,就需要根據步驟103得到的SVM分
類模型對query近鄰文檔進行分類,根據query近鄰文檔的類別得到query
對應資源的類別。

105、統計近鄰文檔的分類結果,判斷query的類別與對應資源的類別
是否匹配。

由于根據query近鄰文檔的類別可以確定query對應資源的類別,也
就是合作方指定給query的資源,因此步驟105統計近鄰文檔的分類結果,
可以判斷query的類別與對應資源(合作方指定資源)的類別是否匹配。

本發明實施例提供的查詢-資源匹配度判斷的方法,能夠對從資源分類
體系中收集的各個類別的訓練樣本進行處理,獲得對應不同類別的樣本空
間,并將訓練樣本向量化后訓練支持向量機SVM模型,得到SVM分類模型,
通過SVM分類模型對query近鄰文檔進行分類,根據近鄰文檔的分類結果
判斷query的類別與對應資源的類別是否匹配;而現有技術中query-資源
匹配度計算是通過用戶的行為來判斷,先把合作方提供的結構化信息展現
給用戶,經過一段時間后通過用戶點擊數/資源展現數的比值是否小于閾值
來確認query與資源是否匹配。與現有技術會傷害用戶體驗的缺陷相比,
本發明能夠定向收錄合作方數據,在數據入庫之前就完成對query與資源
的匹配度計算,濾除與資源明顯不匹配的query,避免當用戶搜索這些query
時,把不匹配的資源展現給用戶。

為了更好的對上述圖1所示的方法進行理解,作為對上述實施方式的
細化和擴展,本發明實施例將針對圖1中的步驟進行詳細說明。

query是為了在數據庫中尋找某一特定文件、網站、記錄或一系列記錄,
由搜索引擎或數據庫送出的消息,用戶可以直接點擊query進行搜索得到
相應的數據資源。因此,本實施例在根據資源分類體系收集各個類別的文
檔作為訓練樣本時,作為一種可選的實施方式,可以在各個類別資源中隨
機收集一批query并通過搜索引擎抓取相應的文檔,得到包含各個類別文
檔的訓練樣本,也就是在搜索引擎上直接使用一定時間內網民搜索的
query,過濾掉黃賭毒反結果,通過搜索引擎抓取資源匹配正確的query對
應的文檔,得到訓練樣本。

或者,作為另一種可選的實施方式,也可以從互聯網上抓取網頁文檔,
根據網頁文檔所屬的分類信息從網頁文檔中得到包含各個類別文檔的訓練
樣本。實際操作時可以基于網絡爬蟲工具從互聯網上抓取通用語料,通常
是從網站的某個頁面(一般是首頁)開始,讀取網頁的內容,找到在網頁
中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循
環下去,直到把這個網站所有的網頁都抓取完為止,用這種方式獲取到的
網頁文檔往往大而全。同時,獲取到的網頁文檔都帶有確定文檔所屬的具
體領域的標簽,也就是文檔的分類信息,根據網頁文檔的標簽可以得到網
頁文檔的類別,從而得到包含各個類別文檔的訓練樣本。

當通過上述方式獲取到訓練樣本后,需要對訓練樣本進行一定的處理
才能在后續對訓練樣本進行分類。本步驟對訓練樣本進行處理也就是要從
大量的訓練樣本中提取出有代表性的特征樣本而又不影響分類效果。因此
首先要對訓練樣本的文檔進行分詞處理,得到由多個分詞組成的切分詞串。
在信息論中,信息增益用來描述特征能夠為分類系統帶來多少信息量,帶
來的信息量越多,該特征越重要。對一個特征而言,系統有它和沒它時信
息量將發生變化,而前后信息量的差值就是這個特征給系統帶來的信息量,
所謂信息量就是熵。而在本實施例中可以將一個分詞看成一個特征,通過
計算每個分詞的信息增益來確定分詞的重要性。本實施例中可以通過下述
公式計算分詞的信息增益:Entropy(S)=-(p+)*log(p+)-(p-)*log(p-)。
其中,p+和p-分別為包含該分詞和不包含該分詞的文檔數占總文檔數的比
例。這里需要說明的是,為了使計算數據標準化,對于某個分詞在一篇文
檔中多次出現的情況,本發明實施例只對該文檔統計一次,不重復計數。
當計算出每個分詞的信息增益后,按照信息增益值的大小進行排序,篩選
出排序前20%的分詞作為特征分詞,這些特征分詞具有很高的代表性,能夠
代表訓練樣本而且不影響分類效果,這些特征分詞形成了樣本空間。根據
實際情況,往往篩選出排序前7%或8%的分詞作為特征分詞就可形成有代表
性的樣本空間。獲取具有代表性的特征分詞作為樣本空間能夠降低文本分
類中訓練樣本的規模,避免維度災難。

本實施例提供的通過信息增益篩選出具有代表性的特征分詞來避免維
度災難只是本發明的一種實施方式,當然還可以利用映射將高緯度空間映
射到低緯度空間,從而達到降維的目的,如使用TopicModeling。

當獲取到具有代表性的樣本空間后,可以準備構建SVM分類模型。構
建SVM分類模型的關鍵在于SVM模型參數以及SVM模型訓練樣本。本實施
例中的SVM模型參數包括懲罰系數C、徑向基函數自帶的參數gamma,其中
懲罰系數C即對誤差的寬容度,C值越高,說明越不能容忍出現誤差,C值
過大或過小,泛化能力變差;gamma值隱含的決定了數據映射到新的特征空
間后的分布,gamma值越大,支持向量越少,gamma值越小,支持向量越多。
在構建SVM分類模型時,通常需要使用最優參數,在本實施例中可以通過
調用網格參數尋優函數獲取到最優的C值和gamma值;SVM模型訓練樣本是
通過將各個類別的文檔向量化,并隨機從各個類別的文檔向量中選擇數量
相同的文檔向量作為樣本文檔向量,該樣本文檔向量即為SVM模型訓練樣
本。在對各個類別的文檔進行向量化時,本實施例提供了一種實施方式,
可以根據各個類別文檔的每個分詞在樣本空間中出現與否,將文檔的每個
分詞轉換為特征值,形成文檔向量。例如,“如^要^購買^商品^請^聯系^我”
是經過分詞的一個文檔,樣本空間中包含的特征分詞有“購買、商品、聯
系”,則根據文檔的每個分詞在樣本空間中出現與否,若出現則將分詞轉換
為特征值1,若沒有出現則將分詞轉換為特征值0,則該文檔可以轉換為文
檔向量[0011010]。

當通過上述方式獲取到SVM模型參數以及SVM模型訓練樣本后,選擇
多次方的多項式核函數,將樣本文檔向量映射到高維特征空間。利用SVM
在樣本文檔向量中找出各個類別的文檔向量與其他類別的文檔向量的最優
分類超平面,得到代表各個類別的文檔向量的支持向量及其相應的VC可信
度,形成判斷各特征類別的判別函數。一般來講徑向基核函數是不會出現
太大偏差的,進一步加上參數C和gamma的調優,使得絕大部分類別的準
確和召回都在85%以上。

當通過上述方式訓練出SVM分類模型后,就需要用SVM分類模型對
query對應的資源進行分類預測了。由于直接計算query與結構化數據的相
關度很困難,所以需要對query的意圖進行判別,本實施例借鑒了K近鄰
的統計思想,為query尋找到最匹配的K個近鄰文檔,以近鄰文檔的分類
投票結果描述query的意圖,也就是query對應的資源類別。這里需要說
明的是,尋找query的K個近鄰文檔個與query最相關的網頁文檔,而不
是K個最近的query,query近鄰文檔的獲取是通過搜索引擎對query進行
搜索,從搜索結果中獲取前K個文檔作為query的近鄰文檔。

當獲取到query的近鄰文檔后,需要對近鄰文檔進行向量化處理才能
被SVM分類模型進行分類。其中,向量化處理的過程也需要對近鄰文檔進
行分詞,并根據近鄰文檔的分詞在樣本空間中的出現與否,將近鄰文檔的
每個分詞轉換為特征值,形成近鄰文檔向量。通過SVM分類模型對向量化
的近鄰文檔進行分類,將其通過核函數作用映射到特征空間中,作為判別
函數的輸入,利用分類判決函數得出分類結果。

當完成對query近鄰文檔的分類后,需要對分類結果進行統計,得到
的query近鄰文檔的類別也就是query對應資源的類別,從而判斷出query
類別與其對應資源的類別是否匹配。若匹配,則將query保留在線上供用
戶點擊搜索,若不匹配,則將query做下線處理。在對分類結果進行統計
時,除了可以根據近鄰文檔的分類結果得到query對應資源的類別,還可
以根據近鄰文檔的分類結果計算對應的query的置信度。例如:query=“2015
款**手機”,K取20,在搜索該query的20個近鄰文檔中有18個文檔的分
類結果是手機,則說明該query的對應資源的類別為手機,該query的類
別與其對應資源的類別匹配,該query的置信度為18/20=0.9。

本發明實施例借鑒了K近鄰的統計思想并結合支持向量機學習算法,
以query近鄰文檔的分類結果描述query的對應資源類別,避免了直接計
算query與結構化數據的相關度所帶來的困難;此外,本實施例允許合作
方為資源指定種子query,使各垂直領域的結構化數據高時效性、準確的展
示給用戶。

進一步的,作為對上述圖1所示方法的實現,本發明實施例提供了一
種查詢-資源匹配度判斷的裝置,如圖2所示,該裝置包括:收集單元21、
處理單元22、訓練單元23、分類單元24及判斷單元25,其中,

收集單元21,用于根據資源分類體系收集各個類別的文檔作為訓練樣
本;

處理單元22,用于對收集單元21收集的訓練樣本進行處理,獲得對應
不同類別的樣本空間,樣本空間包括特征分詞;

訓練單元23,用于將收集單元21收集的訓練樣本向量化后訓練支持向
量機SVM模型,得到SVM分類模型;

分類單元24,用于通過訓練單元23得到的SVM分類模型對獲取的查詢
query近鄰文檔進行分類;

判斷單元25,用于根據分類單元24得到的近鄰文檔的分類結果,判斷
query的類別與對應資源的類別是否匹配。

進一步的,收集單元21用于在各個類別資源中隨機收集一批query并
通過搜索引擎抓取相應的文檔,得到包含各個類別文檔的訓練樣本;和/或
從互聯網上抓取網頁文檔,根據網頁文檔所屬的分類信息從網頁文檔中得
到包含各個類別文檔的訓練樣本。

進一步的,如圖3所示,處理單元22包括:

分詞模塊221,用于將訓練樣本的文檔進行分詞處理得到切分詞串;

計算模塊222,用于計算切分詞串中每個分詞的信息增益;

篩選模塊223,用于按照信息增益由大到小的順序篩選出排序前20%的
分詞作為特征分詞,形成樣本空間。

進一步的,訓練單元23包括:

轉換模塊231,用于根據訓練樣本的文檔的每個分詞在樣本空間中出現
與否,將文檔的每個分詞轉換為特征值,形成文檔向量;

選擇模塊232,用于從各個類別的文檔向量中隨機選擇數量相同的文檔
向量作為樣本文檔向量;

獲取模塊233,用于獲取SVM模型的參數,參數包括:懲罰系數C和徑
向基函數自帶的參數gamma;

計算模塊234,用于根據樣本文檔向量和參數計算出SVM分類模型。

進一步的,訓練單元23用于調用網格參數尋優函數獲取最優參數。

進一步的,訓練單元23用于在樣本文檔向量中找出各個類別的文檔向
量與其他類別的文檔向量的最優分類超平面,得到代表各個類別的文檔向
量的支持向量,形成SVM分類模型的判別函數。

進一步的,如圖4所示,分類單元24包括:

搜索模塊241,用于通過搜索引擎對query進行搜索,從搜索結果中獲
取前K個文檔作為query的近鄰文檔;

處理模塊242,用于對近鄰文檔進行向量化處理;

分類模塊243,用于通過SVM分類模型對向量化的近鄰文檔進行分類。

進一步的,判斷單元25還用于根據近鄰文檔的分類結果計算對應的
query的置信度,近鄰文檔的分類結果同時為query對應資源的類別。

本發明實施例提供的查詢-資源匹配度判斷的裝置,能夠對從資源分類
體系中收集的各個類別的訓練樣本進行處理,獲得對應不同類別的樣本空
間,并將訓練樣本向量化后訓練支持向量機SVM模型,得到SVM分類模型,
通過SVM分類模型對query近鄰文檔進行分類,根據近鄰文檔的分類結果
判斷query的類別與對應資源的類別是否匹配;而現有技術中query-資源
匹配度計算是通過用戶的行為來判斷,先把合作方提供的結構化信息展現
給用戶,經過一段時間后通過用戶點擊數/資源展現數的比值是否小于閾值
來確認query與資源是否匹配。與現有技術會傷害用戶體驗的缺陷相比,
本發明能夠定向收錄合作方數據,在數據入庫之前就完成對query與資源
的匹配度計算,濾除與資源明顯不匹配的query,避免當用戶搜索這些query
時,把不匹配的資源展現給用戶。

此外,本發明實施例借鑒了K近鄰的統計思想并結合支持向量機學習
算法,以query近鄰文檔的分類結果描述query的對應資源類別,避免了
直接計算query與結構化數據的相關度所帶來的困難;同時,本實施例允
許合作方為資源指定種子query,使各垂直領域的結構化數據高時效性、準
確的展示給用戶。

在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒
有詳述的部分,可以參見其他實施例的相關描述。

可以理解的是,上述方法及裝置中的相關特征可以相互參考。另外,
上述實施例中的“第一”、“第二”等是用于區分各實施例,而并不代表
各實施例的優劣。

所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述
描述的系統,裝置和單元的具體工作過程,可以參考前述方法實施例中的
對應過程,在此不再贅述。

在此提供的算法和顯示不與任何特定計算機、虛擬系統或者其它設備
固有相關。各種通用系統也可以與基于在此的示教一起使用。根據上面的
描述,構造這類系統所要求的結構是顯而易見的。此外,本發明也不針對
任何特定編程語言。應當明白,可以利用各種編程語言實現在此描述的本
發明的內容,并且上面對特定語言所做的描述是為了披露本發明的最佳實
施方式。

在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,
本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,
并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。

類似地,應當理解,為了精簡本公開并幫助理解各個發明方面中的一
個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特征
有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將
該公開的方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個
權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要
求書所反映的那樣,發明方面在于少于前面公開的單個實施例的所有特征。
因此,遵循具體實施方式的權利要求書由此明確地并入該具體實施方式,
其中每個權利要求本身都作為本發明的單獨實施例。

本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行
自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。
可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及
此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或
過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明
書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開
的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本
說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提
供相同、等同或相似目的的替代特征來代替。

此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括
其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征
的組合意味著處于本發明的范圍之內并且形成不同的實施例。例如,在下
面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合
方式來使用。

本發明的各個部件實施例可以以硬件實現,或者以在一個或者多個處
理器上運行的軟件模塊實現,或者以它們的組合實現。本領域的技術人員
應當理解,可以在實踐中使用微處理器或者數字信號處理器(DSP)來實現
根據本發明實施例的發明名稱(如確定網站內鏈接等級的裝置)中的一些
或者全部部件的一些或者全部功能。本發明還可以實現為用于執行這里所
描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和
計算機程序產品)。這樣的實現本發明的程序可以存儲在計算機可讀介質
上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網
站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。

應該注意的是上述實施例對本發明進行說明而不是對本發明進行限
制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出
替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成
對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或
步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。
本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算
機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可
以是通過同一個硬件項來具體體現。單詞第一、第二、以及第三等的使用
不表示任何順序。可將這些單詞解釋為名稱。

關 鍵 詞:
一種 查詢 資源 匹配 判斷 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種查詢資源匹配度判斷的方法及裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6341583.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图