• / 20
  • 下載費用:30 金幣  

一種對對象進行排序的方法及裝置.pdf

摘要
申請專利號:

CN201410112060.2

申請日:

2014.03.24

公開號:

CN104951441A

公開日:

2015.09.30

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效 IPC(主分類):G06F 17/30申請日:20140324|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 阿里巴巴集團控股有限公司
發明人: 顧洋
地址: 英屬開曼群島大開曼資本大廈一座四層847號郵箱
優先權:
專利代理機構: 北京國昊天誠知識產權代理有限公司11315 代理人: 許志勇
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201410112060.2

授權公告號:

|||

法律狀態公告日:

2015.11.04|||2015.09.30

法律狀態類型:

實質審查的生效|||公開

摘要

本申請涉及一種對對象進行排序的方法,該方法包括:獲取用戶的近期行為涉及的關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型;根據所述關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型,使用預先建立的用戶當前偏好預測模型,確定用戶當前偏好的對象的特征;以及根據確定的用戶當前偏好,調整與所述用戶當前偏好相關的待排序對象的排序因子,以影響待排序對象的排序。本方案借助近期行為特征數據分析各特征數據與最終偏好的特征之間的關系,能夠更準確地對用戶行為偏好的對象的特征進行確定,并用該偏好的特征來指導用戶對應的搜索行為結果的排序,向用戶提供更個性化的對象排序結果。

權利要求書

權利要求書
1.  一種對對象進行排序的方法,其特征在于,包括:
獲取用戶的近期行為涉及的關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型;
根據所述關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型,使用預先建立的用戶當前偏好預測模型,確定用戶當前偏好的對象的特征;以及
根據確定的用戶當前偏好,調整與所述用戶當前偏好相關的待排序對象的排序因子,以影響待排序對象的排序。

2.  根據權利要求1所述的方法,其特征在于,所述用戶當前偏好預測模型通過以下步驟建立:
標注對象的特征標簽;以及
根據過去某一時間段內的用戶歷史行為獲取關鍵詞、關鍵詞出現標識序列、關鍵詞所對應的行為類型,進行機器學習的模型訓練,建立用戶當前偏好預測模型。

3.  根據權利要求2所述的方法,其特征在于,確定對象的特征標簽包括:
根據過去某一時間段內的用戶歷史行為涉及的關鍵詞建立用戶-關鍵詞矩陣;
根據所述用戶-關鍵詞矩陣,通過對關鍵詞進行聚類形成一個或多個聚類,每一聚類對應一種主題,計算每一關鍵詞屬于各主題的概率;
獲取每一關鍵詞及其出現頻率,以得到對象的關鍵詞向量;
根據每一個對象涉及的各關鍵詞屬于各主題的概率和該關鍵詞出現頻率,計算所述對象涉及的關鍵詞向量與各主題對應聚類中的關鍵詞向量的相似度;以及
取相似度最大值所對應的主題作為所述對象的特征標簽。

4.  根據權利要求2所述的方法,其特征在于,根據過去某一時間段內的用戶歷史行為獲取關鍵詞、關鍵詞出現標識序列、關鍵詞所對應的行為類型, 進行機器學習的模型訓練,建立用戶當前偏好預測模型,包括:
從過去某一時間段內的用戶歷史行為中,根據預定行為次數選取樣本;
從提取的每一條樣本中提取關鍵詞、關鍵詞的出現標識序列和關鍵詞所對應的行為類型;以及
以上述關鍵詞、關鍵詞的出現標識序列和關鍵詞所對應的行為類型的組合作為樣本特征,以與樣本特征相對應的對象的特征作為目標,進行機器學習模型的訓練,以得到用戶當前偏好預測模型。

5.  根據權利要求1-4之一所述的方法,其特征在于,獲取用戶的近期行為涉及的關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型,包括:
從所述近期行為中獲取關鍵詞、關鍵詞所對應的行為類型;以及
按照關鍵詞在所述近期行為中的每個行為是否出現,得到關鍵詞的出現標識序列。

6.  根據權利要求1-4之一所述的方法,其特征在于,根據所述關鍵詞、關鍵詞的出現標識序列和關鍵詞所對應的行為類型,使用用戶當前偏好預測模型,確定用戶當前偏好的對象的特征,包括:
以所述關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型的組合作為特征,以用戶當前偏好的對象的特征作為目標,使用預先建立的用戶當前偏好預測模型,得到各特征屬于各對象的特征的概率;
根據各特征屬于各對象的特征的概率計算用戶當前偏好的對象的特征屬于各特征標簽的概率;以及
取概率最大值所對應的特征標簽作為用戶當前偏好的對象的特征標簽。

7.  根據權利要求1-4之一所述的方法,其特征在于,根據確定的用戶當前偏好,調整與所述用戶當前偏好相關的待排序對象的排序因子,包括:
根據確定的用戶當前偏好,判斷待排序對象是否具有用戶當前偏好的特征;
當待排序對象具有用戶當前偏好的特征時,提升所述待排序對象排序;以及
當待排序對象不具有用戶當前偏好的特征時,不提升所述待排序對象的排序。

8.  一種對對象進行排序的裝置,其特征在于,包括:
獲取模塊,獲取用戶的近期行為涉及的關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型;
確定模塊,用于根據所述關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型,使用預先建立的用戶當前偏好預測模型,確定用戶當前偏好的對象的特征;以及
調整模塊,用于根據確定的用戶當前偏好,調整與所述用戶當前偏好相關的待排序對象的排序因子,以影響待排序對象的排序。

9.  根據權利要求8所述的裝置,其特征在于,所述用戶當前偏好預測模型通過以下模塊建立:
標注模塊,用于標注對象的特征標簽;以及
建立模塊,用于根據過去某一時間段內的用戶歷史行為獲取關鍵詞、關鍵詞出現標識序列、關鍵詞所對應的行為類型,進行機器學習的模型訓練,建立用戶當前偏好預測模型。

10.  根據權利要求9所述的裝置,其特征在于,所述確定模塊包括:
建立子模塊,用于根據過去某一時間段內的用戶歷史行為涉及的關鍵詞建立用戶-關鍵詞矩陣;
第一計算子模塊,用于根據所述用戶-關鍵詞矩陣,通過對關鍵詞進行聚類形成一個或多個聚類,每一聚類對應一種主題,計算每一關鍵詞屬于各主題的概率;
獲得子模塊,用于獲取每一關鍵詞及其出現頻率,以得到對象的關鍵詞向量;
第二計算子模塊,用于根據每一個對象涉及的各關鍵詞屬于各主題的概率和該關鍵詞出現頻率,計算所述對象涉及的關鍵詞向量與各主題對應聚類中的關鍵詞向量的相似度;以及
取值子模塊,用于取相似度最大值所對應的主題作為所述對象的特征標簽。

11.  根據權利要求9所述的裝置,其特征在于,所述建立模塊包括:
選取子模塊,用于從過去某一時間段內的用戶歷史行為中,根據預定行為次數選取樣本;
提取子模塊,用于從提取的每一條樣本中獲取關鍵詞、關鍵詞的出現標識序列和關鍵詞所對應的行為類型;以及
訓練子模塊,用于以上述關鍵詞、關鍵詞的出現標識序列和關鍵詞所對應的行為類型的組合作為樣本特征,以與樣本特征相對應的對象的特征作為目標,進行機器學習模型的訓練,以得到用戶當前偏好預測模型。

12.  根據權利要求8-11之一所述的裝置,其特征在于,所述獲取模塊包括:
獲取子模塊,用于從所述近期行為中獲取關鍵詞、關鍵詞所對應的行為類型;以及
得到子模塊,用于按照關鍵詞在所述近期行為中的每個行為是否出現,得到關鍵詞的出現標識序列。

13.  根據權利要求8-11之一所述的裝置,其特征在于,所述確定模塊包括:
使用子模塊,用于以所述關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型的組合作為特征,以用戶當前偏好的對象的特征作為目標,使用預先建立的用戶當前偏好預測模型,得到各特征屬于各對象的特征的概率;
第三計算子模塊,用于根據各特征屬于各對象的特征的概率計算用戶當前偏好的對象的特征屬于各特征標簽的概率;以及
標簽確定子模塊,用于取概率最大值所對應的特征標簽作為用戶當前偏好的對象的特征標簽。

14.  根據權利要求8-11之一所述的裝置,其特征在于,所述調整模塊包括:
判斷模塊,用于根據確定的用戶當前偏好,判斷待排序對象是否具有用戶當前偏好的特征;
第一處理模塊,用于當待排序對象具有用戶當前偏好的特征時,提升所述待排序對象排序;以及
第二處理模塊,用于當待排序對象不具有用戶當前偏好的特征時,不提升所述待排序對象的排序。

說明書

說明書一種對對象進行排序的方法及裝置
技術領域
本申請涉及互聯網領域,更具體地,涉及一種對對象進行排序的方法及裝置。
背景技術
目前,已經存在一些根據對用戶偏好進行預測來向用戶提供數據搜索結果的方法,這些方法大部分是利用用戶的具體行為(例如:點擊)結合用戶的個性化特征來計算用戶偏好,然后根據計算出的用戶偏好向用戶提供個性化排序的數據處理結果。例如,用戶在電子商務網站進行搜索時,與個性化搜索結果排序相關的個性化特征主要分為兩類:一類是用戶的固有屬性特征,如性別、年齡、地域等;另一類是用戶的行為特征,如購買力、類目偏好、關鍵詞等。
然而,隨著人們生活要求的提高,衍生出了多種個性化需求。衡量這些個性化需求的維度除了固有的性別、年齡、購買力等以外,還包括一些比較抽象的興趣偏好,這種抽象化的興趣偏好可以使用用戶的風格偏好來描述。另外,由于用戶行為和興趣的多變性,還需要實時地預測用戶的風格偏好。
在現有技術中,由于主要依賴于用戶具體的行為對數據處理結果進行個性化排序,因此,如果用戶活躍度不足,有可能導致進行偏好類型計算的基礎數據較為稀疏,泛化能力較差。此外,如果關鍵詞粒度過細,還可能帶來一系列的數據膨脹等問題。同時,現有的方法很少利用用戶的實時行為序列來對用戶的未來行為進行預測,導致通過現有的技術方案得到的用戶個性化數據準確度不高。因此,通過這種泛化能力不強的技術方案得到的個性化數據處理結果不能準確地體現出用戶的興趣偏好,即,風格偏好,從而導致提 供給對應用戶的數據處理結果效率低、準確性差,用戶行為結果的排序不夠人性化,降低了用戶的體驗。
發明內容
本申請的主要目的在于,針對上述缺陷,提供對對象進行排序的技術,以解決由于用戶活躍度不足而導致的進行偏好類型計算的基礎數據較為稀疏、泛化能力差的問題,并且可以避免關鍵詞中的同義詞問題以及由于關鍵詞粒度過細帶來的一系列數據膨脹的問題。同時,通過用戶的實時行為序列進行建模,從而更準確地實時預測用戶當前的偏好,提升數據處理結果的準確性,提高用戶的體驗。
根據本申請的第一方面,提供了一種對對象進行排序的方法,其特征在于,包括:獲取用戶的近期行為涉及的關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型;根據所述關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型,使用預先建立的用戶當前偏好預測模型,確定用戶當前偏好的對象的特征;以及根據確定的用戶當前偏好,調整與所述用戶當前偏好相關的待排序對象的排序因子,以影響待排序對象的排序。
根據本申請的第二方面,提供了一種對對象進行排序的裝置,其特征在于,包括:獲取模塊,獲取用戶的近期行為涉及的關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型;確定模塊,用于根據所述關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型,使用預先建立的用戶當前偏好預測模型,確定用戶當前偏好的對象的特征;以及調整模塊,用于根據確定的用戶當前偏好,調整與所述用戶當前偏好相關的待排序對象的排序因子,以影響待排序對象的排序。
與現有技術相比,根據本申請的技術方案,能夠在用戶發生行為操作時,通過對用戶實時用戶行為(如:點擊、收藏、搜索)的關鍵詞進行抽象,形成泛化的有關風格類型的偏好,更準確地對用戶當前偏好的對象的特征進行預測,從而避免在現有技術中因為用戶活躍度不足而導致的基礎數據稀疏、 泛化能力差的問題,關鍵詞中的同義詞問題、以及由于關鍵詞粒度過細帶來的一系列數據膨脹等缺陷,同時,通過用戶的實時行為序列進行建模,進而使用戶實時行為結果的排序更加人性化,提高了用戶的體驗。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
圖1是根據本申請一個實施例的對對象進行排序的方法的流程圖;
圖2是根據本申請一個實施例的建立用戶當前偏好預測模型的方法的流程圖;
圖3是根據本申請的更詳細實施例的對對象進行排序的方法的流程圖;以及
圖4是根據本申請一個實施例的對對象進行排序的裝置的框圖。
具體實施方式
本申請的主要思想在于,通過結合用戶在當前時間點之前的近期行為特征數據來確定用戶當前偏好的對象的特征,并且根據確定的用戶當前偏好來調整與該當前偏好相關的待排序對象的排序因子。本方案借助近期行為特征數據分析各特征數據與最終偏好的特征之間的關系,能夠更準確地對用戶行為偏好的對象的特征進行確定,并用該偏好的特征來指導用戶對應的搜索行為結果的排序,向用戶提供更個性化的對象排序結果。
為描述本申請的方案,下面將以用戶行為量巨大的且易理解的電子商務平臺為例,進行具體說明。
為了方便下文描述,先介紹部分術語解釋。
風格類型:代表對象特色的一種抽象性描述,如電子商務平臺中的女裝下的歐美風格、日韓風格等,家居類目中的歐式風格、田園風格等。
行為日志:在電子商務網站上,用戶的各種操作都會被記錄下來作為用戶日志,具體包括:搜索、品類瀏覽、查看對象、在對象詳情頁上的操作(如購買/收藏)以及這些行為的時間序列關系。
歷史行為:如果該次行為是發生在過去的時間內,稱為歷史行為。
近期行為:當前時間點之前的預設行為次數的行為。
為使本申請的目的、技術方案和優點更加清楚,下面將結合本申請具體實施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
圖1是根據本申請一個實施例的對對象進行排序的方法100的流程圖。如圖1所示,方法100開始于步驟101。
在步驟101,獲取用戶的近期行為涉及的關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型。
具體來說,從在線行為日志中可以得到用戶當前時間點之前的行為數據。在確定當前的時間點后,可以根據預先設定行為次數,將當前時間點之前的這些行為的行為序列確定為近期行為。例如,將從當前時間點到該時間點之前的7次行為作為近期行為。
在行為日志中提取近期行為的行為記錄后,可以根據預定規則得到該行為記錄涉及的數據對象(例如文檔),通過對所述數據對象的語義分析得到一個或多個關鍵詞。例如,在電子商務平臺,從日志文件可以得到搜索、品類瀏覽、查看對象、在對象詳情頁上的操作(如購買/收藏)以及這些行為的 時間序列關系。基于這些行為記錄涉及的對象的相關文本信息,按照預定規則,可以得到一個或多個關鍵詞。同時,需要獲取與每個關鍵詞相對應的行為類型,如點擊、搜索、收藏等。用戶的近期行為涉及的關鍵詞也可以是用戶的近期行為涉及的對象的在某一特征屬性上的標簽。
此外,通過獲取近期行為記錄涉及的對象的一個或多個關鍵詞,可以按照各關鍵詞在用戶近期行為中的每個行為涉及的對象中是否出現,得到關鍵詞出現標識序列。
例如:在電子商務平臺,將從當前時間點到之前的5次點擊行為作為近期行為,所點擊的對象包含的關鍵詞分別為:
第一次點擊的對象包含的關鍵詞:{甜美,歐美,純棉,卡通,歐洲站}
第二次點擊的對象包含的關鍵詞:{甜美,卡通,蝴蝶結}
第三次點擊的對象包含的關鍵詞:{甜美,純棉,骷髏}
第四次點擊的對象包含的關鍵詞:{歐美,歐洲站,骷髏}
第五次點擊的對象包含的關鍵詞:{歐美,純棉,骷髏}
本實施例中,可以為每個關鍵詞建立該關鍵詞在用戶近期行為中的每個行為涉及的對象中出現情況的記錄。當該關鍵詞在某次行為中出現,則對應該次行為在該記錄中進行一次標識。所形成的記錄可以稱為關鍵詞的出現標識序列。所述出現標識序列可以通過數字序列的方式表示。所述出現標識序列包括一個或多個標識位,每一標識位分別與用戶的每個行為對應,每一標識位分別用于標識該關鍵詞在對應的一次行為涉及的對象中是否出現。
例如,按照上述每個關鍵詞(去重后)在每次點擊行為涉及的對象中是否出現,如出現,則在該關鍵詞的出現標識序列中對應該次點擊行為的標識位以數字“1”進行標識,如未出現,則在該關鍵詞的出現標識序列中對應該次點擊行為的標識位以數字“0”進行標識。這樣,可以得到上述各關鍵詞的出現標識序列:
甜美:“11100”
歐美:“10011”
純棉:“10101”
卡通:“11000”
歐洲站:“10010”
骷髏:“00111”
蝴蝶結:“01000”
在步驟102,根據所述關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型,使用預先建立的與用戶行為涉及的對象特征有關的用戶當前偏好預測模型,確定用戶當前偏好的對象的特征。
具體來說,對用戶行為涉及的對象的特征可以是預先設定的該對象在某一屬性上的標簽。例如,在對商品對象進行特征描述時,可以使用風格類型來表示該商品對象的一種抽象特征。這里的風格類型是代表對象特色的一種抽象性描述,如電子商務平臺中的女裝下的歐美風格、日韓風格等,家居類目中的歐式風格、田園風格等。可以將通過根據用戶歷史日志獲取的用戶歷史行為涉及的關鍵詞、與關鍵詞對應的行為類型和關鍵詞出現標識序列等參數組合作為特征,將用戶歷史行為所針對涉及的對象的特征作為目標,建立與用戶行為涉及的對象特征有關的用戶當前偏好預測模型,如利用最大熵分類模型訓練得到的概率模型。所述用戶當前偏好預測模型在用戶使用的關鍵詞、關鍵詞在最近行為中的出現標識序列和關鍵詞所對應的行為類型等關鍵詞特征與用戶行為涉及的對象的特征之間建立關聯關系。
根據用戶近期使用的關鍵詞的特征,使用所述用戶當前偏好預測模型可以得到用戶當前的偏好。
在步驟103,根據確定的用戶當前偏好,調整與用戶當前偏好相關的待排序對象的排序因子,以影響待排序對象的排序。
具體來說,在得到用戶當前的偏好的特征后,可以對用戶當前偏好的特征與待排序對象的特征分別進行相似性或相關性判斷,根據判斷結果,對待排序對象的與用戶當前偏好的特征相關的排序因子進行調整,從而影響待排序對象的排序。
根據本申請的一個實施例,可以將具有用戶當前偏好的特征的待排序對 象的排序進行提升。
至此,描述了根據本申請一個實施例的對對象進行排序的方法100的流程圖。本實施例的方法100通過結合用戶在當前時間點之前的近期行為的特征數據來確定用戶當前偏好的特征,并且根據確定的用戶當前的偏好來調整與該當前偏好相關的待排序對象的排序因子。與現有技術相比,本申請實施例可以更準確地對用戶當前的偏好進行預判,并用用戶當前的偏好來指導用戶當前行為對應的搜索結果的排序,向用戶提供更個性化、人性化的對象排序結果。
此外,步驟102中所使用的用戶當前偏好預測模型可以預先設定,也可以通過機器學習模型的訓練得到。
根據本申請的一個實施例,所述的用戶當前偏好預測模型通過以下步驟建立:獲取數據庫中的用戶歷史行為涉及的對象的特征;以及根據預設的一段時間內的用戶歷史行為獲取關鍵詞、關鍵詞出現標識序列、關鍵詞所對應的行為類型和對象的風格類型,進行機器學習的模型訓練,建立用戶當前偏好的偏好預測模型。
用戶當前偏好預測模型的建立過程將在下文中詳細描述。
圖2是根據本申請實施例的建立用戶當前偏好預測模型的方法200的流程圖。如圖2所示,方法200開始于步驟201。
首先,在步驟201,根據過去某一時間段內的用戶歷史行為涉及的關鍵詞建立用戶-關鍵詞矩陣。
具體而言,通過用戶日志文件可以獲取過去一段時間內的用戶的歷史行為記錄,根據該時間段內的歷史行為記錄中每個行為所涉及的對象包含的關鍵詞或風格標簽,可以形成用戶-關鍵詞矩陣。
例如,在電子商務平臺,通過用戶歷史日志獲取從當前時間到過去一個月內的行為記錄,以此挖掘用戶-關鍵詞的點擊行為,形成用戶-關鍵詞的矩陣A,如下所示:
矩陣A:
 關鍵詞1關鍵詞2關鍵詞3關鍵詞4用戶1W11W12W13W14用戶2W21W22W23w24用戶3W31W32W33W34
由矩陣A可知,從當前到當前一個月內,共有3個用戶發生點擊行為,共涉及到4個關鍵詞,W11代表用戶1點擊關鍵詞1的次數,W12代表用戶1點擊關鍵詞2的次數,以此類推。這樣,就建立了用戶-關鍵詞的矩陣A。
通過這種方法,可以建立過去任一時間段內的用戶-關鍵詞矩陣。
然后,進入步驟202,根據用戶-關鍵詞矩陣,通過對關鍵詞進行聚類形成一個或多個聚類,每一聚類對應一種主題,計算每一關鍵詞屬于各主題的概率。
在這個步驟中,可以通過PLSA(概率潛語義分析)方法對步驟201獲取的關鍵詞進行聚類,也就是說,把用戶和關鍵詞都映射到一個隱含的主題空間上,該隱含的主題空間就是風格,從而可以得到每個關鍵詞屬于各個主題的概率矩陣。
例如,在電子商務平臺,以商品的風格類型作為所述的主題。以存在兩個風格類型為例,通過PLSA方法可以通過用戶-關鍵詞矩陣得到如下的每個關鍵詞屬于各個風格類型(即主題)的概率矩陣:
風格1:
抹胸  0.200316
裹胸  0.118473
掛脖  0.109674
抹胸裙  0.0668498
吊帶  0.0580471
露背  0.0502866
交叉  0.0444334
派對  0.0325834
吊帶裙  0.032397
裹胸裙  0.0302184
風格2:
森女  0.128117
文藝  0.0967896
森林  0.0865181
森林系  0.0780099
棉麻  0.0725525
日系  0.0412643
森系  0.0333173
文藝范  0.0331822
碎花  0.0215523
在步驟203,獲取每一關鍵詞及其出現頻率,以得到對象的關鍵詞向量。
在這個步驟中,首先,可以通過各對象的標題和屬性等抽取關鍵詞,由獲取的關鍵詞和其出現的頻率形成該對象關鍵詞向量。
在步驟204,根據每一個對象涉及的各關鍵詞屬于各主題的概率和該關鍵詞出現頻率,計算該對象涉及的關鍵詞向量與各主題對應聚類中的關鍵詞向量的相似度。
下面,對步驟203至204舉例說明。
例如,在電子商務平臺,假設某商品標題和屬性的關鍵詞向量A=[吊帶裙:1,文藝:1,森林:1,森女:1],風格1、風格2的關鍵詞向量B1,B2如上例中風格1和風格2所示,則二者的相似度可以使用公式(1)計算:
similarity=cos(θ)=A·B||A||||B||=Σi=1nAi×BiΣi=1n(Ai)2×Σi=1n(Bi)2]]>    公式(1)
通過公式(1),可以得出該商品的關鍵詞與風格1的關鍵詞的相似度similarity(A,B1)和該商品的關鍵詞與風格2的關鍵詞的相似度similarity(A,B2)。
之后,在步驟205,取相似度最大值所對應的主題作為該對象的特征標簽。
通過使用步驟201至205的方法,可以得到數據庫中涉及的所有對象的特征標簽。
至此,完成了線下對對象的風格類型的挖掘,即,確定了每一個對象的特征標簽。
在步驟206,從過去某一時間段內的用戶歷史行為中,根據預定行為次數選取樣本。具體來說,可以將過去某一時間段內的用戶歷史行為中的行為序列作為樣本數據,按照預定行為次數選取樣本。具體來說,可以按照每次取一定數量行為次數的規則進行樣本提取。例如,在電子商務平臺,選取過去某一時間點之前的48小時內的行為序列,從中選取樣本特征。具體來說,例如,提取特征的窗口可以從該時間段內的第一個行為開始,每一次提取8次行為作為一條訓練樣本,從其中前7次行為中抽取特征,把第8次行為所涉及的對象的特征作為訓練目標。對本次行為序列的特征提取完成后,窗口向后滑動一位(行為),繼續提取下一條樣本,直到提取完所有樣本。
之后,在步驟207,從提取的每一條樣本中獲取關鍵詞、關鍵詞的出現標識序列和關鍵詞所對應的行為類型。
例如,每次提取8個行為作為一條訓練樣本,在每一條樣本中,從前7次行為中提取關鍵詞、關鍵詞的出現標識序列和關鍵詞所對應的行為類型,將第8次行為所涉及的對象的特征(風格偏好)作為目標。在這里,行為類型是在用戶行為歷史日志中用戶對所涉及的對象的行為方式類型,例如,點擊、搜索等。
下面,舉例說明特征提取的方法。
例如,在電子商務平臺,在過去某一時間點之前的48小時內進行樣本選取,假設每一次選取8個行為作為一條樣本。如在選取的一條樣本中,用戶發生了8次行為,其中前7次行為的關鍵詞分別為:
第一次點擊的對象包含的關鍵詞:{甜美,歐美,純棉,卡通,歐洲站}
第二次收藏的對象包含的關鍵詞:{歐美,長款}
第三次點擊的對象包含的關鍵詞:{甜美,卡通,蝴蝶結}
第四次點擊的對象包含的關鍵詞:{甜美,純棉,骷髏}
第五次點擊的對象包含的關鍵詞:{歐美,歐洲站,骷髏}
第六次收藏的對象包含的關鍵詞:{韓版,長款}
第七次點擊的對象包含的關鍵詞:{歐美,純棉,骷髏}
其中,可得到點擊的對象包含的關鍵詞如下:
第一次點擊的對象包含的關鍵詞:{甜美,歐美,純棉,卡通,歐洲站}
第三次點擊的對象包含的關鍵詞:{甜美,卡通,蝴蝶結}
第四次點擊的對象包含的關鍵詞:{甜美,純棉,骷髏}
第五次點擊的對象包含的關鍵詞:{歐美,歐洲站,骷髏}
第七次點擊的對象包含的關鍵詞:{歐美,純棉,骷髏}
例如,按照上述每個關鍵詞(去重后)在每次點擊行為涉及的對象中是否出現,如出現,則在該關鍵詞的出現標識序列中對應該次點擊行為的標識位以數字“1”進行標識,如未出現,則在該關鍵詞的出現標識序列中對應該次點擊行為的標識位以數字“0”進行標識。這樣,可以得到上述各關鍵詞的出現標識序列:
甜美:“11100”
歐美:“10011”
純棉:“10101”
卡通:“11000”
歐洲站:“10010”
骷髏:“00111”
蝴蝶結:“01000”
同理可得收藏的對象包含的關鍵詞如下:
第二次收藏的對象包含的關鍵詞:{歐美,長款}
第六次收藏的對象包含的關鍵詞:{韓版,長款}
按照上述每個關鍵詞(去重后)在每次點擊行為涉及的對象中是否出現,如出現,則在該關鍵詞的出現標識序列中對應該次點擊行為的標識位以數字“1”進行標識,如未出現,則在該關鍵詞的出現標識序列中對應該次點擊行為的標識位以數字“0”進行標識。這樣,可以得到上述收藏對象的各關鍵詞的出現標識序列:
歐美:“10”
長款:“11”
韓版:“01”
在步驟208,以上述關鍵詞、關鍵詞的出現標識序列和關鍵詞所對應的行為類型的組合作為樣本特征,以與樣本特征相對應的對象的特征作為目標,進行機器學習模型的訓練,例如,利用最大熵分類模型進行機器學習模型的訓練,可以得到用戶當前偏好預測模型。
每個關鍵詞本身、該關鍵詞的出現標識序列、以及該關鍵詞所對應的行為類型組合后作為模型訓練樣本的一個特征。例如,在上例中,關鍵詞“骷髏”的出現標識序列為“00111”,則“骷髏#00111#點擊”作為該樣本的一個特征,“韓版#01#收藏”作為一個樣本特征。以與上述7個行為相對應的下一個行為的對象的特征(風格類型)為目標。通過這種方法可以學習出不同的行為類型對后序偏好風格的影響。
在行為序列樣本中依次選取樣本特征,直到窗口移動到最后一個行為,這樣,可得到特征集合為{f1,f2,f3,……,fn},與樣本特征相對應的對象的特征作為目標,可得到目標集合為{s1,s2,s3,……,sm}。
根據本申請的一個實施例,可以將關鍵詞本身、該關鍵詞的出現標識序列和該關鍵詞所對應的行為類型的組合作為樣本特征,將樣本特征所對應的對象的特征作為目標,訓練最大熵分類模型。
假設特征集合為{f1,f2,f3,……,fn},目標集合為{s1,s2,s3,……,sm},則模型可得到每個特征在各個目標上的權重。設模型為矩陣M,則Mij=第i個特征在第j個目標上的權重。
至此,完成了模型訓練的過程。該模型訓練的過程通過線下用戶行為記錄模擬線上用戶行為操作,以關鍵詞、關鍵詞出現標識序列、關鍵詞所對應的行為類型等組合作為樣本特征,將樣本特征所對應的對象的特征作為目標,通過模型訓練,獲取各特征權重。
圖3是根據本申請的更詳細實施例的對對象進行排序的方法300的流程圖。方法300開始于步驟301。
首先,在步驟301,從近期行為中獲取關鍵詞、關鍵詞所對應的行為類型。
用戶在當前時間點之前的預設次數的行為為近期行為。可以從實時日志中獲取這些行為的行為記錄,從中抽取關鍵詞和關鍵詞對應的行為類型作為特征,特征的提取方法與訓練用戶當前偏好模型時提取特征的方法類似。具體來說,將訓練用戶當前偏好預測模型時,每一條訓練樣本的特征提取的行為次數作為實時在線預測用戶當前偏好時需要選取的當前時間點之前的行為次數。例如,選取當前時間點之前該用戶的七次行為的行為序列,從中提取關鍵詞、關鍵詞所對應的行為類型,作為特征。
然后,在步驟302,按照關鍵詞在近期行為的每個行為中是否出現,得到關鍵詞的出現標識序列。對本步驟的描述與步驟206類似,在此不再贅述。
之后,在步驟303,以關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型的組合作為特征,以當前偏好的對象的特征作為目標,使用用戶當前偏好預測模型,得到各特征屬于各對象的特征的概率。
在步驟304,根據各特征屬于各對象的特征的概率計算用戶當前偏好的對象屬于各特征標簽的概率。
在步驟305,取概率最大值所對應的特征標簽作為用戶當前偏好的對象 的特征標簽。
下面,對步驟301至305舉例說明。
例如,在電子商務平臺,通過在線實時日志分析系統得到用戶的實時行為,假設選取用戶在當前時間點之前的7次行為中的關鍵詞分別為:
第一次點擊的對象包含的關鍵詞:{甜美,歐美,純棉,卡通,歐洲站}
第二次收藏的對象包含的關鍵詞:{歐美,長款}
第三次點擊的對象包含的關鍵詞:{甜美,卡通,蝴蝶結}
第四次點擊的對象包含的關鍵詞:{甜美,純棉,骷髏}
第五次點擊的對象包含的關鍵詞:{歐美,歐洲站,骷髏}
第六次收藏的對象包含的關鍵詞:{韓版,長款}
第七次點擊的對象包含的關鍵詞:{歐美,純棉,骷髏}
根據以上行為序列,以關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型的組合作為特征,可以得到如下特征F1至F10:
F1:甜美#11100#點擊
F2:歐美#10011#點擊
F3:純棉#10101#點擊
F4:卡通#11000#點擊
F5:歐洲站#10010#點擊
F6:骷髏#00111#點擊
F7:蝴蝶結#01000#點擊
F8:韓版#01#收藏
F9:歐美#10#收藏
F10:長款#11#收藏
假設特征標簽分類目標:S1=甜美風格,S2=歐美風格,將上述特征作為特征,通過使用預先建立的用戶當前偏好預測模型,可以得出如下矩陣B,該矩陣顯示了每一條特征屬于各特征標簽的概率:
矩陣B:
 F1F2F3F4F5F6F7F8F9F10S10.2-0.50.050.01-0.2-0.71.00.01-0.60.01S2-0.70.50.020.010.61.0-0.9-0.10.50.01
之后,可以使用最大熵概率預測公式計算各個特征標簽的分數,并且取得分最高的特征標簽作為用戶當前偏好的對象的特征標簽。
最大熵概率預測公式為:
scorej=e^∑fiMij    (公式2)
在公式2中,fi為特征集合{f1,f3,……,fk}中的特征(i=1~k),Mij=第i個特征在第j個目標上的權重。
本例中,預測當前點擊S1甜美風格的對象的概率為:
P(S1)=2.7^(0.2-0.5+0.05+0.01-0.2-0.7+1.0+0.01-0.6+0.01)=0.49
預測當前點擊S2歐美風格的對象的概率為:
P(S2)=2.7^(-0.7+0.5+0.02+0.01+0.6+1.0-0.9-0.1+0.5+0.01)=2.54
因此,可預測(確定)出用戶當前偏好的對象的特征為歐美風格。
在步驟306,根據確定的用戶當前偏好,判斷待排序對象是否具有用戶當前偏好的特征。
當待排序對象具有用戶當前偏好的特征時,執行步307,提升待排序對象的排序。
當待排序對象不具有用戶當前偏好的特征時,執行步驟308,不提升待排序對象的排序。
根據本申請的一個實施例,與用戶當前偏好相關的排序因子可以通過線性加權的方式與其他排序因子共同作用,從而決定待排序對象最終的排序結果。
至此,描述了根據本申請更詳細實施例的對對象進行排序的方法300的流程圖。與方法100相比,該方法300提供了線上實時預測風格類型的詳細步驟,該方法300同樣可以準確地對用戶當前偏好的對象的特征進行確定,并用該特征來指導用戶行為結果的排序,向用戶提供更個性化的對象排序結果。
圖4是根據本申請一個實施例的對對象進行排序的裝置的框圖。
如圖4所示,裝置400可以包括:獲取模塊401,獲取用戶的近期行為涉及的關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型;確定模塊402,用于根據所述關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型,使用預先建立的用戶當前偏好預測模型,確定用戶當前偏好的對象的特征;以及調整模塊403,用于根據確定的用戶當前偏好,調整與所述用戶當前偏好相關的待排序對象的排序因子,以影響待排序對象的排序。
根據本申請的一個實施例,所述用戶當前偏好預測模型可以通過以下模塊建立:標注模塊,用于標注對象的特征標簽;以及建立模塊,用于根據過去某一時間段內的用戶歷史行為獲取關鍵詞、關鍵詞出現標識序列、關鍵詞所對應的行為類型,進行機器學習的模型訓練,建立用戶當前偏好預測模型。
根據本申請的一個實施例,所述確定模塊402可以包括:建立子模塊,用于根據過去某一時間段內的用戶歷史行為涉及的關鍵詞建立用戶-關鍵詞矩陣;第一計算子模塊,用于根據所述用戶-關鍵詞矩陣,通過對關鍵詞進行聚類形成一個或多個聚類,每一聚類對應一種主題,計算每一關鍵詞屬于各主題的概率;獲得子模塊,用于獲取每一關鍵詞及其出現頻率,以得到對象的關鍵詞向量;第二計算子模塊,用于根據每一個對象涉及的各關鍵詞屬于各主題的概率和該關鍵詞出現頻率,計算所述對象涉及的關鍵詞向量與各主題對應聚類中的關鍵詞向量的相似度;以及取值子模塊,用于取相似度最大值所對應的主題作為所述對象的特征標簽。
根據本申請的一個實施例,所述建立模塊可以包括(未示出):選取子模塊,用于從過去某一時間段內的用戶歷史行為中,根據預定行為次數選取樣本;提取子模塊,用于從提取的每一條樣本中獲取關鍵詞、關鍵詞的出現標識序列和關鍵詞所對應的行為類型;以及訓練子模塊,用于以上述關鍵詞、 關鍵詞的出現標識序列和關鍵詞所對應的行為類型的組合作為樣本特征,以與樣本特征相對應的對象的特征作為目標,進行機器學習模型的訓練,以得到用戶當前偏好預測模型。
根據本申請的一個實施例,所述獲取模塊401可以包括:獲取子模塊,用于從所述近期行為中獲取關鍵詞、關鍵詞所對應的行為類型;以及得到子模塊,用于按照關鍵詞在所述近期行為中的每個行為是否出現,得到關鍵詞的出現標識序列。
根據本申請的一個實施例,所述確定模塊402可以包括:使用子模塊,用于以所述關鍵詞、關鍵詞出現標識序列和關鍵詞所對應的行為類型的組合作為特征,以用戶當前偏好的對象的特征作為目標,使用預先建立的用戶當前偏好預測模型,得到各特征屬于各對象的特征的概率;第三計算子模塊,用于根據各特征屬于各對象的特征的概率計算用戶當前偏好的對象的特征屬于各特征標簽的概率;以及標簽確定子模塊,用于取概率最大值所對應的特征標簽作為用戶當前偏好的對象的特征標簽。
根據本申請的一個實施例,所述調整模塊403可以包括:判斷模塊,用于根據確定的用戶當前偏好,判斷待排序對象是否具有用戶當前偏好的特征;第一處理模塊,用于當待排序對象具有用戶當前偏好的特征時,提升所述待排序對象排序;以及第二處理模塊,用于當待排序對象不具有用戶當前偏好的特征時,不提升所述待排序對象的排序。
由于本實施例的裝置所實現的功能基本相應于前述圖1至圖3所示的方法實施例,故本實施例的描述中未詳盡之處,可以參見前述實施例中的相關說明,在此不做贅述。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網絡接口和內存。
內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或閃存(flashRAM)。內存是計算機可讀介質的示例。
計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限于相變內存(PRAM)、靜態隨機存取存儲器(SRAM)、動態隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器(CD-ROM)、數字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質,可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括暫存電腦可讀媒體(transitory media),如調制的數據信號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本申請的實施例可提供為方法、系統或計算機程序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
以上所述僅為本申請的實施例而已,并不用于限制本申請。對于本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本申請的權利要求范圍之內。

關 鍵 詞:
一種 對象 進行 排序 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種對對象進行排序的方法及裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6381546.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图