• / 12
  • 下載費用:30 金幣  

用戶行為相似性計算方法及裝置.pdf

摘要
申請專利號:

CN201510618301.5

申請日:

2015.09.24

公開號:

CN105260414A

公開日:

2016.01.20

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||著錄事項變更IPC(主分類):G06F 17/30變更事項:申請人變更前:精碩世紀科技(北京)有限公司變更后:精碩科技(北京)股份有限公司變更事項:地址變更前:100010 北京市東城區南竹桿胡同1號9層1007變更后:100041 北京市石景山區實興大街30號院3號樓9層9014房間|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150924|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 精碩世紀科技(北京)有限公司
發明人: 李倚
地址: 100010北京市東城區南竹桿胡同1號9層1007
優先權:
專利代理機構: 北京同立鈞成知識產權代理有限公司11205 代理人: 宋揚; 黃健
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510618301.5

授權公告號:

|||||||||

法律狀態公告日:

2018.10.19|||2017.06.09|||2016.02.17|||2016.01.20

法律狀態類型:

授權|||著錄事項變更|||實質審查的生效|||公開

摘要

本發明實施例提供一種用戶行為相似性計算方法及裝置。該方法包括:采集第一類用戶和第二類用戶的多個行為特征中每個行為特征對應的行為特征值;對多個行為特征進行篩選獲得目標行為特征集合;依據所述目標行為特征集合建立第一廣義線性模型,利用最優化方法計算所述第一廣義線性模型的第一極大似然估計值,并獲得所述第一極大似然估計值對應的估計參數;利用所述估計參數和待測用戶對應的所述目標行為特征集合中每個行為特征對應的行為特征值計算所述待測用戶與所述第一類用戶的行為相似度。本發明實施例通過充分利用大量用戶的行為特征分析不同用戶行為的相似性,提高了對采集到的大量用戶的行為特征的利用率。

權利要求書

1.一種用戶行為相似性計算方法,其特征在于,包括:
采集第一類用戶的多個行為特征中每個行為特征對應的行為特征值,以
及第二類用戶的所述多個行為特征中每個行為特征對應的行為特征值;
依據所述第一類用戶對應的多個行為特征值和所述第二類用戶對應的多
個行為特征值對所述多個行為特征進行篩選獲得目標行為特征集合;
依據所述目標行為特征集合建立第一廣義線性模型,利用最優化方法計
算所述第一廣義線性模型的第一極大似然估計值,并獲得所述第一極大似然
估計值對應的估計參數;
利用所述估計參數和待測用戶對應的所述目標行為特征集合中每個行為
特征對應的行為特征值計算所述待測用戶與所述第一類用戶的行為相似度。
2.根據權利要求1所述的方法,其特征在于,所述依據所述第一類用戶
對應的多個行為特征值和所述第二類用戶對應的多個行為特征值對所述多個
行為特征進行篩選獲得目標行為特征集合,包括:
依據所述第一類用戶對應的多個行為特征值和所述第二類用戶對應的多
個行為特征值計算所述多個行為特征中每個行為特征分別對應的覆蓋率、卡
方統計量和信息熵;
從所述多個行為特征中刪除覆蓋率小于第一閾值的行為特征、卡方統計
量小于第二閾值的行為特征和信息熵小于第三閾值的行為特征獲得第一行為
特征集合;
刪除所述第一行為特征集合中關聯度大于第四閾值的兩個行為特征中的
任意一個行為特征獲得第二行為特征集合;
依據所述第二行為特征集合建立第二廣義線性模型,利用最優化方法計
算所述第二廣義線性模型的極大似然估計值,刪除所述第二行為特征集合中
對所述第二極大似然估計值沒有影響的行為特征獲得所述目標行為特征集
合。
3.根據權利要求1或2所述的方法,其特征在于,所述第一類用戶為符
合第一目標行為特征的用戶,所述第二類用戶為符合第二目標行為特征的用
戶,所述第一目標行為特征和所述第二目標行為特征具有部分相同的行為特
征。
4.根據權利要求3所述的方法,其特征在于,所述利用所述估計參數和
待測用戶對應的所述目標行為特征集合中每個行為特征對應的行為特征值計
算所述待測用戶與所述第一類用戶的行為相似度,包括:
將所述估計參數構成第一向量,將所述待測用戶對應的所述目標行為特
征集合中每個行為特征對應的行為特征值構成第二向量;
計算所述第一向量和所述第二向量的內積獲得所述行為相似度。
5.根據權利要求4所述的方法,其特征在于,所述利用所述估計參數和
待測用戶對應的所述目標行為特征集合中每個行為特征對應的行為特征值計
算所述待測用戶與所述第一類用戶的行為相似度之后,還包括:
判斷比較所述行為相似度是否大于第五閾值;
若所述行為相似度大于所述第五閾值,則判斷所述待測用戶與所述第一
類用戶的行為相似;
統計所有待測用戶中與所述第一類用戶的行為相似的待測用戶的比例。
6.一種用戶行為相似性計算裝置,其特征在于,包括:
采集模塊,用于采集第一類用戶的多個行為特征中每個行為特征對應的
行為特征值,以及第二類用戶的所述多個行為特征中每個行為特征對應的行
為特征值;
篩選模塊,用于依據所述第一類用戶對應的多個行為特征值和所述第二
類用戶對應的多個行為特征值對所述多個行為特征進行篩選獲得目標行為特
征集合;
建模模塊,用于依據所述目標行為特征集合建立第一廣義線性模型,利
用最優化方法計算所述第一廣義線性模型的第一極大似然估計值,并獲得所
述第一極大似然估計值對應的估計參數;
計算模塊,用于利用所述估計參數和待測用戶對應的所述目標行為特征
集合中每個行為特征對應的行為特征值計算所述待測用戶與所述第一類用戶
的行為相似度。
7.根據權利要求6所述的用戶行為相似性計算裝置,其特征在于,所述
篩選模塊具體用于依據所述第一類用戶對應的多個行為特征值和所述第二類
用戶對應的多個行為特征值計算所述多個行為特征中每個行為特征分別對應
的覆蓋率、卡方統計量和信息熵;從所述多個行為特征中刪除覆蓋率小于第
一閾值的行為特征、卡方統計量小于第二閾值的行為特征和信息熵小于第三
閾值的行為特征獲得第一行為特征集合;刪除所述第一行為特征集合中關聯
度大于第四閾值的兩個行為特征中的任意一個行為特征獲得第二行為特征集
合;依據所述第二行為特征集合建立第二廣義線性模型,利用最優化方法計
算所述第二廣義線性模型的極大似然估計值,刪除所述第二行為特征集合中
對所述第二極大似然估計值沒有影響的行為特征獲得所述目標行為特征集
合。
8.根據權利要求6或7所述的用戶行為相似性計算裝置,其特征在于,
所述第一類用戶為符合第一目標行為特征的用戶,所述第二類用戶為符合第
二目標行為特征的用戶,所述第一目標行為特征和所述第二目標行為特征具
有部分相同的行為特征。
9.根據權利要求8所述的用戶行為相似性計算裝置,其特征在于,所述
計算模塊具體用于將所述估計參數構成第一向量,將所述待測用戶對應的所
述目標行為特征集合中每個行為特征對應的行為特征值構成第二向量;計算
所述第一向量和所述第二向量的內積獲得所述行為相似度。
10.根據權利要求9所述的用戶行為相似性計算裝置,其特征在于,還
包括:
判斷模塊,用于判斷比較所述行為相似度是否大于第五閾值;若所述行
為相似度大于所述第五閾值,則判斷所述待測用戶與所述第一類用戶的行為
相似;
統計模塊,用于統計所有待測用戶中與所述第一類用戶的行為相似的待
測用戶的比例。

說明書

用戶行為相似性計算方法及裝置

技術領域

本發明實施例涉及計算機技術領域,尤其涉及一種用戶行為相似性計算
方法及裝置。

背景技術

隨著計算機技術的發展,用戶通過個人PC或移動終端連接互聯網并瀏覽
網絡信息。

用戶瀏覽網絡信息時通常會點擊其感興趣的信息,例如,用戶通過個人
PC瀏覽網頁,該網頁包括很多條信息,用戶在瀏覽過程中,先看到每條信息
的標題,若其對該標題感興趣,將點擊該標題,詳細瀏覽該標題對應的內容。
現有技術可以采集到大量用戶的行為特征,例如瀏覽網頁操作、點擊網頁操
作、瀏覽或點擊的網頁信息、點擊的內容信息、點擊網頁信息的次數、點擊
的時間等。

但是,現有技術中缺乏利用大量用戶的行為特征分析不同用戶行為的相
似性的方法,導致對采集到的大量用戶的行為特征的利用率較低。

發明內容

本發明實施例提供一種用戶行為相似性計算方法及裝置,以提高對采集
到的大量用戶的行為特征的利用率。

本發明實施例的一個方面是提供一種用戶行為相似性計算方法,包括:

采集第一類用戶的多個行為特征中每個行為特征對應的行為特征值,以
及第二類用戶的所述多個行為特征中每個行為特征對應的行為特征值;

依據所述第一類用戶對應的多個行為特征值和所述第二類用戶對應的多
個行為特征值對所述多個行為特征進行篩選獲得目標行為特征集合;

依據所述目標行為特征集合建立第一廣義線性模型,利用最優化方法計
算所述第一廣義線性模型的第一極大似然估計值,并獲得所述第一極大似然
估計值對應的估計參數;

利用所述估計參數和待測用戶對應的所述目標行為特征集合中每個行為
特征對應的行為特征值計算所述待測用戶與所述第一類用戶的行為相似度。

本發明實施例的另一個方面是提供一種用戶行為相似性計算裝置,包括:

采集模塊,用于采集第一類用戶的多個行為特征中每個行為特征對應的
行為特征值,以及第二類用戶的所述多個行為特征中每個行為特征對應的行
為特征值;

篩選模塊,用于依據所述第一類用戶對應的多個行為特征值和所述第二
類用戶對應的多個行為特征值對所述多個行為特征進行篩選獲得目標行為特
征集合;

建模模塊,用于依據所述目標行為特征集合建立第一廣義線性模型,利
用最優化方法計算所述第一廣義線性模型的第一極大似然估計值,并獲得所
述第一極大似然估計值對應的估計參數;

計算模塊,用于利用所述估計參數和待測用戶對應的所述目標行為特征
集合中每個行為特征對應的行為特征值計算所述待測用戶與所述第一類用戶
的行為相似度。

本發明實施例提供的用戶行為相似性計算方法及裝置,通過不同類型用
戶分別對應的多個行為特征中每個行為特征對應的行為特征值對多個行為特
征進行篩選獲得目標行為特征集合,依據該目標行為特征集合建立廣義線性
模型,利用最優化方法計算廣義線性模型的極大似然估計值,并獲得該極大
似然估計值對應的估計參數,通過該估計參數和待測用戶的行為特征值計算
待測用戶與特定類型用戶的行為相似度,充分利用大量用戶的行為特征分析
不同用戶行為的相似性,提高了對采集到的大量用戶的行為特征的利用率。

附圖說明

圖1為本發明實施例提供的用戶行為相似性計算方法流程圖;

圖2為本發明實施例提供的用戶行為相似性計算裝置的結構圖;

圖3為本發明另一實施例提供的用戶行為相似性計算裝置的結構圖。

具體實施方式

圖1為本發明實施例提供的用戶行為相似性計算方法流程圖。本發明實
施例針對現有技術中缺乏利用大量用戶的行為特征分析不同用戶行為的相似
性的方法,導致對采集到的大量用戶的行為特征的利用率較低,提供了用戶
行為相似性計算方法,該方法具體步驟如下:

步驟S101、采集第一類用戶的多個行為特征中每個行為特征對應的行為
特征值,以及第二類用戶的所述多個行為特征中每個行為特征對應的行為特
征值;

本發明實施例依據預先設定的多個行為特征在用戶瀏覽點擊網頁信息的
過程中采集用戶的行為特征,例如,多個行為特征具體包括:是否瀏覽某網
頁、是否點擊某網頁中的標題、用戶瀏覽某網頁的時間、點擊某標題的時間、
點擊的標題內容、一天內點擊某標題的次數等,本發明實施例并不限定預先
設定的多個行為特征的個數為6個,可以是任意多個。另外,本發明實施例
預先對多個行為特征中的每一個行為特征進行數字標識,例如用戶瀏覽了某
網頁記為1,用戶沒有瀏覽某網頁記為0;用戶點擊了某網頁中的標題記為1,
用戶沒有點擊某網頁中的標題記為0;用戶瀏覽某網頁的時間在早上記為1,
中午記為2,下午記為3,晚上記為4;點擊某標題的時間在早上記為1,中
午記為2,下午記為3,晚上記為4;點擊的標題內容屬于健康飲食記為1,
休閑娛樂記為2,金融投資記為3,科技信息記為4等;一天內點擊某標題的
次數可根據實際點擊的某標題內容的次數定義。例如,用戶瀏覽了某網頁,
點擊了某網頁中的標題,用戶瀏覽某網頁的時間在早上,點擊某標題的時間
在中午,點擊的標題內容屬于健康飲食,一天內點擊某標題的次數為3,則
用戶端的瀏覽器采集該用戶的多個行為特征中每個行為特征對應的行為特征
值分別為1、1、1、2、1、3,該用戶的多個行為特征中每個行為特征對應的
行為特征值可構成一個行為特征向量[1、1、1、2、1、3]。

所述第一類用戶為符合第一目標行為特征的用戶,所述第二類用戶為符
合第二目標行為特征的用戶,所述第一目標行為特征和所述第二目標行為特
征具有部分相同的行為特征。

本發明實施例分別采集第一類用戶和第二類用戶的多個行為特征中每個
行為特征對應的行為特征值,第一類用戶具體為種子用戶,第二類用戶具體
為對照用戶,種子用戶和對照用戶的部分行為特征相同,部分行為特征不同,
例如,種子用戶為瀏覽了某品牌牛奶廣告并點擊了該廣告的用戶,對照用戶
為瀏覽了某品牌牛奶廣告但沒有點擊該廣告的用戶,且第一類用戶的標識號
為1,第二類用戶的標識號為0。例如,本發明實施例采集100個第一類用戶
和100個第二類用戶分別對應的多個行為特征中每個行為特征對應的行為特
征值,即100個第一類用戶對應有100個行為特征向量,100個第二類用戶
對應有100個行為特征向量。

步驟S102、依據所述第一類用戶對應的多個行為特征值和所述第二類用
戶對應的多個行為特征值對所述多個行為特征進行篩選獲得目標行為特征集
合;

由于預先設定的多個行為特征的個數可以是任意多個,但是在該多個行
為特征中某些行為特征對于本發明實施例提供的用戶行為相似性計算方法而
言是冗余的,所以需要對多個行為特征進行篩選獲得目標行為特征集合。

步驟S103、依據所述目標行為特征集合建立第一廣義線性模型,利用最
優化方法計算所述第一廣義線性模型的第一極大似然估計值,并獲得所述第
一極大似然估計值對應的估計參數;

依據該目標行為特征集合建立第一廣義線性模型,建立廣義線性模型的
方法可采用現有技術中任意一種方法,利用最優化方法計算所述第一廣義線
性模型的第一極大似然估計值,通過該第一極大似然估計值可獲得對應的估
計參數,該估計參數的個數與目標行為特征集合中行為特征的個數相同。

步驟S104、利用所述估計參數和待測用戶對應的所述目標行為特征集合
中每個行為特征對應的行為特征值計算所述待測用戶與所述第一類用戶的行
為相似度。

所述利用所述估計參數和待測用戶對應的所述目標行為特征集合中每個
行為特征對應的行為特征值計算所述待測用戶與所述第一類用戶的行為相似
度,包括:將所述估計參數構成第一向量,將所述待測用戶對應的所述目標
行為特征集合中每個行為特征對應的行為特征值構成第二向量;計算所述第
一向量和所述第二向量的內積獲得所述行為相似度。

利用該估計參數和待測用戶對應的所述目標行為特征集合中每個行為特
征對應的行為特征值計算所述待測用戶與所述第一類用戶的行為相似度,具
體為采集待測用戶的所述目標行為特征集合中每個行為特征對應的行為特征
值,該行為特征值構成一個行為特征值向量,將該行為特征值向量與估計參
數構成的一維向量做內積,該內積值即為所述待測用戶與所述第一類用戶的
行為相似度。

本發明實施例通過不同類型用戶分別對應的多個行為特征中每個行為特
征對應的行為特征值對多個行為特征進行篩選獲得目標行為特征集合,依據
該目標行為特征集合建立廣義線性模型,利用最優化方法計算廣義線性模型
的極大似然估計值,并獲得該極大似然估計值對應的估計參數,通過該估計
參數和待測用戶的行為特征值計算待測用戶與特定類型用戶的行為相似度,
充分利用大量用戶的行為特征分析不同用戶行為的相似性,提高了對采集到
的大量用戶的行為特征的利用率。

在上述實施例的基礎上,所述依據所述第一類用戶對應的多個行為特征
值和所述第二類用戶對應的多個行為特征值對所述多個行為特征進行篩選獲
得目標行為特征集合,包括:

依據所述第一類用戶對應的多個行為特征值和所述第二類用戶對應的多
個行為特征值計算所述多個行為特征中每個行為特征分別對應的覆蓋率、卡
方統計量和信息熵;

從所述多個行為特征中刪除覆蓋率小于第一閾值的行為特征、卡方統計
量小于第二閾值的行為特征和信息熵小于第三閾值的行為特征獲得第一行為
特征集合;

刪除所述第一行為特征集合中關聯度大于第四閾值的兩個行為特征中的
任意一個行為特征獲得第二行為特征集合;

依據所述第二行為特征集合建立第二廣義線性模型,利用最優化方法計
算所述第二廣義線性模型的極大似然估計值,刪除所述第二行為特征集合中
對所述第二極大似然估計值沒有影響的行為特征獲得所述目標行為特征集
合。

在上述實施例的基礎上,100個第一類用戶對應有100個行為特征向量,
100個第二類用戶對應有100個行為特征向量,依據該200個行為特征向量
計算每個行為特征即“是否瀏覽某網頁”、“是否點擊某網頁中的標題”、
“用戶瀏覽某網頁的時間”、“點擊某標題的時間”、“點擊的標題內容”、
“一天內點擊某標題的次數”分別對應的覆蓋率、卡方統計量和信息熵。

依據覆蓋率從大到小的順序對6個行為特征:“是否瀏覽某網頁”、“是
否點擊某網頁中的標題”、“用戶瀏覽某網頁的時間”、“點擊某標題的時
間”、“點擊的標題內容”、“一天內點擊某標題的次數”進行排序,例如
排序后的最后一個行為特征為“點擊的標題內容”;依據卡方統計量從大到
小的順序對6個行為特征進行排序,例如排序后的最后一個行為特征為“一
天內點擊某標題的次數”;依據信息熵從大到小的順序對6個行為特征進行
排序,例如排序后的最后一個行為特征為“一天內點擊某標題的次數”;從
所述多個行為特征中刪除覆蓋率小于第一閾值的行為特征、卡方統計量小于
第二閾值的行為特征和信息熵小于第三閾值的行為特征獲得第一行為特征集
合,具體可以從多個行為特征中刪除前述三個排序后的最后一個行為特征,
即“點擊的標題內容”和“一天內點擊某標題的次數”保留“是否瀏覽某網
頁”、“是否點擊某網頁中的標題”、“用戶瀏覽某網頁的時間”、“點擊
某標題的時間”構成第一行為特征集合。

第一行為特征集合包括4個行為特征“是否瀏覽某網頁”、“是否點擊
某網頁中的標題”、“用戶瀏覽某網頁的時間”、“點擊某標題的時間”,
其中,“用戶瀏覽某網頁的時間”和“點擊某標題的時間”都是關于時間的
行為特征其關聯度較高,則刪除“用戶瀏覽某網頁的時間”和“點擊某標題
的時間”中的任意一個行為特征,例如刪除“用戶瀏覽某網頁的時間”保留
“點擊某標題的時間”后獲得第二行為特征集合。

該第二行為特征集合包括:“是否瀏覽某網頁”、“是否點擊某網頁中
的標題”、“點擊某標題的時間”,依據100個第一類用戶分別對應的“是
否瀏覽某網頁”、“是否點擊某網頁中的標題”、“點擊某標題的時間”行
為特征值和100個第二類用戶分別對應的“是否瀏覽某網頁”、“是否點擊
某網頁中的標題”、“點擊某標題的時間”行為特征值再次建立廣義線性模
型,并再次利用最優化方法計算該廣義線性模型的極大似然估計值,記錄該
極大似然估計值,去掉第二行為特征集合中任意一個行為特征后利用最優化
方法計算該廣義線性模型的極大似然估計值,若極大似然估計值沒有變化則
說明去掉的行為特征對極大似然估計值沒有影響,若極大似然估計值發生了
變化則說明去掉的行為特征對極大似然估計值有影響,保留第二行為特征集
合中對極大似然估計值有影響的行為特征,去掉對極大似然估計值沒有影響
的行為特征,進一步篩選行為特征。合理假設,第二行為特征集合中的每一
個行為特征都對極大似然估計值有影響,則第二行為特征集合即為目標行為
特征集合。

本發明實施例通過對多個行為特征值進行篩選以便刪除冗余的行為特
征,利用篩選出的行為特征建立廣義線性模型,并利用最優化方法計算該廣
義線性模型的極大似然估計值,提高了計算效率。

在上述實施例的基礎上,所述利用所述估計參數和待測用戶對應的所述
目標行為特征集合中每個行為特征對應的行為特征值計算所述待測用戶與所
述第一類用戶的行為相似度之后,還包括:判斷比較所述行為相似度是否大
于第五閾值;若所述行為相似度大于所述第五閾值,則判斷所述待測用戶與
所述第一類用戶的行為相似;統計所有待測用戶中與所述第一類用戶的行為
相似的待測用戶的比例。

本發明實施例對大量的待測用戶進行行為分析,依據上述實施例中獲得
的目標行為特征集合中的行為特征采集各個待測用戶的行為特征值,即采集
各個待測用戶分別對應的“是否瀏覽某網頁”、“是否點擊某網頁中的標題”、
“點擊某標題的時間”的行為特征值,并利用上述實施例計算行為相似度的
方法計算各個待測用戶與第一類用戶的行為相似度,判斷該行為相似度是否
大于預設的閾值,若大于則說明該待測用戶與第一類用戶的行為相似,同時
還可統計出所有待測用戶中與第一類用戶的行為相似的待測用戶的比例。

本發明實施例通過判斷待測用戶與第一類用戶的行為相似度大于某一閾
值確定待測用戶與第一類用戶的行為相似,還可獲得所有待測用戶中與第一
類用戶的行為相似的待測用戶的比例。

圖2為本發明實施例提供的用戶行為相似性計算裝置的結構圖。本發明
實施例提供的用戶行為相似性計算裝置可以執行用戶行為相似性計算方法實
施例提供的處理流程,如圖2所示,用戶行為相似性計算裝置20包括采集模
塊21、篩選模塊22、建模模塊23和計算模塊24,其中,采集模塊21用于
采集第一類用戶的多個行為特征中每個行為特征對應的行為特征值,以及第
二類用戶的所述多個行為特征中每個行為特征對應的行為特征值;篩選模塊
22用于依據所述第一類用戶對應的多個行為特征值和所述第二類用戶對應的
多個行為特征值對所述多個行為特征進行篩選獲得目標行為特征集合;建模
模塊23用于依據所述目標行為特征集合建立第一廣義線性模型,利用最優化
方法計算所述第一廣義線性模型的第一極大似然估計值,并獲得所述第一極
大似然估計值對應的估計參數;計算模塊24用于利用所述估計參數和待測用
戶對應的所述目標行為特征集合中每個行為特征對應的行為特征值計算所述
待測用戶與所述第一類用戶的行為相似度。

本發明實施例通過不同類型用戶分別對應的多個行為特征中每個行為特
征對應的行為特征值對多個行為特征進行篩選獲得目標行為特征集合,依據
該目標行為特征集合建立廣義線性模型,利用最優化方法計算廣義線性模型
的極大似然估計值,并獲得該極大似然估計值對應的估計參數,通過該估計
參數和待測用戶的行為特征值計算待測用戶與特定類型用戶的行為相似度,
充分利用大量用戶的行為特征分析不同用戶行為的相似性,提高了對采集到
的大量用戶的行為特征的利用率。

圖3為本發明另一實施例提供的用戶行為相似性計算裝置的結構圖。在
上述實施例的基礎上,篩選模塊22具體用于依據所述第一類用戶對應的多個
行為特征值和所述第二類用戶對應的多個行為特征值計算所述多個行為特征
中每個行為特征分別對應的覆蓋率、卡方統計量和信息熵;從所述多個行為
特征中刪除覆蓋率小于第一閾值的行為特征、卡方統計量小于第二閾值的行
為特征和信息熵小于第三閾值的行為特征獲得第一行為特征集合;刪除所述
第一行為特征集合中關聯度大于第四閾值的兩個行為特征中的任意一個行為
特征獲得第二行為特征集合;依據所述第二行為特征集合建立第二廣義線性
模型,利用最優化方法計算所述第二廣義線性模型的極大似然估計值,刪除
所述第二行為特征集合中對所述第二極大似然估計值沒有影響的行為特征獲
得所述目標行為特征集合。

所述第一類用戶為符合第一目標行為特征的用戶,所述第二類用戶為符
合第二目標行為特征的用戶,所述第一目標行為特征和所述第二目標行為特
征具有部分相同的行為特征。

計算模塊24具體用于將所述估計參數構成第一向量,將所述待測用戶對
應的所述目標行為特征集合中每個行為特征對應的行為特征值構成第二向
量;計算所述第一向量和所述第二向量的內積獲得所述行為相似度。

用戶行為相似性計算裝置20還包括判斷模塊25和統計模塊26,其中,
判斷模塊25用于判斷比較所述行為相似度是否大于第五閾值;若所述行為相
似度大于所述第五閾值,則判斷所述待測用戶與所述第一類用戶的行為相似;
統計模塊26用于統計所有待測用戶中與所述第一類用戶的行為相似的待測
用戶的比例。

本發明實施例提供的用戶行為相似性計算裝置可以具體用于執行上述圖
1所提供的方法實施例,具體功能此處不再贅述。

本發明實施例通過對多個行為特征值進行篩選以便刪除冗余的行為特
征,利用篩選出的行為特征建立廣義線性模型,并利用最優化方法計算該廣
義線性模型的極大似然估計值,提高了計算效率;通過判斷待測用戶與第一
類用戶的行為相似度大于某一閾值確定待測用戶與第一類用戶的行為相似,
還可獲得所有待測用戶中與第一類用戶的行為相似的待測用戶的比例。

綜上所述,本發明實施例通過不同類型用戶分別對應的多個行為特征中
每個行為特征對應的行為特征值對多個行為特征進行篩選獲得目標行為特征
集合,依據該目標行為特征集合建立廣義線性模型,利用最優化方法計算廣
義線性模型的極大似然估計值,并獲得該極大似然估計值對應的估計參數,
通過該估計參數和待測用戶的行為特征值計算待測用戶與特定類型用戶的行
為相似度,充分利用大量用戶的行為特征分析不同用戶行為的相似性,提高
了對采集到的大量用戶的行為特征的利用率;通過對多個行為特征值進行篩
選以便刪除冗余的行為特征,利用篩選出的行為特征建立廣義線性模型,并
利用最優化方法計算該廣義線性模型的極大似然估計值,提高了計算效率;
通過判斷待測用戶與第一類用戶的行為相似度大于某一閾值確定待測用戶與
第一類用戶的行為相似,還可獲得所有待測用戶中與第一類用戶的行為相似
的待測用戶的比例。

在本發明所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,
可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,
例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外
的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或
一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或
直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連
接,可以是電性,機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作
為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,
或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或
者全部單元來實現本實施例方案的目的。

另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,
也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單
元中。上述集成的單元既可以采用硬件的形式實現,也可以采用硬件加軟件
功能單元的形式實現。

上述以軟件功能單元的形式實現的集成的單元,可以存儲在一個計算機
可讀取存儲介質中。上述軟件功能單元存儲在一個存儲介質中,包括若干指
令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)
或處理器(processor)執行本發明各個實施例所述方法的部分步驟。而前述
的存儲介質包括:U盤、移動硬盤、只讀存儲器(Read-OnlyMemory,ROM)、
隨機存取存儲器(RandomAccessMemory,RAM)、磁碟或者光盤等各種可以
存儲程序代碼的介質。

本領域技術人員可以清楚地了解到,為描述的方便和簡潔,僅以上述各
功能模塊的劃分進行舉例說明,實際應用中,可以根據需要而將上述功能分
配由不同的功能模塊完成,即將裝置的內部結構劃分成不同的功能模塊,以
完成以上描述的全部或者部分功能。上述描述的裝置的具體工作過程,可以
參考前述方法實施例中的對應過程,在此不再贅述。

最后應說明的是:以上各實施例僅用以說明本發明的技術方案,而非對
其限制;盡管參照前述各實施例對本發明進行了詳細的說明,本領域的普通
技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,
或者對其中部分或者全部技術特征進行等同替換;而這些修改或者替換,并
不使相應技術方案的本質脫離本發明各實施例技術方案的范圍。

關 鍵 詞:
用戶 行為 相似性 計算方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:用戶行為相似性計算方法及裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6345445.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图