• / 12
  • 下載費用:30 金幣  

一種微博轉發行為預測方法及裝置.pdf

摘要
申請專利號:

CN201510275479.4

申請日:

2015.05.26

公開號:

CN104915392A

公開日:

2015.09.16

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150526|||公開
IPC分類號: G06F17/30; G06F17/27; G06Q50/00(2012.01)I; G06K9/62(2006.01)N 主分類號: G06F17/30
申請人: 國家計算機網絡與信息安全管理中心
發明人: 劉瑋; 王麗宏; 周勇林; 張同虎; 王博; 馬宏遠
地址: 100029北京市朝陽區裕民路甲3號
優先權:
專利代理機構: 工業和信息化部電子專利中心11010 代理人: 梁軍
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510275479.4

授權公告號:

||||||

法律狀態公告日:

2019.03.26|||2015.10.14|||2015.09.16

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種微博轉發行為預測方法及裝置,包括:基于微博的用戶屬性、內容屬性和用戶行為屬性來預測用戶是否轉發該微博,本發明通過在轉發預測中引入用戶個人行為,即用戶行為特征以及用戶興趣特征,從而有效提高了微博轉發行為預測的準確性。

權利要求書

權利要求書
1.  一種微博轉發行為預測方法,其特征在于,包括:
接收微博;
基于所述微博的用戶屬性、微博內容屬性和用戶行為屬性來預測用戶是否轉發該微博;
其中,所述用戶行為屬性包括用戶行為特征以及用戶興趣特征,所述用戶行為特征進一步包括:用戶的轉發帖數、用戶轉發率和互動頻率,所述用戶興趣特征進一步包括:用戶興趣標簽和歷史微博內容所構成的特征向量。

2.  根據權利要求1所述的方法,其特征在于,還包括:
基于用戶活躍期和時間窗的轉發行為、忽略行為以及未接收行為構建該用戶的行為模型;
根據所述行為模型的訓練數據集確定所述微博內容屬性和所述用戶行為屬性。

3.  根據權利要求1所述的方法,其特征在于,
所述微博內容屬性進一步包括:情感詞數量和實體詞數量,其中,所述情感詞數量為微博內容所含情感詞個數;所述實體詞數量為微博的實體詞個數;
所述用戶轉發帖數為用戶在預定時間段內轉發帖子的總數;
所述用戶轉發率為用戶發帖數量中轉帖子的比例;
所述互動頻率為:
其中,∑nuv為用戶從其關注用戶v所轉發的帖子數,為用戶轉發帖子的總數量。

4.  根據權利要求3所述的方法,其特征在于,還包括:
計算所述微博與用戶興趣向量的相似度:其中,Iu(t)為用戶興趣特征,Iu(t)=αIu(t0)+(1-α)11-e-1Iu[t0:t0+T]]]>
且,Iu(t0)為微博的標簽關鍵詞,α為權重因子,T為預設的時間段,V為微博內容關鍵詞的特征向量。

5.  根據權利要求3所述的方法,其特征在于,所述微博內容屬性包括:
用戶屬性為用戶加V為0,不加V為1;
微博結構特征為是否含有url、以及是否含有圖片和視頻鏈接。

6.  根據權利要求3或4所述的方法,其特征在于,所述基于所述微博的用戶屬性、微博內容屬性和用戶行為屬性來預測用戶是否轉發該微博的步驟具體包括:
將所述微博的用戶屬性、微博內容屬性和用戶行為屬性帶入分類器,根據所述分類器的結果預測用戶是否轉發該微博。

7.  一種微博轉發行為預測裝置,其特征在于,包括:
接收單元,接收微博;
處理單元,基于所述微博的用戶屬性、微博內容屬性和用戶行為屬性來預測用戶是否轉發該微博;
其中,所述用戶行為屬性包括用戶行為特征以及用戶興趣特征,所述用戶行為特征進一步包括:用戶的轉發帖數、用戶轉發率和互動頻率,所述用戶興趣特征進一步包括:用戶興趣標簽和歷史微博內容所構成的特征向量。

8.  根據權利要求7所述的裝置,其特征在于,還包括:
建模單元,用于基于用戶活躍期和時間窗的轉發行為、忽略行為以及未接收行為構建該用戶的行為模型;
所述處理單元還用于,根據所述行為模型的訓練數據集確定所述微博內容屬性和所述用戶行為屬性。

9.  根據權利要求7所述的裝置,其特征在于,
所述微博內容屬性進一步包括:情感詞數量和實體詞數量,其中,所述情感詞數量為微博內容所含情感詞個數;所述實體詞數量為微博的實體詞個數;
所述用戶轉發帖數為用戶在預定時間段內轉發帖子的總數;
所述用戶轉發率為用戶發帖數量中轉帖子的比例;
所述互動頻率為:
其中,∑nuv為用戶從其關注用戶v所轉發的帖子數,為用戶轉發帖子的總數量。

10.  根據權利要求9所述的裝置,其特征在于,
所述處理單元還用于,將所述微博的用戶屬性、微博內容屬性和用戶行為屬性帶入分類器,根據所述分類器的結果預測用戶是否轉發該微博。

說明書

說明書一種微博轉發行為預測方法及裝置
技術領域
本發明涉及通信技術領域,尤其涉及一種微博轉發行為預測方法及裝置。
背景技術
我國微博應用于2009年正式發布,迅速以其內容簡潔、交互便捷和快速傳播等特點,發展成為人們表達觀點、抒發情緒、傳遞信息的重要社會媒體。截至2014年6月底,我國微博用戶規模為2.75億,用戶之間結成復雜的關注關系,每天發送微博近1億條,信息沿著用戶間的關注關系進行傳播,形成傳播擴散網絡。微博轉發是消息在微博網絡中得到持續傳播的重要方式,微博轉發預測能夠有效估計消息是否能獲得轉發及其轉發規模,及早發現可能引發大規模爆發的微博,對微博突發性檢測和微博影響力評估具有重要意義。
目前對微博的轉發主要是根據用戶靜態屬性或消息本身特征來進行預測,預測的結果并不準確,還有就是基于轉發關系的因子圖模型方法進行預測,而該方法需要建立完整的微博轉發樹、前一時刻節點狀態以及前后兩個時刻的鄰居節點狀態,這需要獲得完整的轉發關系和歷史轉發日志數據,但是在實際轉發預測問題中,大部分情況下只能獲取到部分用戶轉發數據和局部日志數據,建立完整的轉發樹和節點狀態是很困難的,并且計算復雜度較高。
發明內容
鑒于上述的分析,本發明旨在提供一種微博轉發行為預測方法及裝置,用以解決現有技術中微博轉發預測不準確的問題。
為解決上述問題,本發明主要是通過以下技術方案實現的:
本發明一方面提供了一種微博轉發行為預測方法,該方法包括:
接收微博;
基于所述微博的用戶屬性、微博內容屬性和用戶行為屬性來預測用戶是否轉發該微博;
其中,所述用戶行為屬性包括用戶行為特征以及用戶興趣特征,所述用戶行為特征進一步包括:用戶的轉發帖數、用戶轉發率和互動頻率,所述用戶興趣特征進一步包括:用戶興趣標簽和歷史微博內容所構成的特征向量。
優選地,該方法還包括:
基于用戶活躍期和時間窗的轉發行為、忽略行為以及未接收行為構建該用戶的行為模型;
根據所述行為模型的訓練數據集確定所述微博內容屬性和所述用戶行為屬性。
優選地,所述微博內容屬性進一步包括:情感詞數量和實體詞數量,其中,所述情感詞數量為微博內容所含情感詞個數;所述實體詞數量為微博的實體詞個數;
所述用戶轉發帖數為用戶在預定時間段內轉發帖子的總數;
所述用戶轉發率為用戶發帖數量中轉帖子的比例;
所述互動頻率為:
其中,∑nuv為用戶從其關注用戶v所轉發的帖子數,為用戶轉發帖子的總數量。
優選地,該方法還包括:
計算所述微博與用戶興趣向量的相似度:其中,Iu(t)為用戶興趣特征,Iu(t)=αIu(t0)+(1-α)11-e-1Iu[t0:t0+T]]]>
且Iu(t0)為微博的標簽關鍵詞,α為權重因子,T為預設的時間段,V為微博內容關鍵詞的特征向量。
優選地,所述微博內容屬性包括:
用戶屬性為用戶加V為0,不加V為1;
微博結構特征為是否含有url、以及是否含有圖片和視頻鏈接。
優選地,所述基于所述微博的用戶屬性、微博內容屬性和用戶行為屬性來預測用戶是否轉發該微博的步驟具體包括:
將所述微博的用戶屬性、微博內容屬性和用戶行為屬性帶入分類器,根據所述分類器的結果預測用戶是否轉發該微博。
本發明再一方面提供了一種微博轉發行為預測裝置,包括:
接收單元,接收微博;
處理單元,基于所述微博的用戶屬性、微博內容屬性和用戶行為屬性來預測用戶是否轉發該微博;
其中,所述用戶行為屬性包括用戶行為特征以及用戶興趣特征,所述用戶行為特征進一步包括:用戶的轉發帖數、用戶轉發率和互動頻率,所述用戶興趣特征進一步包括:用戶興趣標簽和歷史微博內容所構成的特征向量。
優選地,該裝置還包括:
建模單元,用于基于用戶活躍期和時間窗的轉發行為、忽略行為以及未接收行為構建該用戶的行為模型;
所述處理單元還用于,根據所述行為模型的訓練數據集確定所述微博內容屬性和所述用戶行為屬性。
優選地,所述微博內容屬性進一步包括:情感詞數量和實體詞數量,其 中,所述情感詞數量為微博內容所含情感詞個數;所述實體詞數量為微博的實體詞個數;
所述用戶轉發帖數為用戶在預定時間段內轉發帖子的總數;
所述用戶轉發率為用戶發帖數量中轉帖子的比例;
所述互動頻率為:
其中,∑nuv為用戶從其關注用戶v所轉發的帖子數,為所述用戶轉發帖子的總數量。
優選地,所述處理單元還用于,將所述微博的用戶屬性、微博內容屬性和用戶行為屬性帶入分類器,根據所述分類器的結果預測用戶是否轉發該微博。
本發明基于用戶興趣特征以及用戶行為特征對轉發與否進行預測,即,本發明在轉發預測中充分考慮了用戶個人行為,從而有效提高了微博轉發行為預測的準確性,并解決了現有技術中微博轉發預測不準確的問題。
本發明的其他特征和優點將在隨后的說明書中闡述,并且部分的從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。
附圖說明
圖1為本發明實施例的一種微博轉發行為預測方法的流程示意圖;
圖2為本發明實施例的另一種微博轉發行為預測方法的流程示意圖;
圖3為本發明實施例的再一種微博轉發行為預測方法的流程示意圖;
圖4為本發明實施例的一種微博轉發行為預測裝置的結構示意圖。
具體實施方式
下面結合附圖來具體描述本發明的優選實施例,其中,附圖構成本申請一部分,并與本發明的實施例一起用于闡釋本發明的原理。為了清楚和簡化目的,當其可能使本發明的主題模糊不清時,將省略本文所描述的器件中已知功能和結構的詳細具體說明。
為了解決現有技術中現有技術中微博轉發預測不準確的問題,本發明提供了一種微博轉發行為預測方法,以下結合附圖以及幾個實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不限定本發明。
方法實施例
本發明實施例提供了一種微博轉發行為預測方法,參見圖1,該方法包括:
S101、接收微博;
S102、基于所述微博的用戶屬性、內容屬性和用戶行為屬性來預測用戶是否轉發該微博;
本發明實施例中所述的接收微博也可以是預先選定微博,基于預定的某個或某些微博進行轉發與否的預測。
其中,本發明實施例所述用戶行為屬性包括用戶行為特征以及用戶興趣特征,所述用戶行為特征進一步包括:用戶的轉發帖數、用戶轉發率和互動頻率,所述用戶興趣特征進一步:用戶興趣標簽和歷史微博內容所構成的特征向量(或者可稱為微博內容關鍵詞的特征向量)。本發明實施例所述微博內容屬性包括:微博內容所含情感詞個數和微博的實體詞個數。
本發明通過在轉發預測中引入用戶個人行為,即用戶行為特征以及用戶興趣特征,從而有效提高了微博轉發行為預測的準確性。
需要說明的是,本發明在進行轉發預測前,先基于用戶活躍期和時間窗的轉發行為、忽略行為以及未接收行為構建該用戶的訓練模型,再根據所述訓練模型內的數據確定所述微博內容屬性和所述用戶行為屬性。
下面將對本發明所涉及到的各個屬性、特征和向量進行詳細的說明:
本發明實施例所述用戶屬性為用戶加V為0,不加V為1;
本發明實施例所述微博內容屬性包括:微博結構特征為是否含有url、以及是否含有圖片和視頻鏈接,還包括微博內容所含情感詞個數和微博的實體詞個數。其中,本發明實施例所述情感詞數量為微博內容所含情感詞個數;情感詞數量表明微博內容用詞的激烈程度,有統計數據表明,用詞激烈的微博更容易得到轉發;本發明實施例所述實體詞數量為微博的實體詞個數;實體詞數量表明微博內容的豐富程度,有統計表明,微博內容越豐富越容易得到轉發。
本發明實施例所述的用戶興趣標簽為用戶自己在微博中所標注的,例如,設置的體育、娛樂等等,根據該標簽可以從一定程度上得出用戶所傾向轉發的微博;
本發明實施例所述的歷史微博內容所構成的特征向量為根據用戶歷史的微博內容而統計的用戶所傾向于轉發的微博,如,根據統計標明用戶更傾向于轉發歷史轉發過的微博主題等等;
本發明實施例所述用戶行為特征主要包括以下幾個方面:
用戶轉發帖數為用戶在預定時間段內轉發帖子的總數,轉發帖子越多表明用戶越可能轉發新貼;
用戶轉發率為用戶發帖數量中轉帖子的比例,轉發帖子比例越高表明用戶越可能轉發新貼;
互動頻率為:
其中,∑nuv為用戶從其關注用戶v所轉發的帖子數,為用戶轉發帖 子的總數量。該指標表明了用戶從其某個上游用戶(即關注用戶)轉發微博的概率,概率越大,用戶越傾向于從該關注用戶轉發微博。例如:用戶u關注了5個好友(a、b、c、d和e),用戶u總轉帖數為100,從a用戶轉發過5條微博,從b轉發過10條微博,從c轉發過50條微博,從d轉發過35條微博,從e轉發過0條微博。則u和a之間的互動頻率計算為5/100=0.05,同樣的,u與bcde的互動頻率以此為0.1,0.5,0.35,0。通過該指標的計算,可以得出用戶u最傾向于轉發好友c的微博,該指標可以表明用戶u轉發好友微博的概率大小。
本發明所述的方法還包括:計算所述微博與用戶興趣向量的相似度:
Put(m)=|VmIu(t)||VmIu(t)|]]>
其中,V為微博內容關鍵詞的特征向量,Iu(t)為用戶興趣特征:
Iu(t)=αIu(t0)+(1-α)11-e-1Iu[t0:t0+T]]]>
Iu(t0)為微博的標簽關鍵詞,T為預設的時間間隔,t=t0+T,例如設置T為30天,則Iu(t)表示用戶注冊一個月后的興趣,t0表示用戶注冊時間,通常記為0時刻,起始時間的用戶興趣以用戶自己的標簽關鍵詞表示,如{旅游、聚會、運動、音樂},而用戶在t時刻的興趣由初始興趣標簽關鍵詞和歷史微博內容關鍵詞共同表示,α為權重因子,通過調整權重因子,可以調節用戶當前興趣與初始興趣和動態興趣之間的關系。例如用戶t時刻發布過的微博共有5條,經過分詞和詞頻統計后,得到按詞頻由高到低排序的興趣特征向量,例如{度假、酒店、……},使用知網等外部知識庫,計算興趣特征向量里的關鍵詞(如度假)與興趣標簽集合{旅游、聚會、運動、音樂}中的詞的相似度之和,相似度之和大于一定閾值,則將在興趣特征向量中對該詞詞頻+1,全部特征詞計算完畢后,重新對興趣特征向量特征詞按詞頻進行排序,得到最終的興趣特征向量。如果想減小計算代價,可以按照一定規則截取前200個特征詞作為興趣特征詞集合。(也可以按照詞頻設置閾值,比如只取詞頻大于5的特征 詞)。
具體實施時,本發明通過將上述微博內容屬性和用戶行為屬性一一帶入分類器,根據所述分類器的結果預測用戶是否轉發該微博。
需要說明的是,本發明實施例所述的分類器可以是決策樹等能夠根據各個數據得到預測結果的相關裝置。
由于本發明所述的方法考慮了用戶自身的各種屬性,因此本發明通過分類器計算得到的用戶轉發的預測結果更準確。
下面將結合圖2和圖3以一個具體的例子對本發明所述的方法進行詳細的說明:
(1)正負樣本標注
(a)正樣本:通過用戶顯示的轉發標記識別,具體方法是提取微博轉發標志,若rid不等于空表明該條微博為轉發微博,提取微博內容中的“//@UserScreenName:”,獲取轉發上游用戶;
(b)負樣本:統計微博轉發時延獲取分布函數,計算用戶的關注好友數量,根據用戶關注好友數量計算微博停留的時間區間;
(2)用戶轉發行為特征計算
(a)用戶屬性:標記用戶是否加V以及用戶粉絲數,加V為0,不加V為1;
(b)用戶發帖數:計算用戶發帖總數;
(c)用戶轉發率:計算用戶發帖數量中轉帖的比例;
(d)微博內容特征:
微博的情感詞數量:基于情感詞典,計算微博內容所含情感詞個數;
微博的實體詞數量:對微博消息進行分詞,根據詞性標注結果提取類別為機構名、人名、地名、時間詞的詞,計算實體個數;
(e)微博結構特征:是否含有url、是否含有圖片和視頻鏈接,該屬性為二值屬性;
(f)用戶興趣與微博的相似性特征:
計算用戶興趣屬性:Iu(t)=αIu(t0)+(1-α)11-e-1Iu[t0:t0+30]]]>
計算微博與用戶興趣向量的相似度:
(g)互動頻率特征:
(3)微博轉發行為預測;
具體為,基于C4.5決策樹建立分類模型,在訓練數據集上對模型參數進行訓練,在待測數據上進行分類,實現用戶對微博轉發行為的預測。
具體來說,本發明通過基于用戶活躍期和動態時間窗的轉發行為、忽略行為以及未接收行為構建模型訓練數據,并基于用戶動態興趣度量其變化對用戶轉發行為的影響程度,還通過用戶轉發率、交互頻率等用戶行為特征,衡量了用戶歷史行為模式和用戶影響力傳遞效應的差異性對用戶轉發行為的影響,最后通過擴展特征空間,建立分類模型實現轉發行為預測方法。
裝置實施例
本發明實施例提供了一種微博轉發行為預測裝置,參見圖4,該裝置包括相互連接的接收單元和處理單元,具體的,
接收單元,接收微博;
處理單元,基于所述微博的微博內容屬性和用戶行為屬性來預測用戶是否轉發該微博;
其中,所述用戶行為屬性包括用戶行為特征以及用戶興趣特征,所述用戶行為特征進一步包括:用戶的轉發帖數、用戶轉發率和互動頻率,所述用戶興趣特征進一步包括:用戶興趣標簽和歷史微博內容所構成的特征向量。
優選地,該裝置還包括:
建模單元,用于基于用戶活躍期和時間窗的轉發行為、忽略行為以及未接收行為構建該用戶的行為模型;
所述處理單元還用于,根據所述行為模型的訓練數據集確定所述微博內容屬性和所述用戶行為屬性。
本發明實施例所述情感詞數量為微博內容所含情感詞個數;
所述實體詞數量為微博的實體詞個數;
所述用戶轉發帖數為用戶在預定時間段內轉發帖子的總數;
所述用戶轉發率為用戶發帖數量中轉帖子的比例;
所述互動頻率為:
其中,∑nuv為用戶從其關注用戶v所轉發的帖子數,為所述用戶轉發帖子的總數量。
本發明實施例所述處理單元還用于,將微博的用戶屬性、內容屬性和用戶行為屬性帶入分類器,根據所述分類器的結果預測用戶是否轉發該微博。
本發明實施例的所述的方法中的相關內容可參考系統實施例部分的相關內容進行理解,在此不再贅述。
本發明所述的方法及裝置至少能夠達到以下的有益效果:
首先,本發明是基于動態時間窗的轉發行為、忽略行為以及未接收行為識別方法,能夠準確構建用戶轉發和非轉發微博數據集,為模型驗證和效果分析提供更為精確的數據基礎和測試環境;
其次,本發明有效融合了用戶長期興趣、短期興趣特征,解決了社交網絡信息傳播過程中,用戶興趣及其變化特性對用戶轉發行為影響程度的量化問題;
再次,本發明的轉發率等用戶行為特征,以及交互頻率等用戶交互特征,有效度量了用戶歷史行為模式、用戶影響力傳遞效應的差異性對用戶轉發行為 的影響;
最后,本發明融合上游用戶特征、微博特征、轉發用戶興趣和歷史行為特征從而能夠準確預測微博轉發與否。
以上所述,僅為本發明較佳的具體實施方式,但本發明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到的變化或替換,都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應該以權利要求書的保護范圍為準。

關 鍵 詞:
一種 轉發 行為 預測 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種微博轉發行為預測方法及裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6373444.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图