• / 8
  • 下載費用:30 金幣  

一種基于關鍵用戶的微博信息傳播預測方法.pdf

摘要
申請專利號:

CN201610629837.1

申請日:

2016.08.03

公開號:

CN106257459A

公開日:

2016.12.28

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20160803|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 哈爾濱工程大學
發明人: 楊武; 于淼; 王巍; 苘大鵬; 玄世昌
地址: 150001 黑龍江省哈爾濱市南崗區南通大街145號哈爾濱工程大學科技處知識產權辦公室
優先權:
專利代理機構: 代理人:
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201610629837.1

授權公告號:

|||

法律狀態公告日:

2017.01.25|||2016.12.28

法律狀態類型:

實質審查的生效|||公開

摘要

本發明提供的是一種基于關鍵用戶的微博信息傳播預測方法。步驟1:數據采集;步驟2:數據處理;步驟3:利用線性模型預測;步驟4:基于關鍵用戶挖掘的模型調整,進行后續預測。本發明的方法,利用從微博網絡上獲取的消息的用戶轉發數據,通過基于關鍵用戶的動態線性模型來預測未來信息傳播的狀態,并在預測的過程中實時的挖掘關鍵用戶,在新增關鍵用戶的基礎上對線性模型進行改進。

權利要求書

1.一種基于關鍵用戶的微博信息傳播預測方法,其特征是:
步驟1:數據采集;
步驟2:數據處理;
步驟3:利用線性模型預測;
步驟4:基于關鍵用戶挖掘的模型調整,進行后續預測。
2.根據權利要求1所述的基于關鍵用戶的微博信息傳播預測方法,其特征是所述數據
采集具體包括:
步驟1.1:在微博網絡中實時獲取給定消息id的轉發用戶;
步驟1.2:獲取微博用戶的配置信息,所述配置信息包括關注數、粉絲數。
3.根據權利要求2所述的基于關鍵用戶的微博信息傳播預測方法,其特征是所述數據
處理具體包括:
步驟2.1:根據給定的時間間隔將步驟1.1與1.2所獲得的數據劃分為多個時間窗口;
步驟2.2:選取前k個時間窗口作為訓練數據窗口,第k+1時間窗口為預測窗口。
4.根據權利要求3所述的基于關鍵用戶的微博信息傳播預測方法,其特征是所述利用
線性模型預測具體包括:
步驟3.1:首先根據訓練集的時間窗口內用戶的轉發量確定時間窗口內的關鍵用戶;
步驟3.2:根據用戶的轉發數對線性函數進行擬合,迭代的確定線性函數的待估參數
值,確定預測函數;
步驟3.3:將預測時間窗口的窗口值代入預測函數,生成預測值。
5.根據權利要求4所述的基于關鍵用戶的微博信息傳播預測方法,其特征是所述基于
關鍵用戶挖掘的模型調整具體包括:
步驟4.1:根據預測值和實際值的差異確定是否需要進行關鍵用戶檢測;
步驟4.2:當預測差異大于閾值時,根據該時間窗口的用戶轉發數確定關鍵用戶;
步驟4.3:利用關鍵用戶的粉絲數,以及之前其他關鍵用戶的粉絲數來確定關鍵用戶的
數值,來對線性模型進行調整。
步驟4.4:利用新生成的線性模型對下一時間窗口進行預測。

說明書

一種基于關鍵用戶的微博信息傳播預測方法

技術領域

本發明涉及的是一種網絡分析方法,具體地說是一種微博信息傳播預測方法。

背景技術

隨著社會網絡的飛速發展,人類進入了自媒體時代。微博網絡作為典型的社交媒
體平臺,其140字的短文本信息發送方式以及多種的交互模式,使其成為人們獲取信息、分
享信息、傳播信息的重要平臺。由于微博網絡具有數據量大、信息碎片化嚴重、交互多樣性、
信息傳播快等特性,通過系統審核或人工實時監控,并不能有效地限制社交網絡輿情危機
信息的傳播。因此微博除了成為民眾表達關切和訴求的窗口之外,也成為了虛假信息、流言
蠻語滋生的平臺。

針對在特定的網絡輿情事件中可能產生微博負面輿情危機的問題,在負面輿情被
大規模傳播之前需要對特定熱點輿情事件中的微博消息的傳播進行預測。在負面信息大規
模爆發之前進行有效地處理是社會網絡輿情安全研究所必須解決的問題。社交網絡中的網
絡輿情傳播通常是由一個或多個用戶協同來進行大規模擴散的。因此在研究社交網絡輿情
傳播預測的過程中,如何針對影響信息傳播的關鍵用戶來動態調整傳播預測模型,是社交
網絡輿情信息傳播預測的重要環節。

與本發明相關的公開報道包括:

[1]WANG Jing,LIU Zhijing,ZHAO Hui,“Micro-blogs Entity Recognition
Based on DSTCRF”,Chinese Journal of Electronics,Vol.23,No.1,pp 147-150,2014;

[2]YANG Zhen,FAN Kefeng,LAI Yingxu,GAO Kaiming and WANG Yong,“Short
Texts Classification Through Reference Document Expansion”,Chinese Journal of
Electronics,Vol.23,No.2,2014;

[3]Yang Z,Guo J,Cai K,Tang J,Li J,Zhang L,et al.,Understanding
retweeting behaviors in social networks.Proceedings of the 19th ACM
international conference on Information and knowledge management;2010:
ACM.1633-1636 p;

[4]Peng H-K,Zhu J,Piao D,Yan R,Zhang Y,Retweet modeling using
conditional random fields.Data Mining Workshops(ICDMW),2011 IEEE 11th
International Conference on;2011:IEEE.336-343 p;

[5]Zaman TR,Herbrich R,Van Gael J,Stern D,Predicting information
spreading in twitter.Workshop on computational social science and the wisdom
of crowds,nips;2010:Citeseer.17599-17601 p;

[6]Kupavskii A,Ostroumova L,Umnov A,Usachev S,Serdyukov P,Gusev G,et
al.,Prediction of retweet cascade size over time.Proceedings of the 21st ACM
international conference on Information and knowledge management;2012:
ACM.2335-2338 p;

[7]Cheng J,Adamic L,Dow PA,Kleinberg JM,Leskovec J,Can cascades be
predicted?Proceedings of the 23rd international conference on World wide web;
2014:ACM.925-936 p;

[8]Zhao Q,Erdogdu MA,He HY,Rajaraman A,Leskovec J,SEISMIC:A Self-
Exciting Point Process Model for Predicting Tweet Popularity.Proceedings of
the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data
Mining;2015:ACM.1513-1522 p;

[9]Yang J,Leskovec J,Modeling information diffusion in implicit
networks.Data Mining(ICDM),2010IEEE 10th International Conference on;2010:
IEEE.599-608p;

[10]Wang CX,Guan XH,Qin Tao,Zhou YD.Modeling Opinion Leader’s
Influence in Microblog Message Propagation and Its Application.Journal of
Software,2015,26(6)。

發明內容

本發明的目的在于提供一種具有準確的預測效果,并可以挖掘影響預測性能的關
鍵用戶的基于關鍵用戶的微博信息傳播預測方法。

本發明的目的是這樣實現的:

步驟1:數據采集;

步驟2:數據處理;

步驟3:利用線性模型預測;

步驟4:基于關鍵用戶挖掘的模型調整,進行后續預測。

本發明還可以包括:

1、所述數據采集具體包括:

步驟1.1:在微博網絡中實時獲取給定消息id的轉發用戶;

步驟1.2:獲取微博用戶的配置信息,所述配置信息包括關注數、粉絲數。

2、所述數據處理具體包括:

步驟2.1:根據給定的時間間隔將步驟1.1與1.2所獲得的數據劃分為多個時間窗
口;

步驟2.2:選取前k個時間窗口作為訓練數據窗口,第k+1時間窗口為預測窗口。

3、所述利用線性模型預測具體包括:

步驟3.1:首先根據訓練集的時間窗口內用戶的轉發量確定時間窗口內的關鍵用
戶;

步驟3.2:根據用戶的轉發數對線性函數進行擬合,迭代的確定線性函數的待估參
數值,確定預測函數;

步驟3.3:將預測時間窗口的窗口值代入預測函數,生成預測值。

4、所述基于關鍵用戶挖掘的模型調整具體包括:

步驟4.1:根據預測值和實際值的差異確定是否需要進行關鍵用戶檢測;

步驟4.2:當預測差異大于閾值時,根據該時間窗口的用戶轉發數確定關鍵用戶;

步驟4.3:利用關鍵用戶的粉絲數,以及之前其他關鍵用戶的粉絲數來確定關鍵用
戶的數值,來對線性模型進行調整。

步驟4.4:利用新生成的線性模型對下一時間窗口進行預測。

本發明提出了一種基于消息傳播中的關鍵用戶的動態線性預測模型,該模型在預
測的同時檢查影響預測準確性的關鍵用戶,通過關鍵用戶動態調整線性預測模型。

本發明的方法,利用從微博網絡上獲取的消息的用戶轉發數據,通過基于關鍵用
戶的動態線性模型來預測未來信息傳播的狀態,并在預測的過程中實時的挖掘關鍵用戶,
在新增關鍵用戶的基礎上對線性模型進行改進。

與現有技術相比,本發明具有如下的有益效果:

1、本發明提出一種基于關鍵用戶的微博信息傳播預測方法,該技術主要考慮信息
傳播預測過程中關鍵用戶出現導致預測失準的問題,來對傳統的線性預測模型進行改進。
并取得了良好的預測效果。

2、本發明能夠有效的針對微博類的大規模社會網絡,具有較為準確的預測效果,
并可以挖掘影響預測性能的關鍵用戶。

附圖說明

圖1是本發明的總體流程圖。

圖2是本發明的線性模型的具體示意圖。

具體實施方式

下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此處所描
述的具體實施例僅僅用于解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便
于描述,附圖中僅示出了與本發明相關的部分而非全部內容。

結合圖1,本發明的基于關鍵用戶的微博信息傳播預測方法的具體實現步驟如下:

步驟101:數據采集;

步驟102:數據處理;

步驟103:線性模型預測;

步驟104:基于關鍵用戶挖掘的模型調整。

步驟101中,其所述數據采集的步驟包括:

在微博網絡中實時獲取給定消息id的轉發用戶;

獲取微博用戶的配置信息,關注數、粉絲數等;

所述步驟102中,其所述數據處理的步驟包括:

根據給定的時間間隔將微博數據劃分為多個時間窗口;

選取前k個時間窗口作為訓練數據窗口,第k+1時間窗口為預測窗口;

所述步驟103中,其所述線性模型預測的步驟為:

首先根據訓練集的時間窗口內用戶的轉發量確定時間窗口內的關鍵用戶;

根據用戶的轉發數對線性函數進行擬合,迭代的確定線性函數的待估參數值,確
定預測函數。

將預測時間窗口的窗口值代入預測函數,生成預測值。

所述步驟104中,其所述的基于關鍵用戶挖掘的模型調整:

根據預測值和實際值的差異確定是否需要進行關鍵用戶檢測;

當預測差異大于閾值時,根據該時間窗口的用戶轉發數確定關鍵用戶;

利用關鍵用戶的粉絲數,以及之前其他關鍵用戶的粉絲數來確定關鍵用戶的數
值,來對線性模型進行調整。

利用新生成的線性模型對下一時間窗口進行預測。

在步驟101中,數據采集是指從微博網絡實時獲取微博轉發用戶數據。

在步驟102中,數據處理是指將獲取的微博轉發數據按固定時間間隔劃分時間窗
口。

將微博消息oid為相同值的微博微博消息按照消息的時間,以固定的時間間隔L劃
分為N個微博窗口ms,ms=[win1,…,winj,…,winL],winj為第j個微博窗口,且滿足

在步驟103中,線性模型預測是指根據給定的訓練時間窗口訓練線性模型對下一
個時間窗口進行預測。

在線性預測模型預測的過程中僅考慮關鍵用戶對轉發規模具有影響如圖2所示,
并根據圖2建立公式(1)。公式主要由三部分組成,本發明考慮微博消息制造者作為第一個
關鍵用戶與其他的關鍵用戶的影響效果是不同的,因此使用參數at,bt對兩類關鍵用戶進行
區分。然后是用dt來調節其他節點帶來的部分消息轉發影響。

<mrow> <msub> <mi>P</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>d</mi> <mi>t</mi> </msub> <mo>+</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>&CenterDot;</mo> <msubsup> <mi>R</mi> <msub> <mi>u</mi> <mn>1</mn> </msub> <mi>m</mi> </msubsup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>b</mi> <mi>t</mi> </msub> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msubsup> <mi>K</mi> <mi>t</mi> <mi>m</mi> </msubsup> </mrow> </munder> <msubsup> <mi>R</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> <mi>m</mi> </msubsup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中表示t時刻用戶ui的預測轉發量,表示m消息在t時刻的關鍵用戶集合。

根據公式需求,首先確定發布用戶為第一個關鍵用戶,然后根據訓練集中用戶的
被轉發數確定訓練集關鍵用戶,最后通過公式(1)進行預測。

在步驟104中,初始候選集合選取,是指根據預測值和實際值得差異性來確定是否
進行關鍵用戶挖掘并根據關鍵用戶改進線性模型。

在消息的傳播過程中,訓練集中的關鍵用戶通常很容易被確定,但當預測時間窗
口中出現關鍵用戶后,預測算法的準確性被關鍵用戶干擾后,導致預測準確度下降。因此本
發明將關鍵用戶作為微博轉發規模預測準確度的重要因素。當關鍵用戶出現在預測時間窗
口內時,預測算法會產生相應的預測偏差,因此本發明定義Key_Thrseshold作為關鍵用戶
存在閾值,其公式如所示:

<mrow> <mi>K</mi> <mi>e</mi> <mi>y</mi> <mo>_</mo> <mi>T</mi> <mi>h</mi> <mi>r</mi> <mi>s</mi> <mi>e</mi> <mi>s</mi> <mi>h</mi> <mi>o</mi> <mi>l</mi> <mi>d</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>R</mi> <mo>_</mo> <mi>F</mi> <mi>a</mi> <mi>c</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>R</mi> <mo>_</mo> <mi>Pr</mi> <mi>e</mi> <mi>c</mi> <mi>d</mi> <mi>i</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>R</mi> <mo>_</mo> <mi>F</mi> <mi>a</mi> <mi>c</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

當Key_Thrseshold<θ時,證明該時間窗口內不存在影響預測的關鍵用戶,當Key_
Thrseshold≥θ時并且R_Fact(t)-R_Precdit(t)≥10表明該預測時間窗內可能存在影響預
測的關鍵用戶,需要對該時間窗口進行關鍵用戶挖掘。Key_Thrseshold≥θ表明預測算法和
實際值有較大的差異,R_Fact(t)-R_Precdit(t)≥10為了避免小于10的轉發規模影響閾值
計算。同時當Key_Thrseshold≤-θ時,表明之前窗口可能有部分的關鍵用戶失效,需要刪除
關鍵用戶影響。

首先根據該時間窗口中的用戶自身轉發數進行用戶排序,生成排序集合依次的將
集合中的用戶添加到下列公式中,直到滿足下列公式為止。

<mrow> <mfrac> <mrow> <mi>R</mi> <mo>_</mo> <mi>F</mi> <mi>a</mi> <mi>c</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>R</mi> <mo>_</mo> <mi>Pr</mi> <mi>e</mi> <mi>c</mi> <mi>d</mi> <mi>i</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>R</mi> <mo>_</mo> <mi>K</mi> <mi>e</mi> <mi>y</mi> <mi>U</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>R</mi> <mo>_</mo> <mi>F</mi> <mi>a</mi> <mi>c</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&le;</mo> <mi>&theta;</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

通過找到的關鍵用戶集合對線性模型進行動態的調整,來進行下一步的預測。

關 鍵 詞:
一種 基于 關鍵 用戶 信息 傳播 預測 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種基于關鍵用戶的微博信息傳播預測方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100781.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图