• / 8
  • 下載費用:30 金幣  

基于特征分析的用戶群確定方法.pdf

摘要
申請專利號:

CN201510924814.9

申請日:

2015.12.11

公開號:

CN105488211A

公開日:

2016.04.13

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20151211|||公開
IPC分類號: G06F17/30; G06Q50/00(2012.01)I 主分類號: G06F17/30
申請人: 成都陌云科技有限公司
發明人: 董政; 吳文杰; 陳露; 李學生
地址: 610041四川省成都市高新區天華一路99號7棟3層312-315
優先權:
專利代理機構: 北京天奇智新知識產權代理有限公司11340 代理人: 郭霞
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510924814.9

授權公告號:

|||

法律狀態公告日:

2016.05.11|||2016.04.13

法律狀態類型:

實質審查的生效|||公開

摘要

本發明提供了一種基于特征分析的用戶群確定方法,該方法包括:對社交網站服務器上的用戶信息和社交內容進行采集,分析用戶的特征,基于所分析的特征來識別特定用戶群體。本發明提出了一種基于特征分析的用戶群確定方法,有效提高互聯網社交組群的識別準確率和時效性。

權利要求書

1.一種基于特征分析的用戶群確定方法,其特征在于,包括:
對社交網站服務器上的用戶信息和社交內容進行采集,分析用戶的特征,
基于所分析的特征來識別特定用戶群體。
2.根據權利要求1所述的方法,其特征在于,所述分析用戶的特征,基于
所分析的來識別特定用戶群體,進一步包括:
首先對待識別的群體進行描述,并按照群體特性抽象出一組關鍵詞列表,
即群體特征詞;其次,對檢測到的用戶進行識別,發現屬于該群體的用戶節點;
在用戶行為過濾過程中采用字符串正則匹配將用戶個人屬性與群體特征詞進行
匹配,如果在用戶個人屬性或用戶名稱文本數據中包含這些特征詞,則將該用
戶劃分至待識別的群體;
在用戶行為過濾中,利用以下過程處理由社交網絡中用戶產生的文本數
據,計算用戶與群體之間的相似度:
首先建立一個基于群體特征詞的N維向量空間U,具體如下表示:
U=[Tl,T2,T3,...,TN]
其中T代表在群體中某個特征詞出現的頻率向量,N表示特征詞的下標;
其次,利用文本分割對用戶A的全部文本PA進行處理:
PA=[key1,key2,...,keyN],
其中key值為用戶會話文本中每個特征詞出現的頻率向量
比較用戶文本數據與群體之間的行為特征是否相近:
sim(A,U)=(PA·U)/||(PA||||U||)
若相似度sim(A,U)超過預定的閾值,則將該用戶節點A劃分至群體U內;
利用數據結構對會話過程進行描述;將參與會話的用戶以關系連接在一
起,構建成基于單個事件的群體;最后在社交關系拓撲中采用節點衡量指標識
別強關系群體中的節點,最后以樹形的層級結構將該事件存儲至文件;其中所
述強關系群體具體定義為,如果已知群體α滿足:對于群體α內的每個用戶節點i,
均滿足i與群體α內節點構成的節點數量大于該節點與群體α外節點構成的節點
數量,則群體α被稱為強關系群體。

說明書

基于特征分析的用戶群確定方法

技術領域

本發明涉及大數據,特別涉及一種基于特征分析的用戶群確定方法。

背景技術

隨著移動互聯網的發展,將生活中的社交關系遷移到了互聯網上,帶來了
信息交換方式的變革,而且改變了傳統的人際溝通方式,對社會生活的各個領
域具有深遠的意義。用戶之間可以廣泛地溝通、互動,通過撰寫、中轉、收藏
等手段對文本數據進行操作。在社交網絡中,總存在部分節點連接比較緊密,
而這些節點同其他節點之間的聯系則相對稀疏,由此可將這部分連接緊密的節
點歸為同一個群體。群體作為一種重要的社交關系屬性,無形中給輿情控制以
及網絡監管帶來了巨大的挑戰。如果沒有對群體關系進行充分識別識別,則無
法識別群體興趣,推薦感興趣內容,更無法及時發現危害信息,維護良好的網
絡環境。

發明內容

為解決上述現有技術所存在的問題,本發明提出了一種基于特征分析的用
戶群確定方法,包括:

對社交網站服務器上的用戶信息和社交內容進行采集,分析用戶的特征,
基于所分析的特征來識別特定用戶群體。

優選地,所述分析用戶的特征,基于所分析的來識別特定用戶群體,進一
步包括:

首先對待識別的群體進行描述,并按照群體特性抽象出一組關鍵詞列表,
即群體特征詞;其次,對檢測到的用戶進行識別,發現屬于該群體的用戶節點;
在用戶行為過濾過程中采用字符串正則匹配將用戶個人屬性與群體特征詞進行
匹配,如果在用戶個人屬性或用戶名稱文本數據中包含這些特征詞,則將該用
戶劃分至待識別的群體;

在用戶行為過濾中,利用以下過程處理由社交網絡中用戶產生的文本數
據,計算用戶與群體之間的相似度:

首先建立一個基于群體特征詞的N維向量空間U,具體如下表示:

U=[Tl,T2,T3,...,TN]

其中T代表在群體中某個特征詞出現的頻率向量,N表示特征詞的下標;

其次,利用文本分割對用戶A的全部文本PA進行處理:

PA=[key1,key2,...,keyN],

其中key值為用戶會話文本中每個特征詞出現的頻率向量

比較用戶文本數據與群體之間的行為特征是否相近:

sim(A,U)=(PA·U)/||(PA||||U||)

若相似度sim(A,U)超過預定的閾值,則將該用戶節點A劃分至群體U內;

利用數據結構對會話過程進行描述;將參與會話的用戶以關系連接在一
起,構建成基于單個事件的群體;最后在社交關系拓撲中采用節點衡量指標識
別強關系群體中的節點,最后以樹形的層級結構將該事件存儲至文件;其中所
述強關系群體具體定義為,如果已知群體α滿足:對于群體α內的每個用戶節點i,
均滿足i與群體α內節點構成的節點數量大于該節點與群體α外節點構成的節點
數量,則群體α被稱為強關系群體。

本發明相比現有技術,具有以下優點:

本發明提出了一種基于特征分析的用戶群確定方法,有效提高互聯網社交
組群的識別準確率和時效性。

附圖說明

圖1是根據本發明實施例的基于特征分析的用戶群確定方法的流程圖。

具體實施方式

下文與圖示本發明原理的附圖一起提供對本發明一個或者多個實施例的詳
細描述。結合這樣的實施例描述本發明,但是本發明不限于任何實施例。本發
明的范圍僅由權利要求書限定,并且本發明涵蓋諸多替代、修改和等同物。在
下文描述中闡述諸多具體細節以便提供對本發明的透徹理解。出于示例的目的
而提供這些細節,并且無這些具體細節中的一些或者所有細節也可以根據權利
要求書實現本發明。

本發明的一方面提供了一種基于特征分析的用戶群確定方法。圖1是根據
本發明實施例的基于特征分析的用戶群確定方法流程圖。

為了完成對社交網絡的群體分析,首先建立數據采集系統對社交網站服務
器上的數據進行采集,其中數據類型包括:用戶信息如用戶ID、用戶名、文本
數據如會話ID、會話文本,以及關系數據如關注列表與關注者列表。該系統包
含以下模塊:用戶信息獲取、文本數據獲取、社交關系生成、去冗余、多線程、
數據存儲、優先級選擇、令牌批量獲取。數據采集系統中的主控線程進行權限
認證、程序初始化、種子節點讀取、過濾、數據庫操作;數據獲取線程借助API
開放接口進行數據采集,采集過程包括接口請求、json數據解析、指針更新,最
終返回給主控線程總數據列表。在去冗余計算的選擇上,本發明采用二進制向
量和一系列隨機映射函數。為抓取種子ID列表、用戶ID列表、關系列表、會
話ID分別添加了去冗余函數,種子列表,抓取用戶列表、社交列表均以其唯一
標識ID進行,而關系的格式則將兩個用戶的ID組合到一起,并區分兩者的先
后順序,前者為被關注,后者為前者的關注者。系統在多個模塊添加了相應操
作:提取種子ID時,多線程對數據庫的操作添加互斥鎖;為每個線程分配抓取
任務,如線程1只負責文本的獲取;線程2獲取用戶個人信息;為每個線程令
牌資源庫進行區分式排列組合。并為每個線程單獨設置一個斷點文件,記錄抓
取的位置。數據庫模塊將數據庫連接、關閉、查詢、增加、刪除操作進行統一
管理,抓取對象的ID首先由人工方式輸入至文件,每次開始抓取任務之前都加
載一遍優先級文件。在分任務處理中在抓取對象上,為每個線程制定一套特定
的抓取任務,從用戶信息獲取、文本獲取、關系獲取中選取的一個或多個處理
目標。從速度的控制上系統共提出了兩種調節方式,一是控制線程的數量,二
是調整API請求后獲取的數據量。

用戶個人屬性可以反映出用戶的特性,而這種特性恰好提供了識別群體所
需的強特征。本發明首先通過人工方式對待識別的群體進行描述,并按照這些
群體特性抽象出一組關鍵詞列表,即群體特征詞。其次,利用用戶信息過濾模
塊對檢測到的用戶進行識別,發現屬于該群體的用戶節點。在過濾過程中采用
字符串正則匹配將用戶個人屬性與群體特征詞進行匹配,如果在用戶個人屬性
或用戶名稱等文本數據中包含這些特征詞,則將該用戶劃分至待識別的群體。

用戶行為過濾模塊處理由社交網絡中用戶的主觀意愿而產生的文本數據,
利用以下過程計算用戶與群體之間的相似度。

首先建立一個基于群體特征詞的N維向量空間U,具體如下表示:

U=[Tl,T2,T3,...,TN]

其中T代表在群體中某個特征詞出現的頻率向量,N表示特征詞的下標。

其次,利用文本分割對用戶A的全部文本PA進行處理。

PA=[key1,key2,...,keyN]

sim(A,U)=(PA·U)/||(PA||||U||)

這里的key值為用戶會話文本中每個特征詞出現的頻率向量,比較用戶文
本數據與群體之間的行為特征是否相近,如若相似度sim(A,U)超過預定的閾值,
則將該用戶節點A劃分至群體U內。當該節點加入群體后,群體特征詞會隨著
群體內用戶集合所產生的文本數據動態變化,識別當前群體內的潛在特征詞。

在社交關系過濾模塊中,本發明應用了社交網絡中的關系屬性識別未知節
點是否屬于群體。如果已知群體α滿足以下要求,則群體α被稱為強關系群體:
對于群體α內的每個用戶節點i,均滿足i與群體α內節點構成的節點數量大于該
節點與群體α外節點構成的節點數量。

采用以下方法進行強關系群體識別,首先對會話過程進行還原,以數據結
構加以描述;其次將參與會話的用戶以真實的關系連接在一起,構建成基于單
個事件的群體;最后在社交關系拓撲中采用相應的節點衡量指標識別強關系群
體中的節點。

本發明對于社交網絡中信息的會話規律進行了分析,并通過中轉關系還原
真實的事件發展過程,最后以樹形的層級結構將該事件存儲至文件。

每個會話拓撲中都會包含一個指向上級節點的備注信息,據此可找到某個
特定節點的父節點。每條會話也都會維護一個中轉列表,記錄所有中轉該信息
的用戶以及評論,據此可以發現該信息節點的子節點集。在會話樹的基礎上,
通過用戶之間的真實關系,將參與會話的節點構建成關系網絡。獲取真實的社
交關系。采用API與網頁解析相結合共同關注方法,建立社交關系的拓撲,利
用每個節點L完成對參與事件會話用戶u的關注,由此可知如果ui關注了uj,
則節點L與ui具有共同關注,即uj節點。通過這種方式得到ui是否關注了群體
內的其他節點。

在利用語義、關系、用戶數據進行群組識別的過程中,首先提取候選用戶
的語義信息,在此基礎上將語義信息與會話標題匹配的用戶篩選出來作為相同
語義用戶,再對相同語義用戶進行社交關系分析,對于關系分析排名前面的用
戶篩選出來作為新的候選用戶。候選用戶又分為文本相關用戶和關系相關用戶。
在每一次的迭代過程中關系相關用戶通過語義分析產生文本相關用戶,再計算
文本相關用戶的會話標題關聯度閾值,從而得到目標群體。

候選用戶集合使用符號us表示,利用搜索引擎獲取初始候選用戶集合,具
體步驟如下:獲得群體特征詞,在搜索引擎中進行檢索,對檢索的結果進行抓
取,獲得發表文本內容的用戶的鏈接信息,通過分析上述用戶的鏈接信息,對
每個用戶的社交內容進行抓取,作為初始化候選用戶。

第i次迭代過程中產生的候選用戶集合用usi表示,其候選用戶用uij表示,
usi與uij之間的關系可表示為:

usi=(ui1,…uij)j<Ni

Ni表示第i次迭代過程中產生的候選用戶的個數。

候選用戶根據不同的生成過程和特定屬性通常分為文本相關用戶、關系相
關用戶和群體節點。

對相關候選用戶進行語義分析是模型迭代的第一步。候選用戶是上一次迭
代的關系相關用戶。對用戶的會話文本進行分析,通過計算用戶會話標題關聯
度來比較每個用戶與特定會話標題之間的相關程度。若存在第i次模型迭代后的
關系用戶集合,為了得到第i+1次的文本相關用戶集合,對關系用戶集合中的每
一個元素即每一個文本相關用戶,給定語義關鍵詞,計算每個文本相關用戶的
會話標題關聯度。用戶i的會話標題關聯度等于該用戶出現關鍵詞的次數除以用
戶的文本總數,一個用戶i的會話標題關聯度值越高,說明用戶i與該會話標題
之間的關聯度越高。通過計算用戶會話標題關聯度,分辨出哪些用戶與該會話
標題關聯緊密。

在得到了文本相關用戶集合之后,確定哪些文本相關用戶是有效的,得到
群體節點。通過計算文本相關用戶的不重復的會話標題關聯度值的個數,進而
得到群體節點的TopN閾值。

若計算第i次迭代后的文本相關用戶有M個,其中非重復的用戶有MU個。
則,群體節點的前N個用戶表達為:

對M個文本相關用戶按照會話標題關聯度值降序排列,排序后的前N個
用戶是有效的,即這前N個用戶是群體中的一員。得到N個用戶之后就可以將
他們作為群體節點加入群體節點集合。

當得到群體節點之后,通過增加樣本,擴大搜索范圍。通過社交關系分析
從群體節點的關系網中識別深層的候選用戶。社交關系分析包括步驟:

得到群體節點中關注者和被關注者集合構成的有向網絡圖。計算網絡中每
個用戶的共同關注度,即用戶i的關注者集合中每兩個關注者形成互相關注的次
數。共同關注度大于預定義閾值的用戶,即為所需要的關系用戶。

在得到關系用戶之后,即可對模型繼續迭代,通過數據抓取程序繼續抓取
關系用戶的社交行為,從而對其進行語義分析。

綜上所述,本發明提出了一種基于特征分析的用戶群確定方法,有效提高
互聯網社交組群的識別準確率和時效性。

顯然,本領域的技術人員應該理解,上述的本發明的各模塊或各步驟可以
用通用的計算系統來實現,它們可以集中在單個的計算系統上,或者分布在多
個計算系統所組成的網絡上,可選地,它們可以用計算系統可執行的程序代碼
來實現,從而,可以將它們存儲在存儲系統中由計算系統來執行。這樣,本發
明不限制于任何特定的硬件和軟件結合。

應當理解的是,本發明的上述具體實施方式僅僅用于示例性說明或解釋本
發明的原理,而不構成對本發明的限制。因此,在不偏離本發明的精神和范圍
的情況下所做的任何修改、等同替換、改進等,均應包含在本發明的保護范圍
之內。此外,本發明所附權利要求旨在涵蓋落入所附權利要求范圍和邊界、或
者這種范圍和邊界的等同形式內的全部變化和修改例。

關 鍵 詞:
基于 特征 分析 用戶 確定 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:基于特征分析的用戶群確定方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6341527.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图