• / 12
  • 下載費用:30 金幣  

一種獲取特定話題微博中PCU關聯數據的方法.pdf

摘要
申請專利號:

CN201510358782.0

申請日:

2015.06.25

公開號:

CN104915438A

公開日:

2015.09.16

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150625|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 西安交通大學
發明人: 劉均; 陳浩; 米建紅; 呂彥章; 占夢婷
地址: 710049陜西省西安市咸寧西路28號
優先權:
專利代理機構: 西安通大專利代理有限責任公司61200 代理人: 陸萬壽
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510358782.0

授權公告號:

||||||

法律狀態公告日:

2019.02.05|||2015.10.14|||2015.09.16

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種從微博中獲取PCU關聯數據的方法,解決現有技術不能獲取有關聯的微博帖子、評論、發帖人的技術缺陷,該方法包括:(1)數據訪問權限取得,通過分析登錄頁面HTML標簽,自動填寫身份驗證信息,取得數據訪問權限;(2)PCU關聯數據頁面下載,依據微博頁面的HTML結構及標簽語義,以PCU數據的邏輯關系為指導,自動有序下載含有PCU關聯數據的頁面;(3)PCU關聯數據結構化解析與構建,融合帖子關系、用戶好友關系、用戶帖子關系構建一個異質網絡,即PCU關聯數據網絡。本發明能夠自動獲取新浪微博中的PCU關聯數據,并構建結構化的關聯數據網絡,為后續的社交網絡挖掘提供良好的數據集。

權利要求書

權利要求書
1.  一種獲取微博中特定話題PCU關聯數據的方法,其特征在于:以新浪微博中元素間的邏輯關聯關系為指導,自動有序地獲取由帖子內容、帖子評論以及發帖用戶所形成的PCU關聯數據,表示為異質網絡:
G=(P,C,U,f,g,h)
其中P、C與U分別代表帖子、帖子評論與發帖用戶,f代表帖子與帖子評論的交互關系,g代表用戶之間的好友關系,h代表用戶和帖子、帖子評論之間的隸屬關系;
該方法包含:數據訪問權限獲取、PCU關聯數據頁面下載與PCU關聯數據的解析與構建,具體的過程如下:
Step1:數據訪問權限獲取:
在新浪微博登錄頁面http://weibo.com/login.php,利用web自動化測試工具selenium對標簽<div class=″inp username″>和<div class=″inp password″>自動定位并填寫用戶名和密碼,觸發提交按鈕<div class=″info_listlogin_btn″>,完成身份認證,取得訪問數據的權限;
Step2:PCU關聯數據頁面下載:
1)通過微博的查詢接口獲取特定話題的所有帖子鏈接urlp,存入帖子URL隊列池Urlp,從中逐一取出帖子鏈接urlp并依據其下載帖子頁面Sp,存入帖子頁面庫Pagesp中;
2)從用戶URL隊列池Urlu、評論URL隊列池Urlu、好友關系列表URL隊列池Urlf中依次取出帖子的用戶鏈接urlu、評論鏈接urlc、好友關系鏈接urlf,啟用三個線程分別下載用戶頁面Su、評論頁面Sc和好友頁面Sf,存入用戶頁面庫Pagesu、評論頁面庫Pagesc及好友關系庫Pagesf中;
Step3:PCU關聯數據的解析與構建:
1)逐一從帖子頁面庫Pagesp中取出帖子頁面Sp、從用戶頁面庫Pagesu中取出用戶頁面Su、從評論頁面庫Pagesc、中取出評論頁面Sc、從好友關系庫Pagesf中取出好友頁面Sf,利用文檔解析工具Beautifulsoup對Sp、Su、Sc和Sf進行分層定位解析,將所需標簽值寫入數據庫,其中解析Sp得到的urlu、urlc和urlf,分別放入用戶URL隊列池Urlu、評論URL隊列池Urlc和好友關系列表URL隊列池Urlf;
2)由帖子與評論之間的交互關系得到帖子關系網絡f,由用戶的關注與粉絲信息得到用戶好友關系網絡g,由用戶與帖子、帖子評論之間的隸屬關系得到用戶帖子隸屬關系網絡h;
最終得到異質網絡G=(P,C,U,f,g,h)。

2.  如權利要求1所述的獲取微博中特定話題PCU關聯數據的方法,其特征在于,所述過程step1具體步驟為:
第1步:通過selenium啟動IE9瀏覽器,自動進入新浪微博登陸主頁 http://www.weibo.com/login.php,定位輸入帳戶和密碼的HTML標簽<input name=″username″>和<input name=″password″>;
第2步:根據第1步標簽定位結果,利用selenium自動填寫已經注冊的用戶名和密碼;
第3步:根據登錄頁面是否含有HTML標簽<table name=″verifycode″>,判斷是否需要輸入驗證碼;
第4步:若有驗證碼輸入標簽,采用字符提取技術獲取驗證碼,對于采用該技術失效的情況,采取人工識別并手工輸入的方法;
第5步:通過selenium定位到登陸標簽<a class=″W_btn_g″>,自動觸發該標簽完成數據訪問權限獲取。

3.  如權利要求1所述的獲取微博中特定話題PCU關聯數據的方法,其特征在于,所述過程step2具體步驟體為:
第1步:進入微博搜索頁面http://s.weibo.com/,選擇“綜合”搜索查詢接口,同時初始化Urlp、Urlu、Urlc、Urlf、Pagesp、Pagesu、Pagesc、Pagesf為空;
第2步:將特定話題關鍵詞自動填入搜索框<input type=″text″>中,自動觸發提交“搜索”按鈕<input type=″text″class=″searchInp_form″>,通過selenium的變量current_url獲取此關鍵詞搜索頁面的鏈接urlp并存入Urlp;
第3步:從Urlp中逐一取出urlp,用selenium的get(url)函數獲取相應的頁面,用selenim的變量page_source提取頁面源碼Sp,并存入頁面庫Pagesp;
第4步:檢測戶URL隊列池Urlu、評論URL隊列池Urlc和好友關系鏈接隊列池Urlf是否為空,若為空,則轉到step3步驟1)具體步驟中第1步;若不為空,分別從中依次取出帖子的用戶鏈接urlu、評論鏈接urlc以及好友關系列表鏈接urlf,啟用三個線程分別下載用戶頁面Su、評論頁面Sc和好友關系列表頁面Sf,存入用戶頁面庫Pagesu、評論頁面庫Pagesc及好友關系頁面庫Pagesf中,轉入step3步驟1)具體步驟中第5步。

4.  如權利要求1所述的獲取微博中特定話題PCU關聯數據的方法,其特征在于,所述過程step3步驟1)具體步驟為:
第1步:逐一從Pagesp中取出Sp,利用Beautifulsoup定位標簽<div class=″WB_cardwrap S_bg2 clearfix″>,解析出Post頁面上所有的帖子,針對每個帖子解析出所需字段,包括帖子id(post_id)、發帖用戶名(poster)、用戶id(user_id)、用戶頭像、用戶主頁鏈接、發帖內容、發帖時間、評論數、轉發數;
第2步:將上一步解析得到的發帖用戶主頁鏈接urlu,模式為:http://weibo.com/u/<user_id>,放入用戶鏈接隊列池Urlu;
第3步:通過利用帖子id和通過firebug截獲的帖子評論響應地址拼湊得到評論鏈接urlc,模式為:http://weibo.com/aj/v6/comment/big?ajwvr=6&id=<post_id>&page=<num>,放入評論鏈接隊列池Urlc;
第4步:通過發帖人user_id,得到好友關系鏈接urlf,模式為:http://weibo.com/p/100505<user_id>/follow?page=<num>以及http://weibo.com/p/100505<user_id>/follow?relate=fans&page=<num>;
第5步:檢測Pagesu、Pagesc、Pagesf是否為空,若為空,則進入step2具體步驟中第4步;若不為空,逐一從Pagesu中取出Su,利用Beautifulsoup解析出用戶信息有關字段,包括用戶id、用戶名、關注數、粉絲數、個人簽名、個人信息;逐一從Pagesc中取出Sc,利用Beautifulsoup解析出帖子評論有關字段,包括評論人名、評論人id、評論內容、評論時間;逐一從Pagesf中取出Sf,利用Beautifulsoup解析出發帖人好友的有關字段,包括昵稱、好友id、主頁鏈接、頭像、關注數、粉絲數、微博數、居住地址。

5.  如權利要求1所述的獲取微博中特定話題PCU關聯數據的方法,其特征在于,所述step3步驟2)具體步驟為:
第1步:構建一個有向無權異質網絡G=(P,C,U,f,g,h),初始化G為空;
第2步:由帖子與評論之間的隸屬關系,判斷是否是原發帖和評論、判斷兩個帖子是否為轉發關系,融合后得到帖子關系網絡f;
第3步:由用戶的關注與被關注信息得到用戶好友關系網絡g;
第4步:根據用戶與帖子、帖子評論的隸屬關系構建用戶帖子隸屬關系網絡h;
第5步:融合三類實體及三類網絡得到異質網絡G=(P,C,U,f,g,h)。

關 鍵 詞:
一種 獲取 特定 話題 微博中 PCU 關聯 數據 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種獲取特定話題微博中PCU關聯數據的方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6373623.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图