• / 8
  • 下載費用:30 金幣  

一種用于IDC有害信息監測平臺的爬蟲系統.pdf

摘要
申請專利號:

CN201510343175.7

申請日:

2015.06.19

公開號:

CN104899323A

公開日:

2015.09.09

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150619|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 成都國騰實業集團有限公司
發明人: 彭光輝; 屈立笳; 陶磊; 蘇禮剛; 林偉
地址: 610041四川省成都市高新技術開發區西部園區西芯大道3號
優先權:
專利代理機構: 成都金英專利代理事務所(普通合伙)51218 代理人: 袁英
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510343175.7

授權公告號:

||||||

法律狀態公告日:

2018.09.11|||2015.10.07|||2015.09.09

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種用于IDC有害信息監測平臺的爬蟲系統,它包括一個或多個爬蟲集群,且每個爬蟲集群均包括多個爬蟲結點和一個爬蟲根節點,形成一個分布式的數據采集網絡,爬蟲根節點用于對該爬蟲集群中的爬蟲結點進行控制和管理,爬蟲結點用于采集網絡中的有害信息,每個爬蟲結點均包括多線程網頁采集模塊、網頁庫、編碼識別處理模塊、網頁內容自動提取模塊、URL過濾器、URL去重模塊和URL調度模塊。本發明提供了強大的數據收集功能,通過多個爬蟲集群對動態網頁和靜態網頁進行全面的實時監控。

權利要求書

權利要求書
1.  一種用于IDC有害信息監測平臺的爬蟲系統,其特征在于:它包括一個或多個爬蟲集群,且每個爬蟲集群均包括多個爬蟲結點和一個爬蟲根節點,形成一個分布式的數據采集網絡,其中,爬蟲根節點用于對該爬蟲集群中的爬蟲結點進行控制和管理,爬蟲結點用于采集網絡中的有害信息,所述每個爬蟲結點均由以下多種模塊組成:
多線程網頁采集模塊,包括多種網頁采集通道及網頁解析模塊,針對不同類型的網頁,通過與其相匹配的網頁采集通道和網頁解析模塊對其進行采集;
網頁庫,存儲多線程網頁采集模塊所采集的網頁;
編碼識別處理模塊,自動識別網頁的編碼類型,并對其進行編碼轉換處理;
網頁內容自動提取模塊,包括動態網頁內容提取模塊和靜態網頁內容提取模塊,根據敏感詞庫根據敏感詞庫抓取編碼轉換處理后存在有害信息網頁的URL;
URL過濾器,過濾不需要下載的URL;
URL去重模塊,用于判斷過濾后的URL是否與URL存儲器中所存儲的URL一致,若一致則不再對該URL進行后續的處理;
URL調度模塊,根據去重后的URL隊列,控制多線程網頁采集模塊下載相應的網頁。

2.  根據權利要求1所述的一種用于IDC有害信息監測平臺的爬蟲系統,其特征在于:所述爬蟲結點還包括網頁去重模塊,用于判斷網頁內容是否與已下載過的網頁內容一致,若一致則不再對該網頁進行后續的處理,并從網頁庫中將其刪除。

3.  根據權利要求2所述的一種用于IDC有害信息監測平臺的爬蟲系統,其特征在于:所述網頁去重模塊包括指紋計算模塊、指紋庫和指紋去重模塊,指紋計算模塊根據網頁指紋算法,將網頁的內容經過計算生成指紋,指紋去重模塊將該生成指紋與指紋庫中的指紋進行對比,若存在相同或相近似的指紋,則判斷該網頁內容已下載過,指紋庫用于存儲指紋數據,且每個爬蟲結點的指紋庫進行同步更新。

4.  根據權利要求1所述的一種用于IDC有害信息監測平臺的爬蟲系統,其特征在于:所述爬蟲結點還包括標簽計數器和標簽計數日志文件,標簽計數器用于記錄網頁庫中的下載數,并將該數據記錄在標簽計數日志文件中。

5.  根據權利要求1所述的一種用于IDC有害信息監測平臺的爬蟲系統,其特征在于:所述爬蟲結點還包括間隔抓取模塊,間隔抓取模塊通過網頁評分和網站權重自動生成間隔規則,并控制網頁內容自動提取模塊對網頁進行相應的間隔抓取。

6.  根據權利要求1所述的一種用于IDC有害信息監測平臺的爬蟲系統,其特征在于:所述爬蟲結點還包括抓取規則設置模塊,抓取規則設置模塊根據所設置的抓取規則,控制網頁內容自動提取模塊對網頁進行相應的抓取動作。

7.  根據權利要求1所述的一種用于IDC有害信息監測平臺的爬蟲系統,其特征在于:所述編碼識別處理模塊自動將網頁的編碼類型轉換為統一碼變換格式UTF。

8.  根據權利要求1所述的一種用于IDC有害信息監測平臺的爬蟲系統,其特征在于:所述爬蟲結點還包括反爬蟲抓取模塊,當網頁設置有反爬蟲程序時,啟動反爬蟲抓取模塊,對目標網頁進行強制采集。

9.  根據權利要求1所述的一種用于IDC有害信息監測平臺的爬蟲系統,其特征在于:所述爬蟲結點還包括采集監控模塊,采集監控模塊將爬蟲結點的工作狀態、采集任務、采集深度和日志信息轉發給爬蟲根節點進行匯聚處理,并接收爬蟲根節點的控制。

10.  根據權利要求1所述的一種用于IDC有害信息監測平臺的爬蟲系統,其特征在于:所述爬蟲結點還包括防火墻,多線程網頁采集模塊通過防火墻對網絡上的有害信息進行檢索爬取;
所述爬蟲系統還包括全文數據庫、索引數據庫和列序數據庫,全文數據庫、索引數據庫和列序數據庫均與爬蟲結點和爬蟲根節點連接。

說明書

說明書一種用于IDC有害信息監測平臺的爬蟲系統
技術領域
本發明涉及一種用于IDC有害信息監測平臺的爬蟲系統。
背景技術
隨著網絡的迅速發展,萬維網成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。
面對日益活躍的網絡社區環境,每個網民都可能成為有害信息的發布者和散布者,網絡有害傳播途徑越來越廣包括博客、新聞、論壇、微博、以及其他途徑。網絡爬蟲是各種搜索引擎能夠實現的先驅技術,大數據時代的來臨以及互聯網技術的飛速發展,使得網絡爬蟲具有更重大的研究意義。應對網頁數據量增幅大、網絡文本更新周期短以及網頁結構動態變化等一系列挑戰,高效率且不間斷工作的網絡爬蟲成為有害信息挖掘的研究熱點。
發明內容
本發明的目的在于克服現有技術的不足,提供一種用于IDC有害信息監測平臺的爬蟲系統,本系統提供了強大的數據收集功能,通過多個爬蟲集群對動態網頁和靜態網頁進行全面的實時監控。
本發明的目的是通過以下技術方案來實現的:一種用于IDC有害信息監測平臺的爬蟲系統,它包括一個或多個爬蟲集群,且每個爬蟲集群均包括多個爬蟲結點和一個爬蟲根節點,形成一個分布式的數據采集網絡,其中,爬蟲根節點用于對該爬蟲集群中的爬蟲結點進行控制和管理,爬蟲結點用于采集網絡中的有害信息。
本發明中,所述每個爬蟲結點均由以下多種模塊組成:
1、多線程網頁采集模塊,包括多種網頁采集通道及網頁解析模塊,針對不同類型的網頁,通過與其相匹配的網頁采集通道和網頁解析模塊對其進行采集;
2、網頁庫,存儲多線程網頁采集模塊所采集的網頁;
3、編碼識別處理模塊,自動識別網頁的編碼類型,并對其進行編碼轉換處理;
4、網頁內容自動提取模塊,包括動態網頁內容提取模塊和靜態網頁內容提取模塊,根據敏感詞庫抓取編碼轉換處理后存在有害信息網頁的URL;
5、URL過濾器,過濾不需要下載的URL;
6、URL去重模塊,用于判斷過濾后的URL是否與URL存儲器中所存儲的URL一致,若一致則不再對該URL進行后續的處理;
7、URL調度模塊,根據去重后的URL隊列,控制多線程網頁采集模塊下載相應的網頁。
所述爬蟲結點還包括網頁去重模塊,用于判斷網頁內容是否與已下載過的網頁內容一致,若一致則不再對該網頁進行后續的處理,并從網頁庫中將其刪除。
所述網頁去重模塊包括指紋計算模塊、指紋庫和指紋去重模塊,指紋計算模塊根據網頁指紋算法,將網頁的內容經過計算生成指紋,指紋去重模塊將該生成指紋與指紋庫中的指紋進行對比,若存在相同或相近似的指紋,則判斷該網頁內容已下載過,指紋庫用于存儲指紋數據,且每個爬蟲結點的指紋庫進行同步更新。
所述爬蟲結點還包括標簽計數器和標簽計數日志文件,標簽計數器用于記錄網頁庫中的下載數,并將該數據記錄在標簽計數日志文件中。
所述爬蟲結點還包括間隔抓取模塊,間隔抓取模塊通過網頁評分和網站權重自動生成間隔規則,并控制網頁內容自動提取模塊對網頁進行相應的間隔抓取。
所述爬蟲結點還包括抓取規則設置模塊,抓取規則設置模塊根據所設置的抓取規則,控制網頁內容自動提取模塊對網頁進行相應的抓取動作。
所述編碼識別處理模塊自動將網頁的編碼類型轉換為統一碼變換格式UTF。
所述爬蟲結點還包括反爬蟲抓取模塊,當網頁設置有反爬蟲程序時,啟動反爬蟲抓取模塊,對目標網頁進行強制采集。
所述爬蟲結點還包括采集監控模塊,采集監控模塊將爬蟲結點的工作狀態、采集任務、采集深度和日志信息轉發給爬蟲根節點進行匯聚處理,并接收爬蟲根節點的控制。
所述爬蟲結點還包括防火墻,多線程網頁采集模塊通過防火墻對網絡上的有害信息進行檢索爬取。
所述爬蟲系統還包括全文數據庫、索引數據庫和列序數據庫,全文數據庫、索引數據庫和列序數據庫均與爬蟲結點和爬蟲根節點連接。
本發明的有益效果是:本發明所提出的一種用于IDC有害信息監測平臺的爬蟲系統,具有以下多個功能特點:
1)多線程采集:針對不同類型的網站定制不同的策略,采集支持多線程,實現快速信息采集;
2)分布式采集:通過多個爬蟲集群、若干的爬蟲結點進行大規模數據采集;
3)采集監控:對爬蟲結點工作狀態、采集任務、采集深度、日志、系統運行報告等進行監控和管理;
4)網頁內容自動提取:能采集多種動態和靜態網頁,例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript等網頁;
5)編碼自動識別轉換:支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、ISO8859-1等多種編碼自動識別,系統自動進行編碼轉換為UTF;
6)增量更新:保證爬蟲結點只采集上次更新后新生成或更改的網頁,不用重新采集已下載的網頁來保證信息更新的效率,用戶也可以根據需要也可設定全部采集;
7)反爬蟲抓取:針對部分設置反爬蟲程序網站應設置相關策略,避免無法抓取頁面;
8)爬蟲間隔抓取:采用網頁評分和網站權重等自動生成間隔規則,對網頁進行相應的間隔抓取;
9)自定義抓取規則:用戶也可以自己設置抓取規則。
附圖說明
圖1為本發明的爬蟲系統結構框圖;
圖2為本發明中爬蟲結點的結構原理框圖。
具體實施方式
下面結合附圖進一步詳細描述本發明的技術方案,但本發明的保護范圍不局限于以下所述。
如圖1所示,一種用于IDC有害信息監測平臺的爬蟲系統,它負責從互聯網上進行原始數據的發現、爬取和數據規格化。根據互聯網上應用的不同,包括一個或多個爬蟲集群,且每個爬蟲集群均包括多個爬蟲結點和一個爬蟲根節點,形成一個分布式的數據采集網絡,其中,爬蟲根節點用于對該爬蟲集群中的爬蟲結點進行控制和管理,并與上位機進行相互通信,爬蟲結點用于采集網絡中的有害信息。
如圖2所示,本發明中,所述每個爬蟲結點均由以下多種模塊組成:
1、多線程網頁采集模塊,包括多種網頁采集通道及網頁解析模塊,針對不同類型的網頁,通過與其相匹配的網頁采集通道和網頁解析模塊對其進行采集;所述網頁解析模塊包括DNS解析模塊、HTTP解析模塊、FTP解析模塊、GOPHER解析模塊等;
實現多線程采集功能:能夠針對不同類型的網站定制不同的策略,采集支持多線程,實現快速信息采集;
2、網頁庫,存儲多線程網頁采集模塊所采集的網頁;
3、編碼識別處理模塊,自動識別網頁的編碼類型,并對其進行編碼轉換處理;支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、ISO8859-1等多種編碼自動識別,系統自動進行編碼轉換為UTF;
4、網頁內容自動提取模塊,包括動態網頁內容提取模塊和靜態網頁內容提取模塊,根據敏感詞庫抓取編碼轉換處理后存在有害信息網頁的URL;能采集多種動態和靜態網頁,例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript等網頁;
5、URL過濾器,過濾不需要下載的URL;
6、URL去重模塊,用于判斷過濾后的URL是否與URL存儲器中所存儲的URL一致,若一致則不再對該URL進行后續的處理;實現增量更新功能,保證爬蟲結點只采集上次更新后新生成或更改的網頁,不用重新采集已下載的網頁來保證信息更新的效率,用戶也可以根據需要也可設定全部采集;
7、URL調度模塊,根據去重后的URL隊列,控制多線程網頁采集模塊下載相應的網頁。
所述爬蟲結點還包括網頁去重模塊,用于判斷網頁內容是否與已下載過的網頁內容一致,若一致則不再對該網頁進行后續的處理,并從網頁庫中將其刪除。
所述網頁去重模塊包括指紋計算模塊、指紋庫和指紋去重模塊,指紋計算模塊根據網頁指紋算法,將網頁的內容經過計算生成指紋,指紋去重模塊將該生成指紋與指紋庫中的指紋進行對比,若存在相同或相近似的指紋,則判斷該網頁內容已下載過,指紋庫用于存儲指紋數據,且每個爬蟲結點的指紋庫進行同步更新。
所述爬蟲結點還包括標簽計數器和標簽計數日志文件,標簽計數器用于記錄網頁庫中的下載數,并將該數據記錄在標簽計數日志文件中。
所述爬蟲結點還包括間隔抓取模塊,間隔抓取模塊通過網頁評分和網站權重自動生成間隔規則,并控制網頁內容自動提取模塊對網頁進行相應的間隔抓取。
所述爬蟲結點還包括抓取規則設置模塊,抓取規則設置模塊根據所設置的抓取規則,控制網頁內容自動提取模塊對網頁進行相應的抓取動作。
所述爬蟲結點還包括反爬蟲抓取模塊,當網頁設置有反爬蟲程序時,啟動反爬蟲抓取模塊,對目標網頁進行強制采集。
所述爬蟲結點還包括采集監控模塊,采集監控模塊將爬蟲結點的工作狀態、采集任務、采集深度和日志信息轉發給爬蟲根節點進行匯聚處理,并接收爬蟲根節點的控制。
所述爬蟲結點還包括防火墻,多線程網頁采集模塊通過防火墻對網絡上的有害信息進行檢索爬取。
所述爬蟲系統還包括全文數據庫、索引數據庫和列序數據庫,全文數據庫、索引數據庫和列序數據庫均與爬蟲結點和爬蟲根節點連接。

關 鍵 詞:
一種 用于 IDC 有害信息 監測 平臺 爬蟲 系統
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種用于IDC有害信息監測平臺的爬蟲系統.pdf
鏈接地址:http://www.rgyfuv.icu/p-6373782.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图