• / 6
  • 下載費用:30 金幣  

一種動態網頁的頁面數據采集方法.pdf

摘要
申請專利號:

CN201510332025.6

申請日:

2015.06.16

公開號:

CN104991904A

公開日:

2015.10.21

當前法律狀態:

撤回

有效性:

無權

法律詳情: 發明專利申請公布后的視為撤回 IPC(主分類):G06F 17/30申請公布日:20151021|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150616|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 浪潮軟件集團有限公司
發明人: 焦毓葳; 崔樂樂; 王貴友
地址: 250100山東省濟南市高新區科航路2877號
優先權:
專利代理機構: 濟南信達專利事務所有限公司37100 代理人: 姜明
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510332025.6

授權公告號:

||||||

法律狀態公告日:

2019.01.11|||2015.11.18|||2015.10.21

法律狀態類型:

發明專利申請公布后的視為撤回|||實質審查的生效|||公開

摘要

本發明公開了一種動態網頁的頁面數據采集方法,其具體實現過程為:使用腳本解析環境并將其嵌入到分布式網絡爬蟲中,通過該網絡爬蟲的數據挖掘、索引和搜索功能,實現動態頁面的數據采集。該一種動態網頁的頁面數據采集方法與現有技術相比,將各種各樣的動態數據以完整的形態采集下來,存入數據庫當中,方便我們實時了解互聯網動態,避免采集數據不準確、不及時的狀況,彌補了傳統的采集方法中采集頁面只采集一遍而且不根據需求采集的缺點,極大的提高了采集的準確度和采集效率,實用性強,適用范圍廣泛,易于推廣。

權利要求書

權利要求書
1.  一種動態網頁的頁面數據采集方法,其特征在于,其具體實現過程為:使用腳本解析環境并將其嵌入到分布式網絡爬蟲中,通過該網絡爬蟲的數據挖掘、索引和搜索功能,實現動態頁面的數據采集。

2.  根據權利要求1所述的一種動態網頁的頁面數據采集方法,其特征在于,所述動態頁面數據采集挖掘過程為:
首先創建原始URL列表,注入原始的URL;
生成抓取列表,并通過網絡在網頁抓取數據;
通過解析器解析采集到的網頁數據內容,獲取相關的頁面信息;
提取解析出的URL連接,并對URL庫進行更新,完成數據采集挖掘過程;
索引過程為:
反向索引采集的網頁,刪除冗余的內容及URL;
將小的索引合成大的索引,并建立索引庫;
搜索過程為:
用戶通過搜索引擎提供的交互界面發出搜索請求;
搜索引擎完成搜索過程后,將結果反饋給用戶。

3.  根據權利要求2所述的一種動態網頁的頁面數據采集方法,其特征在于,所述原始URL為空的URL庫,注入的原始URL為起始的根URL。

4.  根據權利要求2所述的一種動態網頁的頁面數據采集方法,其特征在于,所述抓取列表生成及抓取過程為:根據URL庫在新創建的segment目錄中生成fetchlist,存放待采集的URL;按照fetchlist中的URL信息從網絡上進行相關網頁數據的采集工作。

5.  根據權利要求2所述的一種動態網頁的頁面數據采集方法,其特征在于,所述搜索引擎為Nutch結構,該Nutch結構包括數據采集部分、索引部分和搜索部分,其中:
數據采集部分負責網頁數據的抓取,解析網頁并根據獲取的URL連接信息進入下一輪頁面數據的抓取工作;
索引部分將采集回來的采集數據做成反向索引來搜索;
搜索部分根據Nutch 提供的用戶接口的輸入數據搜索查找相關數據。

6.  根據權利要求5所述的一種動態網頁的頁面數據采集方法,其特征在于,當用戶發出搜索請求時,Nutch將該搜索請求轉換為Lucence查詢請求,并將結果反饋給用戶。

關 鍵 詞:
一種 動態 網頁 頁面 數據 采集 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種動態網頁的頁面數據采集方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6353651.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图