• / 15
  • 下載費用:30 金幣  

索引頁主體鏈接記錄方法和裝置.pdf

摘要
申請專利號:

CN201510646924.3

申請日:

2015.10.08

公開號:

CN105260443A

公開日:

2016.01.20

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20151008|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 北京奇虎科技有限公司; 奇智軟件(北京)有限公司
發明人: 鄭燕琴
地址: 100088北京市西城區新街口外大街28號D座112室(德勝園區)
優先權:
專利代理機構: 北京鼎佳達知識產權代理事務所(普通合伙)11348 代理人: 王偉鋒; 劉鐵生
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510646924.3

授權公告號:

|||

法律狀態公告日:

2016.02.17|||2016.01.20

法律狀態類型:

實質審查的生效|||公開

摘要

本發明提供了一種索引頁主體鏈接記錄方法和裝置,方法包括:按發布時間逆序,從索引頁上獲取一個或多個主體鏈接;判斷一個或多個主體鏈接與已記錄的歷史主體鏈接是否存在交集;在一個或多個主體鏈接與歷史主體鏈接不存在交集時,對一個或多個主體鏈接進行記錄,并通過迭代方式更新一個或多個主體鏈接,直至一個或多個主體鏈接與歷史主體鏈接存在交集。根據本發明采集記錄主體鏈接,不存在漏鏈的情況,也不會出現重復采集的情況。

權利要求書

1.一種索引頁主體鏈接記錄方法,其包括:
按發布時間逆序,從索引頁上獲取一個或多個主體鏈接;
判斷所述一個或多個主體鏈接與已記錄的歷史主體鏈接是否存在交集;
在所述一個或多個主體鏈接與所述歷史主體鏈接不存在交集時,對所述
一個或多個主體鏈接進行記錄,并通過迭代方式更新所述一個或多個主體鏈
接,直至所述一個或多個主體鏈接與所述歷史主體鏈接存在交集。
2.根據權利要求1所述的方法,其中,按發布時間逆序,從索引頁上獲
取一個或多個主體鏈接,具體包括:
當所述索引頁上的主體鏈接按發布時間逆序排列時,獲取所述索引頁中
包含的多個頁面中的首頁中的多個主體鏈接。
3.根據權利要求1所述的方法,其中,按發布時間逆序,從索引頁上獲
取一個或多個主體鏈接,具體包括:
當所述索引頁上的主體鏈接按發布時間順序排列時,獲取所述索引頁中
包含的多個頁面中的尾頁中的多個主體鏈接。
4.根據權利要求2或3所述的方法,其中,在按發布時間逆序,從索引
頁上獲取一個或多個主體鏈接之前,還包括:
獲取所述索引頁中當前頁面的多個主體鏈接的發布時間,根據所述索引
頁中當前頁面的多個主體鏈接的排序以及發布時間的早晚,確定所述索引頁
中的主體鏈接的排序是按發布時間逆序排列還是順序排列。
5.根據權利要求4所述的方法,其中,在獲取所述索引頁中當前頁面的
多個主體鏈接的發布時間之前,還包括:
采集所述索引頁的當前頁面上包含的多個節點的路徑;
根據所述多個節點的路徑,將所述多個節點劃分為多個相似塊;
計算所述多個相似塊的位置信息,并從所述多個相似塊中找出最大相似
塊,其中所述最大相似塊中的多個鏈接作為主體鏈接以供獲取。
6.根據權利要求5所述的方法,其中,計算所述多個相似塊的位置信息,
并從所述多個相似塊中找出最大相似塊,具體包括:
計算所述多個相似塊在所述索引頁中的寬度、高度、上邊距、左邊距,
計算所述多個相似塊的面積和中心點的位置,將面積最大、且自身包含所述
中心點的相似塊作為所述最大相似塊。
7.根據權利要求4所述的方法,其中,還包括:
根據所述多個相似塊中的節點的值,從所述多個相似塊中找出翻頁塊;
按發布時間逆序,從索引頁上獲取一個或多個主體鏈接,具體包括:
在從所述索引頁的當前頁面獲取所述一個或多個主體鏈接后,基于所述
翻頁塊中的節點對所述索引頁按發布時間的逆序進行翻頁,并從翻頁后的所
述索引頁上獲取并更新所述一個或多個主體鏈接。
8.根據權利要求7所述的方法,其中,基于所述翻頁塊中的節點對所述
索引頁按發布時間的逆序進行翻頁,具體包括:
從所述翻頁塊中找出用于翻頁的節點,并根據所述用于翻頁的節點對應
的鏈接進行翻頁。
9.根據權利要求7所述的方法,其中,基于所述翻頁塊中的節點對所述
索引頁按發布時間的逆序進行翻頁,具體包括:
從所述翻頁塊中找出所述索引頁中的當前頁面對應的第一節點,根據第
一節點對應的頁碼計算待翻頁頁面所對應的第二節點的頁碼,根據所述第二
節點的頁碼查找到所述第二節點,并根據所述第二節點的鏈接進行翻頁。
10.一種索引頁主體鏈接記錄裝置,其包括:
主體鏈接獲取模塊,用于按發布時間逆序,從索引頁上獲取一個或多個
主體鏈接;
交集判斷模塊,用于判斷所述一個或多個主體鏈接與已記錄的歷史主體
鏈接是否存在交集;
主體鏈接記錄模塊,用于在所述一個或多個主體鏈接與所述歷史主體鏈
接不存在交集時,對所述一個或多個主體鏈接進行記錄;所述主體鏈接獲取
模塊通過迭代方式更新所述一個或多個主體鏈接,直至所述一個或多個主體
鏈接與所述歷史主體鏈接存在交集。

說明書

索引頁主體鏈接記錄方法和裝置

技術領域

本發明涉及互聯網技術領域,具體而言,涉及一種索引頁主體鏈接記錄
方法和裝置。

背景技術

Spider(蜘蛛、爬蟲)位于搜索引擎數據流的最上游,負責將互聯網上的
資源采集到本地,提供給后續檢索使用,是搜索引擎的最主要數據來源之一。
spider系統的目標就是發現并抓取互聯網中一切有價值的網頁,為達到這個目
標,首先就是發現有價值網頁的鏈接,當前spider有多種調度機制來盡量快
而全的發現資源鏈接:

(1)對挖掘的種子網頁按一定的周期進行調度(調度即抓取種子網頁上
的鏈接等,例如1天調度20次),以便能覆蓋到所有的時效性的網頁。這種
方式的缺點在于:調度周期間隔較短時,一般不會存在漏鏈(即漏掉鏈接未
采集)的問題,但是可能會有流量的浪費;調度周期間隔較長時,可能會存
在漏鏈。

(2)考慮到有限的流量及大量的索引頁,對一般的索引頁(不在種子網
頁集合范圍內)按一定的周期(例如一周重抓一次)進行調度。由于調度周
期間隔較長,可能會存在漏鏈。

漏鏈的情況,會降低Spider的收集、記錄的覆蓋率。

發明內容

鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分
地解決上述問題的索引頁主體鏈接記錄方法和裝置。

依據本發明的一個方面,提供了一種索引頁主體鏈接記錄方法,其包括:
按發布時間逆序,從索引頁上獲取一個或多個主體鏈接;判斷所述一個或多
個主體鏈接與已記錄的歷史主體鏈接是否存在交集;在所述一個或多個主體
鏈接與所述歷史主體鏈接不存在交集時,對所述一個或多個主體鏈接進行記
錄,并通過迭代方式更新所述一個或多個主體鏈接,直至所述一個或多個主
體鏈接與所述歷史主體鏈接存在交集。

可選地,前述的方法,按發布時間逆序,從索引頁上獲取一個或多個主
體鏈接,具體包括:當所述索引頁上的主體鏈接按發布時間逆序排列時,獲
取所述索引頁中包含的多個頁面中的首頁中的多個主體鏈接。

可選地,前述的方法,按發布時間逆序,從索引頁上獲取一個或多個主
體鏈接,具體包括:當所述索引頁上的主體鏈接按發布時間順序排列時,獲
取所述索引頁中包含的多個頁面中的尾頁中的多個主體鏈接。

可選地,前述的方法,在按發布時間逆序,從索引頁上獲取一個或多個
主體鏈接之前,還包括:獲取所述索引頁中當前頁面的多個主體鏈接的發布
時間,根據所述索引頁中當前頁面的多個主體鏈接的排序以及發布時間的早
晚,確定所述索引頁中的主體鏈接的排序是按發布時間逆序排列還是順序排
列。

可選地,前述的方法,在獲取所述索引頁中當前頁面的多個主體鏈接的
發布時間之前,還包括:采集所述索引頁的當前頁面上包含的多個節點的路
徑;根據所述多個節點的路徑,將所述多個節點劃分為多個相似塊;計算所
述多個相似塊的位置信息,并從所述多個相似塊中找出最大相似塊,其中所
述最大相似塊中的多個鏈接作為主體鏈接以供獲取。

可選地,前述的方法,計算所述多個相似塊的位置信息,并從所述多個
相似塊中找出最大相似塊,具體包括:計算所述多個相似塊在所述索引頁中
的寬度、高度、上邊距、左邊距,計算所述多個相似塊的面積和中心點的位
置,將面積最大、且自身包含所述中心點的相似塊作為所述最大相似塊。

可選地,前述的方法,還包括:根據所述多個相似塊中的節點的值,從
所述多個相似塊中找出翻頁塊;按發布時間逆序,從索引頁上獲取一個或多
個主體鏈接,具體包括:在從所述索引頁的當前頁面獲取所述一個或多個主
體鏈接后,基于所述翻頁塊中的節點對所述索引頁按發布時間的逆序進行翻
頁,并從翻頁后的所述索引頁上獲取并更新所述一個或多個主體鏈接。

可選地,前述的方法,基于所述翻頁塊中的節點對所述索引頁按發布時
間的逆序進行翻頁,具體包括:從所述翻頁塊中找出用于翻頁的節點,并根
據所述用于翻頁的節點對應的鏈接進行翻頁。

可選地,前述的方法,基于所述翻頁塊中的節點對所述索引頁按發布時
間的逆序進行翻頁,具體包括:從所述翻頁塊中找出所述索引頁中的當前頁
面對應的第一節點,根據第一節點對應的頁碼計算待翻頁頁面所對應的第二
節點的頁碼,根據所述第二節點的頁碼查找到所述第二節點,并根據所述第
二節點的鏈接進行翻頁。

依據本發明的另一方面,還提供了一種索引頁主體鏈接記錄裝置,其包
括:主體鏈接獲取模塊,用于按發布時間逆序,從索引頁上獲取一個或多個
主體鏈接;交集判斷模塊,用于判斷所述一個或多個主體鏈接與已記錄的歷
史主體鏈接是否存在交集;主體鏈接記錄模塊,用于在所述一個或多個主體
鏈接與所述歷史主體鏈接不存在交集時,對所述一個或多個主體鏈接進行記
錄;所述主體鏈接獲取模塊通過迭代方式更新所述一個或多個主體鏈接,直
至所述一個或多個主體鏈接與所述歷史主體鏈接存在交集。

可選地,前述的裝置,所述主體鏈接獲取模塊當所述索引頁上的主體鏈
接按發布時間逆序排列時,獲取所述索引頁中包含的多個頁面中的首頁中的
多個主體鏈接。

可選地,前述的裝置,所述主體鏈接獲取模塊當所述索引頁上的主體鏈
接按發布時間順序排列時,獲取所述索引頁中包含的多個頁面中的尾頁中的
多個主體鏈接。

可選地,前述的裝置,還包括:排序判斷模塊,用于獲取所述索引頁中
當前頁面的多個主體鏈接的發布時間,根據所述索引頁中當前頁面的多個主
體鏈接的排序以及發布時間的早晚,確定所述索引頁中的主體鏈接的排序是
按發布時間逆序排列還是順序排列。

可選地,前述的裝置,還包括:節點路徑采集模塊,用于采集所述索引
頁的當前頁面上包含的多個節點的路徑;相似塊劃分模塊,用于根據所述多
個節點的路徑,將所述多個節點劃分為多個相似塊;最大相似塊確定模塊,
用于計算所述多個相似塊的位置信息,并從所述多個相似塊中找出最大相似
塊,其中所述最大相似塊中的多個鏈接作為主體鏈接以供獲取。

可選地,前述的裝置,所述最大相似塊確定模塊計算所述多個相似塊在
所述索引頁中的寬度、高度、上邊距、左邊距,計算所述多個相似塊的面積
和中心點的位置,將面積最大、且自身包含所述中心點的相似塊作為所述最
大相似塊。

可選地,前述的裝置,還包括:翻頁塊查找模塊,用于根據所述多個相
似塊中的節點的值,從所述多個相似塊中找出翻頁塊;翻頁模塊,用于在從
所述索引頁的當前頁面獲取所述一個或多個主體鏈接后,基于所述翻頁塊中
的節點對所述索引頁按發布時間的逆序進行翻頁,并從翻頁后的所述索引頁
上獲取并更新所述一個或多個主體鏈接。

可選地,前述的裝置,所述翻頁模塊從所述翻頁塊中找出用于翻頁的節
點,并根據所述用于翻頁的節點對應的鏈接進行翻頁。

可選地,前述的裝置,所述翻頁模塊從所述翻頁塊中找出所述索引頁中
的當前頁面對應的第一節點,根據第一節點對應的頁碼計算待翻頁頁面所對
應的第二節點的頁碼,根據所述第二節點的頁碼查找到所述第二節點,并根
據所述第二節點的鏈接進行翻頁。

根據以上的技術方案,本發明的索引頁主體鏈接記錄方法和裝置至少具
有以下優點:

與現有的技術方案不同,在本發明的技術方案中會從索引頁上按發布時
間逆序采集有限的主體鏈接與已經記錄的歷史主體鏈接進行比較,說明最新
發布的主體鏈接存在被采集記錄的情況,則在先發布的主體鏈接已經采集記
錄完成,不存在漏鏈的情況,不必繼續采集記錄;如沒有交集則說明,最新
發布的主體鏈接均未被采集記錄,屬于漏鏈的情況需要進行記錄,則在先發
布的主體鏈接可能也存在漏鏈的情況,需要繼續獲取主體鏈接并進行分析判
斷;根據本發明的技術方案來采集記錄主體鏈接,不存在漏鏈的情況,也不
會出現重復采集的情況。

上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技
術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它
目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。

附圖說明

通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本
領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,
而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示
相同的部件。在附圖中:

圖1示出了根據本發明的一個實施例的索引頁主體鏈接記錄方法的流程
圖;

圖2示出了一張索引頁的示意圖;

圖3示出了根據本發明的一個實施例的索引頁主體鏈接記錄方法的流程
圖;

圖4示出了根據本發明的一個實施例的索引頁主體鏈接記錄裝置的框圖;

圖5示出了根據本發明的一個實施例的索引頁主體鏈接記錄方法的框圖。

具體實施方式

下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示
了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不
應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地
理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。

如圖1所示,本發明的一個實施例中提供了一種索引頁主體鏈接記錄方
法,其包括:

步驟110,按發布時間逆序,從索引頁上獲取一個或多個主體鏈接。在本
實施例的技術方案中,索引頁是指網頁上的主體部分(主體部分通常是網頁
上居中的區域)是鏈接而非純粹的內容文字,而其中的鏈接則為主體鏈接,
具體如圖2所示,其中21即為主體鏈接。

步驟120,判斷一個或多個主體鏈接與已記錄的歷史主體鏈接是否存在交
集。

步驟130,在一個或多個主體鏈接與歷史主體鏈接不存在交集時,對一個
或多個主體鏈接進行記錄,并通過迭代方式更新一個或多個主體鏈接,直至
一個或多個主體鏈接與歷史主體鏈接存在交集。在本實施例的技術方案中,
在調度索引頁時會從索引頁上按發布時間逆序采集有限的主體鏈接與已經記
錄的歷史主體鏈接進行比較,說明最新發布的主體鏈接存在被采集記錄的情
況,則在先發布的主體鏈接已經采集記錄完成,不存在漏鏈的情況,不必繼
續采集記錄;如沒有交集則說明,最新發布的主體鏈接均未被采集記錄,屬
于漏鏈的情況需要進行記錄,則在先發布的主體鏈接可能也存在漏鏈的情況,
需要繼續獲取主體鏈接并進行分析判斷,不存在漏鏈的情況,也不會出現重
復采集的情況。

本發明的另一實施例中還提供了一種索引頁主體鏈接記錄方法,相比于
前述的實施例,本實施例的索引頁主體鏈接記錄方法,步驟110具體包括:

當索引頁上的主體鏈接按發布時間逆序排列時,獲取索引頁中包含的多
個頁面中的首頁中的多個主體鏈接。在本實施例的技術方案中,對于主體鏈
接按時間逆序排序的索引頁,每次調度索引頁時,比較首頁當前發現的主體
鏈接和上一次調度發現的主體鏈接,如果不存在交集,即上一次調度發現的
主體鏈接與當前發現的主體鏈接完全不相同,則說明這兩次調度之間有漏鏈,
需要調度向后翻頁第2頁來發現漏鏈,并且將當前發現的主體鏈接加入到該
索引頁系列歷史主體鏈接集合中;當調度翻頁第2頁時,同理,比較當前發
現的主體鏈接和該索引頁系列歷史主體鏈接集合,如果不存在交集,則說明
仍然有漏鏈,繼續發起翻頁第3頁調度;依此類推,直到當前發現的主體鏈
接和該索引頁系列歷史主體鏈接集合存在交集,則說明漏鏈已經找全了,不
需要再發起翻頁的調度,如圖2中所示,22為發布時間,則圖2中的主體鏈
接按照發布時間逆序排列。

本發明的另一實施例中還提供了一種索引頁主體鏈接記錄方法,相比于
前述的實施例,本實施例的索引頁主體鏈接記錄方法,步驟110具體包括:

當索引頁上的主體鏈接按發布時間順序排列時,獲取索引頁中包含的多
個頁面中的尾頁中的多個主體鏈接。在本實施例的技術方案中,對于主體鏈
接按時間順序排序的索引頁,每次調度索引頁時,比較尾頁當前發現的主體
鏈接和上一次調度發現的主體鏈接,如果不存在交集,即上一次調度發現的
主體鏈接與當前發現的主體鏈接完全不相同,則說明這兩次調度之間有漏鏈,
需要調度向前翻頁倒數第2頁來發現漏鏈,并且將當前發現的主體鏈接加入
到該索引頁系列歷史主體鏈接集合中;當調度翻頁倒數第2頁時,同理,比
較當前發現的主體鏈接和該索引頁系列歷史主體鏈接集合,如果不存在交集,
則說明仍然有漏鏈,繼續發起翻頁倒數第3頁調度;依此類推,直到當前發
現的主體鏈接和該索引頁系列歷史主體鏈接集合存在交集,則說明漏鏈已經
找全了,不需要再發起翻頁的調度。

如圖3所示,本發明的另一實施例中還提供了一種索引頁主體鏈接記錄
方法,相比于前述的實施例,本實施例的索引頁主體鏈接記錄方法,在步驟
110之前,還包括:

步驟105,獲取索引頁中當前頁面的多個主體鏈接的發布時間,根據索引
頁中當前頁面的多個主體鏈接的排序以及發布時間的早晚,確定索引頁中的
主體鏈接的排序是按發布時間逆序排列還是順序排列。在本實施例的技術方
案中,主體鏈接的旁邊都對應有發布時間,每個主體鏈接都有一個時間與之
對應,所以順序抽取時間序列,可以判斷時間序列是否具備順序或逆序的特
征。

如圖3所示,本發明的另一實施例中還提供了一種索引頁主體鏈接記錄
方法,相比于前述的實施例,本實施例的索引頁主體鏈接記錄方法,在步驟
105之前,還包括:

步驟101,采集索引頁的當前頁面上包含的多個節點的路徑。

步驟102,根據多個節點的路徑,將多個節點劃分為多個相似塊。在本實
施例的技術方案中,路徑(xpath)相同的節點(在節點數>4的情況下)組成
的集合這里稱為相似塊,如圖2所示,23、24都是相似塊。

步驟103,計算多個相似塊的位置信息,并從多個相似塊中找出最大相似
塊,其中最大相似塊中的多個鏈接作為主體鏈接以供獲取。在本實施例的技
術方案中,最大相似塊占據了頁面中的最大面積,所以該相似塊中通常是網
頁的主體部分,對應索引頁來說最大相似塊中的就是主體鏈接,如圖2所示,
23即為最大相似塊。

本發明的另一實施例中還提供了一種索引頁主體鏈接記錄方法,相比于
前述的實施例,本實施例的索引頁主體鏈接記錄方法,步驟103,具體包括:

計算多個相似塊在索引頁中的寬度、高度、上邊距、左邊距,計算多個
相似塊的面積和中心點的位置,將面積最大、且自身包含中心點的相似塊作
為最大相似塊。在本實施例中的技術方案中,同時計算相似塊的位置信息,
即在頁面中寬度、高度、上邊距、左邊距,這四項信息便能決定相似塊在網
頁中的位置,以及面積。我們把面積最大、且包含中心點的相似塊稱為最大
相似塊。

如圖3所示,本發明的另一實施例中還提供了一種索引頁主體鏈接記錄
方法,相比于前述的實施例,本實施例的索引頁主體鏈接記錄方法,還包括:

步驟104,根據多個相似塊中的節點的值,從多個相似塊中找出翻頁塊。
在本實施例的技術方案中,可以通過正則匹配鏈接的節點(一般為數字、“<”、
“>”、“<<”、“>>”、“上一頁”、“下一頁”、“第一頁”、“最后一
頁”等關鍵字)來判斷是否為翻頁塊,如圖2所示,24即為翻頁快。

步驟110,具體包括:在從索引頁的當前頁面獲取一個或多個主體鏈接后,
基于翻頁塊中的節點對索引頁按發布時間的逆序進行翻頁,并從翻頁后的索
引頁上獲取并更新一個或多個主體鏈接。在本實施例的技術方案中,識別出
翻頁塊之后,即可利用翻頁塊中的節點進行翻頁。

本發明的另一實施例中還提供了一種索引頁主體鏈接記錄方法,相比于
前述的實施例,本實施例的索引頁主體鏈接記錄方法,步驟110,具體包括:
從翻頁塊中找出用于翻頁的節點,并根據用于翻頁的節點對應的鏈接進行翻
頁。在本實施例中,對翻頁塊中的節點,首先通過正則匹配鏈接的節點,判
斷是否匹配關鍵字“下一頁”、“后一頁”、“>”,如果匹配,則將該節點
對應的鏈接記為下一頁鏈接的網址,翻頁到該網址即可,例如,翻頁塊中的
節點正則匹配“下一頁”關鍵字,則其下一頁鏈接即為節點“下一頁”對應
的鏈接,如圖2中所示的節點“下一頁”。

本發明的另一實施例中還提供了一種索引頁主體鏈接記錄方法,相比于
前述的實施例,本實施例的索引頁主體鏈接記錄方法,步驟110,具體包括:
從翻頁塊中找出索引頁中的當前頁面對應的第一節點,根據第一節點對應的
頁碼計算待翻頁頁面所對應的第二節點的頁碼,根據第二節點的頁碼查找到
第二節點,并根據第二節點的鏈接進行翻頁。在本實施例的技術方案中,通
過當前頁頁數計算下一頁頁數,然后拼接出下一頁鏈接的網址,翻頁到該網
址即可,例如,紅色矩陣標出翻頁塊,翻頁塊中的節點正則匹配關鍵字“下
一頁”、“后一頁”、“>”,未能匹配,因此計算下一頁頁數(當前頁為索
引頁,即翻頁第1頁,則下一頁頁數則為2),從翻頁塊中找出節點匹配數字
2的鏈接,如圖2中所示的節點“2”。

如圖4所示,本發明的另一實施例中還提供了一種索引頁主體鏈接記錄
裝置,其包括:

主體鏈接獲取模塊410,用于按發布時間逆序,從索引頁上獲取一個或多
個主體鏈接。在本實施例的技術方案中,索引頁是指網頁上的主體部分(主
體部分通常是網頁上居中的區域)是鏈接而非純粹的內容文字,而其中的鏈
接則為主體鏈接,具體如圖2所示,其中21即為主體鏈接。

交集判斷模塊420,用于判斷一個或多個主體鏈接與已記錄的歷史主體鏈
接是否存在交集。

主體鏈接記錄模塊430,用于在一個或多個主體鏈接與歷史主體鏈接不存
在交集時,對一個或多個主體鏈接進行記錄;主體鏈接獲取模塊通過迭代方
式更新一個或多個主體鏈接,直至一個或多個主體鏈接與歷史主體鏈接存在
交集。在本實施例的技術方案中,在調度索引頁時會從索引頁上按發布時間
逆序采集有限的主體鏈接與已經記錄的歷史主體鏈接進行比較,說明最新發
布的主體鏈接存在被采集記錄的情況,則在先發布的主體鏈接已經采集記錄
完成,不存在漏鏈的情況,不必繼續采集記錄;如沒有交集則說明,最新發
布的主體鏈接均未被采集記錄,屬于漏鏈的情況需要進行記錄,則在先發布
的主體鏈接可能也存在漏鏈的情況,需要繼續獲取主體鏈接并進行分析判斷,
不存在漏鏈的情況,也不會出現重復采集的情況。

本發明的另一實施例中還提供了一種索引頁主體鏈接記錄裝置,相比于
前述的實施例,本實施例的索引頁主體鏈接記錄裝置,主體鏈接獲取模塊410
當索引頁上的主體鏈接按發布時間逆序排列時,獲取索引頁中包含的多個頁
面中的首頁中的多個主體鏈接。在本實施例的技術方案中,對于主體鏈接按
時間逆序排序的索引頁,每次調度索引頁時,比較首頁當前發現的主體鏈接
和上一次調度發現的主體鏈接,如果不存在交集,即上一次調度發現的主體
鏈接與當前發現的主體鏈接完全不相同,則說明這兩次調度之間有漏鏈,需
要調度向后翻頁第2頁來發現漏鏈,并且將當前發現的主體鏈接加入到該索
引頁系列歷史主體鏈接集合中;當調度翻頁第2頁時,同理,比較當前發現
的主體鏈接和該索引頁系列歷史主體鏈接集合,如果不存在交集,則說明仍
然有漏鏈,繼續發起翻頁第3頁調度;依此類推,直到當前發現的主體鏈接
和該索引頁系列歷史主體鏈接集合存在交集,則說明漏鏈已經找全了,不需
要再發起翻頁的調度,如圖2中所示,22為發布時間,則圖2中的主體鏈接
按照發布時間逆序排列。

本發明的另一實施例中還提供了一種索引頁主體鏈接記錄裝置,相比于
前述的實施例,本實施例的索引頁主體鏈接記錄裝置,主體鏈接獲取模塊410
當索引頁上的主體鏈接按發布時間順序排列時,獲取索引頁中包含的多個頁
面中的尾頁中的多個主體鏈接。在本實施例的技術方案中,對于主體鏈接按
時間順序排序的索引頁,每次調度索引頁時,比較尾頁當前發現的主體鏈接
和上一次調度發現的主體鏈接,如果不存在交集,即上一次調度發現的主體
鏈接與當前發現的主體鏈接完全不相同,則說明這兩次調度之間有漏鏈,需
要調度向前翻頁倒數第2頁來發現漏鏈,并且將當前發現的主體鏈接加入到
該索引頁系列歷史主體鏈接集合中;當調度翻頁倒數第2頁時,同理,比較
當前發現的主體鏈接和該索引頁系列歷史主體鏈接集合,如果不存在交集,
則說明仍然有漏鏈,繼續發起翻頁倒數第3頁調度;依此類推,直到當前發
現的主體鏈接和該索引頁系列歷史主體鏈接集合存在交集,則說明漏鏈已經
找全了,不需要再發起翻頁的調度。

如圖5所示,本發明的另一實施例中還提供了一種索引頁主體鏈接記錄
裝置,相比于前述的實施例,本實施例的索引頁主體鏈接記錄裝置,還包括:

排序判斷模塊440,用于獲取索引頁中當前頁面的多個主體鏈接的發布時
間,根據索引頁中當前頁面的多個主體鏈接的排序以及發布時間的早晚,確
定索引頁中的主體鏈接的排序是按發布時間逆序排列還是順序排列。在本實
施例的技術方案中,主體鏈接的旁邊都對應有發布時間,每個主體鏈接都有
一個時間與之對應,所以順序抽取時間序列,可以判斷時間序列是否具備順
序或逆序的特征。

如圖5所示,本發明的另一實施例中還提供了一種索引頁主體鏈接記錄
裝置,相比于前述的實施例,本實施例的索引頁主體鏈接記錄裝置,還包括:

節點路徑采集模塊450,用于采集索引頁的當前頁面上包含的多個節點的
路徑。

相似塊劃分模塊460,用于根據多個節點的路徑,將多個節點劃分為多個
相似塊。在本實施例的技術方案中,路徑(xpath)相同的節點(在節點數>4
的情況下)組成的集合這里稱為相似塊,如圖2所示,23、24都是相似塊。

最大相似塊確定模塊470,用于計算多個相似塊的位置信息,并從多個相
似塊中找出最大相似塊,其中最大相似塊中的多個鏈接作為主體鏈接以供獲
取。在本實施例的技術方案中,最大相似塊占據了頁面中的最大面積,所以
該相似塊中通常是網頁的主體部分,對應索引頁來說最大相似塊中的就是主
體鏈接,如圖2所示,23即為最大相似塊。

本發明的另一實施例中還提供了一種索引頁主體鏈接記錄裝置,相比于
前述的實施例,本實施例的索引頁主體鏈接記錄裝置,最大相似塊確定模塊
470計算多個相似塊在索引頁中的寬度、高度、上邊距、左邊距,計算多個相
似塊的面積和中心點的位置,將面積最大、且自身包含中心點的相似塊作為
最大相似塊。在本實施例中的技術方案中,同時計算相似塊的位置信息,即
在頁面中寬度、高度、上邊距、左邊距,這四項信息便能決定相似塊在網頁
中的位置,以及面積。我們把面積最大、且包含中心點的相似塊稱為最大相
似塊。

如圖5所示,本發明的另一實施例中還提供了一種索引頁主體鏈接記錄
裝置,相比于前述的實施例,本實施例的索引頁主體鏈接記錄裝置,還包括:

翻頁塊查找模塊480,用于根據多個相似塊中的節點的值,從多個相似塊
中找出翻頁塊。在本實施例的技術方案中,可以通過正則匹配鏈接的節點(一
般為數字、“<”、“>”、“<<”、“>>”、“上一頁”、“下一頁”、“第
一頁”、“最后一頁”等關鍵字)來判斷是否為翻頁塊,如圖2所示,24即
為翻頁快。

翻頁模塊490,用于在從索引頁的當前頁面獲取一個或多個主體鏈接后,
基于翻頁塊中的節點對索引頁按發布時間的逆序進行翻頁,并從翻頁后的索
引頁上獲取并更新一個或多個主體鏈接。在本實施例的技術方案中,識別出
翻頁塊之后,即可利用翻頁塊中的節點進行翻頁。

本發明的另一實施例中還提供了一種索引頁主體鏈接記錄裝置,相比于
前述的實施例,本實施例的索引頁主體鏈接記錄裝置,翻頁模塊490從翻頁
塊中找出用于翻頁的節點,并根據用于翻頁的節點對應的鏈接進行翻頁。在
本實施例中,對翻頁塊中的節點,首先通過正則匹配鏈接的節點,判斷是否
匹配關鍵字“下一頁”、“后一頁”、“>”,如果匹配,則將該節點對應的
鏈接記為下一頁鏈接的網址,翻頁到該網址即可,例如,翻頁塊中的節點正
則匹配“下一頁”關鍵字,則其下一頁鏈接即為節點“下一頁”對應的鏈接,
如圖2中所示的節點“下一頁”。

本發明的另一實施例中還提供了一種索引頁主體鏈接記錄裝置,相比于
前述的實施例,本實施例的索引頁主體鏈接記錄裝置,翻頁模塊492從翻頁
塊中找出索引頁中的當前頁面對應的第一節點,根據第一節點對應的頁碼計
算待翻頁頁面所對應的第二節點的頁碼,根據第二節點的頁碼查找到第二節
點,并根據第二節點的鏈接進行翻頁。在本實施例的技術方案中,通過當前
頁頁數計算下一頁頁數,然后拼接出下一頁鏈接的網址,翻頁到該網址即可,
例如,紅色矩陣標出翻頁塊,翻頁塊中的節點正則匹配關鍵字“下一頁”、
“后一頁”、“>”,未能匹配,因此計算下一頁頁數(當前頁為索引頁,即
翻頁第1頁,則下一頁頁數則為2),從翻頁塊中找出節點匹配數字2的鏈接,
如圖2中所示的節點“2”。

在此提供的算法和顯示不與任何特定計算機、虛擬系統或者其它設備固
有相關。各種通用系統也可以與基于在此的示教一起使用。根據上面的描述,
構造這類系統所要求的結構是顯而易見的。此外,本發明也不針對任何特定
編程語言。應當明白,可以利用各種編程語言實現在此描述的本發明的內容,
并且上面對特定語言所做的描述是為了披露本發明的最佳實施方式。

在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,本發
明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,并未詳
細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。

類似地,應當理解,為了精簡本公開并幫助理解各個發明方面中的一個或
多個,在上面對本發明的示例性實施例的描述中,本發明的各個特征有時被
一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的
方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個權利要求中
所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的
那樣,發明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具
體實施方式的權利要求書由此明確地并入該具體實施方式,其中每個權利要
求本身都作為本發明的單獨實施例。

本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自
適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。可以
把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可
以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者
單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴
隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或
者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴
隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相
似目的的替代特征來代替。

此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它
實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合
意味著處于本發明的范圍之內并且形成不同的實施例。例如,在下面的權利
要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。

本發明的各個部件實施例可以以硬件實現,或者以在一個或者多個處理器
上運行的軟件模塊實現,或者以它們的組合實現。本領域的技術人員應當理
解,可以在實踐中使用微處理器或者數字信號處理器(DSP)來實現根據本發
明實施例的索引頁主體鏈接記錄裝置中的一些或者全部部件的一些或者全部
功能。本發明還可以實現為用于執行這里所描述的方法的一部分或者全部的
設備或者裝置程序(例如,計算機程序和計算機程序產品)。這樣的實現本
發明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號
的形式。這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,
或者以任何其他形式提供。

應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,并
且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施
例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求
的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元
件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明可以借
助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現。在列
舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬
件項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可
將這些單詞解釋為名稱。

關 鍵 詞:
索引 主體 鏈接 記錄 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:索引頁主體鏈接記錄方法和裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6345513.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图