• / 14
  • 下載費用:30 金幣  

一種熱門視頻挖掘方法和裝置.pdf

摘要
申請專利號:

CN201510378049.5

申請日:

2015.06.30

公開號:

CN105022801A

公開日:

2015.11.04

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150630|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 北京奇藝世紀科技有限公司
發明人: 胡軍
地址: 100080北京市海淀區北一街2號鴻城拓展大廈10、11層
優先權:
專利代理機構: 北京潤澤恒知識產權代理有限公司11319 代理人: 蘇培華
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510378049.5

授權公告號:

||||||

法律狀態公告日:

2018.06.22|||2015.12.02|||2015.11.04

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明實施例提供了一種熱門視頻挖掘方法和裝置,其中,熱門視頻挖掘方法包括以下步驟:將在預設時間內從多個傳感器上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器對應的消息隊列;多個傳感器根據待挖掘熱門視頻的類型選取,多個傳感器與多個消息隊列一一對應;根據當前視頻的文字信息和其他消息隊列的視頻的文字信息確定當前視頻的熱度指數;當當前視頻的熱度指數大于預設熱度閾值時,判斷當前視頻為熱門視頻。本發明實施例能夠實時預測和發現熱門視頻,彌補網站首頁人工運營的不足,提高網站對熱點視頻的運營能力,極大節約運營成本,且能提高視頻搜索結果的時效性,更好的滿足用戶需求。

權利要求書

權利要求書
1.  一種熱門視頻挖掘方法,其特征在于,包括以下步驟:
將在預設時間內從多個傳感器上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器對應的消息隊列;所述多個傳感器根據待挖掘熱門視頻的類型選取,所述多個傳感器與多個消息隊列一一對應;
根據所述當前視頻的文字信息和其他所述消息隊列的所述視頻的文字信息確定所述當前視頻的熱度指數;
當所述當前視頻的熱度指數大于預設熱度閾值時,判斷所述當前視頻為熱門視頻。

2.  根據權利要求1所述的熱門視頻挖掘方法,其特征在于,所述根據所述當前視頻的文字信息和其他所述消息隊列的所述視頻的文字信息確定所述當前視頻的熱度指數包括以下步驟:
分別計算所述當前視頻的文字信息與其他所述消息隊列中每個所述視頻的文字信息的相似度;
根據所述相似度和預設相似度閾值判斷所述當前視頻與其他所述消息隊列中對應的所述視頻是否相似,并當所述相似度大于所述預設相似度閾值時,判斷所述當前視頻與其他所述消息隊列中對應的所述視頻相似;
統計存在與所述當前視頻相似視頻的其他所述消息隊列個數;
將所述個數加一的結果作為所述當前視頻的熱度指數。

3.  根據權利要求2所述的熱門視頻挖掘方法,其特征在于,在所述分別計算所述當前視頻的文字信息與其他所述消息隊列中每個所述視頻的文字信息的相似度之前,還包括以下步驟:
分別對所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息進行分詞處理和實體識別處理,以獲得所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息對應的實體集合和關鍵詞集合。

4.  根據權利要求3所述的熱門視頻挖掘方法,其特征在于,所述分別計算所述當前視頻的文字信息與其他所述消息隊列中每個所述視頻的文字 信息的相似度,具體包括以下步驟:
根據所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息對應的所述實體集合和所述關鍵詞集合構成相應視頻的文字信息的文本分詞向量;
通過余弦公式分別計算所述當前視頻的文字信息的文本分詞向量與其他所述消息隊列中每個所述視頻的文字信息的文本分詞向量之間的相似度。

5.  根據權利要求1所述的熱門視頻挖掘方法,其特征在于,在所述判斷所述當前視頻為熱門視頻之后,還包括以下步驟:
將所述當前視頻的文字信息發送至預設網站編輯,和/或添加至預設視頻搜索索引。

6.  一種熱門視頻挖掘裝置,其特征在于,包括:
多個傳感器,所述多個傳感器根據待挖掘熱門視頻的類型選取;
監視器,所述監視器包括:
多個消息隊列,所述多個消息隊列與所述多個傳感器一一對應;
消息處理模塊,所述消息處理模塊將在預設時間內從多個傳感器上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器對應的消息隊列,并根據所述當前視頻的文字信息和其他所述消息隊列的所述視頻的文字信息確定所述當前視頻的熱度指數,以及當所述當前視頻的熱度指數大于預設熱度閾值時,判斷所述當前視頻為熱門視頻。

7.  根據權利要求6所述的熱門視頻挖掘裝置,其特征在于,所述消息處理模塊包括:
相似度計算單元,分別計算所述當前視頻的文字信息與其他所述消息隊列中每個所述視頻的文字信息的相似度;
判斷單元,根據所述相似度和預設相似度閾值判斷所述當前視頻與其他所述消息隊列中對應的所述視頻是否相似,并當所述相似度大于所述預設相似度閾值時,判斷所述當前視頻與其他所述消息隊列中對應的所述視頻相似;
統計單元,統計存在與所述當前視頻相似視頻的其他所述消息隊列個數;
熱度指數確定單元,將所述個數加一的結果作為所述當前視頻的熱度指數。

8.  根據權利要求7所述的熱門視頻挖掘裝置,其特征在于,所述消息處理模塊還包括:
處理單元,在所述相似度計算單元分別計算所述當前視頻的文字信息與其他所述消息隊列中每個所述視頻的文字信息的相似度之前,所述處理單元分別對所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息進行分詞處理和實體識別處理,以獲得所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息對應的實體集合和關鍵詞集合。

9.  根據權利要求8所述的熱門視頻挖掘裝置,其特征在于,所述相似度計算單元具體用于:
根據所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息對應的所述實體集合和所述關鍵詞集合構成相應視頻的文字信息的文本分詞向量;
通過余弦公式分別計算所述當前視頻的文字信息的文本分詞向量與其他所述消息隊列中每個所述視頻的文字信息的文本分詞向量之間的相似度。

10.  根據權利要求6所述的熱門視頻挖掘裝置,其特征在于,在判斷所述當前視頻為熱門視頻之后,所述消息處理模塊將所述當前視頻的文字信息發送至預設網站編輯,和/或添加至預設視頻搜索索引。

說明書

說明書一種熱門視頻挖掘方法和裝置
技術領域
本發明涉及軟件技術領域,特別是涉及一種熱門視頻挖掘方法和一種熱門視頻挖掘裝置。
背景技術
隨著視頻網站(包括資訊、娛樂、軍事、原創頻道等)的快速發展,用戶從大量無關的信息中發現感興趣的視頻越來越困難,這種情況下,用戶往往需要視頻網站從大量視頻中推薦一些相關熱門視頻到首頁。
現有技術中,常用的從大量視頻中推薦相關熱門視頻的做法是,由首頁編輯手工標記高質量的或者跟時事熱點密切相關的視頻,并推送到首頁。但是這種做法嚴重依賴人工運營,成本高、效率低,對于一些熱點視頻的發現相對滯后,時效性差,因此越來越難以滿足用戶對視頻網站熱門視頻推薦的需求。
因此,目前需要本領域技術人員迫切解決的一個技術問題就是:如何快速發現熱門事件以及相應的視頻,以便于視頻網站的首頁更及時地推薦相關熱門視頻,滿足用戶需求。
發明內容
本發明實施例所要解決的技術問題是提供一種熱門視頻挖掘方法,能夠實時預測和發現熱門視頻,彌補首頁人工運營(挖掘)的不足,具有更好的時效性。
相應的,本發明實施例還提供了一種熱門視頻挖掘裝置,用以保證上述方法的實現及應用。
為了解決上述問題,本發明公開了一種熱門視頻挖掘方法,包括以下步驟:將在預設時間內從多個傳感器上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器對應的消息隊列;所述多個傳感器根據待挖掘熱門視頻的類型選取,所述多個傳感器與多個消息隊列一一對 應;根據所述當前視頻的文字信息和其他所述消息隊列的所述視頻的文字信息確定所述當前視頻的熱度指數;當所述當前視頻的熱度指數大于預設熱度閾值時,判斷所述當前視頻為熱門視頻。
優選地,所述根據所述當前視頻的文字信息和其他所述消息隊列的所述視頻的文字信息確定所述當前視頻的熱度指數包括以下步驟:分別計算所述當前視頻的文字信息與其他所述消息隊列中每個所述視頻的文字信息的相似度;根據所述相似度和預設相似度閾值判斷所述當前視頻與其他所述消息隊列中對應的所述視頻是否相似,并當所述相似度大于所述預設相似度閾值時,判斷所述當前視頻與其他所述消息隊列中對應的所述視頻相似;統計存在與所述當前視頻相似視頻的其他所述消息隊列個數;將所述個數加一的結果作為所述當前視頻的熱度指數。
優選地,在所述分別計算所述當前視頻的文字信息與其他所述消息隊列中每個所述視頻的文字信息的相似度之前,還包括以下步驟:分別對所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息進行分詞處理和實體識別處理,以獲得所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息對應的實體集合和關鍵詞集合。
優選地,所述分別計算所述當前視頻的文字信息與其他所述消息隊列中每個所述視頻的文字信息的相似度,具體包括以下步驟:根據所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息對應的所述實體集合和所述關鍵詞集合構成相應視頻的文字信息的文本分詞向量;通過余弦公式分別計算所述當前視頻的文字信息的文本分詞向量與其他所述消息隊列中每個所述視頻的文字信息的文本分詞向量之間的相似度。
優選地,在所述判斷所述當前視頻為熱門視頻之后,還包括以下步驟:將所述當前視頻的文字信息發送至預設網站編輯,和/或添加至預設視頻搜索索引。
與現有技術相比,本發明實施例的熱門視頻挖掘方法包括以下優點:
將在預設時間內從多個傳感器上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器對應的消息隊列,進而根據當前 視頻的文字信息和其他消息隊列的視頻的文字信息確定當前視頻的熱度指數,以及當當前視頻的熱度指數大于預設熱度閾值時,判斷當前視頻為熱門視頻,從而能夠準確、實時的預測、發現熱門視頻,彌補了首頁人工挖掘的不足,提高了網站對熱點視頻的運營能力,極大節約了運營成本;
發送熱門視頻的文字信息至預設網站編輯,和/或添加至預設視頻搜索索引,提高了網站編輯、視頻搜索索引對熱門事件視頻的抓取實時性以及精準度,提高了熱門視頻搜索結果的時效性,從而更好的滿足了用戶需求。
為了解決上述問題,本發明還公開了一種熱門視頻挖掘裝置,包括:多個傳感器,所述多個傳感器根據待挖掘熱門視頻的類型選取;監視器,所述監視器包括:多個消息隊列,所述多個消息隊列與所述多個傳感器一一對應;消息處理模塊,所述消息處理模塊將在預設時間內從多個傳感器上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器對應的消息隊列,并根據所述當前視頻的文字信息和其他所述消息隊列的所述視頻的文字信息確定所述當前視頻的熱度指數,以及當所述當前視頻的熱度指數大于預設熱度閾值時,判斷所述當前視頻為熱門視頻。
優選地,所述消息處理模塊包括:相似度計算單元,分別計算所述當前視頻的文字信息與其他所述消息隊列中每個所述視頻的文字信息的相似度;判斷單元,根據所述相似度和預設相似度閾值判斷所述當前視頻與其他所述消息隊列中對應的所述視頻是否相似,并當所述相似度大于所述預設相似度閾值時,判斷所述當前視頻與其他所述消息隊列中對應的所述視頻相似;統計單元,統計存在與所述當前視頻相似視頻的其他所述消息隊列個數;熱度指數確定單元,將所述個數加一的結果作為所述當前視頻的熱度指數。
優選地,所述消息處理模塊還包括:處理單元,在所述相似度計算單元分別計算所述當前視頻的文字信息與其他所述消息隊列中每個所述視頻的文字信息的相似度之前,所述處理單元分別對所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息進行分詞處理和實體識別處理,以獲得所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息對應的實體集合和關鍵詞集合。
優選地,所述相似度計算單元具體用于:根據所述當前視頻的文字信息和其他所述消息隊列中每個所述視頻的文字信息對應的所述實體集合和所述關鍵詞集合構成相應視頻的文字信息的文本分詞向量;通過余弦公式分別計算所述當前視頻的文字信息的文本分詞向量與其他所述消息隊列中每個所述視頻的文字信息的文本分詞向量之間的相似度。
優選地,在判斷所述當前視頻為熱門視頻之后,所述消息處理模塊將所述當前視頻的文字信息發送至預設網站編輯,和/或添加至預設視頻搜索索引。
與現有技術相比,本發明實施例的熱門視頻挖掘裝置包括以下優點:
通過監視器將在預設時間內從多個傳感器上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器對應的消息隊列,進而根據當前視頻的文字信息和其他消息隊列的視頻的文字信息確定當前視頻的熱度指數,以及當當前視頻的熱度指數大于預設熱度閾值時,判斷當前視頻為熱門視頻,從而能夠準確、實時的預測、發現熱門視頻,彌補了首頁人工挖掘的不足,提高了網站對熱點視頻的運營能力,極大節約了運營成本;
通過消息處理模塊發送熱門視頻的文字信息至預設網站編輯,和/或添加至預設視頻搜索索引,提高了網站編輯、視頻搜索索引對熱門事件視頻的抓取實時性以及精準度,提高了熱門視頻搜索結果的時效性,從而更好的滿足了用戶需求。
附圖說明
圖1是本發明的一種熱門視頻挖掘方法實施例的步驟流程圖;
圖2是本發明的一種熱門視頻挖掘方法具體實施例中視頻1和視頻2的文字信息的權重表;
圖3是本發明的一種熱門視頻挖掘方法具體實施例的步驟流程圖;
圖4是本發明的一種熱門視頻挖掘裝置實施例的結構框圖;
圖5是本發明的一種熱門視頻挖掘裝置實施例的監視器的結構框圖。
具體實施方式
為使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發明作進一步詳細的說明。
在參照附圖對本發明實施例的一種熱門視頻挖掘方法和一種熱門視頻挖掘裝置進行說明之前,需要說明的是,熱門事件中視頻的文字信息等可以通過微博轉發、門戶網站發布等多種方式進行傳播,因此熱門事件視頻的文字信息、突發新聞視頻的文字信息等通常具有快速的、爆發式傳播的特點。因此,可以通過抓取“消息源”視頻的文字信息等來及時發現熱門視頻。
本發明實施例的核心構思之一在于,選取同一類型的多個傳感器作為“消息源”,由于熱門事件中視頻的文字信息具有快速傳播的特點,事件發生之后會依次傳播到各個傳感器。因此,某一事件視頻的文字信息如果同時出現在各個傳感器上,即可以斷定該事件為熱門事件。
參照圖1,示出了本發明的一種熱門視頻挖掘方法實施例的步驟流程圖,具體可以包括如下步驟:
S1,將在預設時間內從多個傳感器上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器對應的消息隊列,多個傳感器根據待挖掘熱門視頻的類型選取,多個傳感器與多個消息隊列一一對應。
其中,預設時間可以設置為2分鐘左右。 
進一步地,在本發明的另一個實施例中,當傳感器上至少一個視頻和當前視頻中部分視頻具有相應的鏈接或全部視頻具有相應的鏈接時,步驟S1可以為:
將在預設時間內從多個傳感器上抓取的至少一個視頻和當前視頻的文字信息和相應的鏈接,分別存儲至相應傳感器對應的消息隊列。
需要說明的是,本發明實施例中,多個消息隊列僅存儲預設時間內從多個傳感器上抓取的視頻的文字信息,或視頻的文字信息和相應的鏈接。
優選地,在本發明的一個實施例中,多個傳感器可以為門戶網站、微博大V用戶以及一些垂直領域的消息源等。需要說明的是,多個傳感器必須為同一類型(可以為娛樂、資訊、軍事、游戲等),才能確保抓取的至少一個視頻的文字信息和當前視頻的文字信息為同一類型。例如,當待挖掘熱門視 頻的類型為資訊新聞,多個傳感器可以選取新浪、網易、騰訊等門戶網站的資訊新聞頻道以及與資訊相關的微博大V用戶等。例如,當待挖掘熱門視頻的類型為娛樂新聞,多個傳感器可以選取新浪娛樂頻道、騰訊娛樂頻道、網易娛樂頻道、搜狐娛樂頻道、中國娛樂網等網站以及與娛樂相關的新浪微博大V用戶等。又例如,當待挖掘熱門視頻的類型為熱門游戲視頻,多個傳感器可以選取知名游戲解說的微博、主頁等。具體地,在本發明的一個實施例中,視頻的文字信息可以包括視頻的標題、視頻的簡介和視頻的時長等。
S2,根據當前視頻的文字信息和其他消息隊列的視頻的文字信息確定當前視頻的熱度指數。
其中,其他消息隊列為存儲當前視頻的消息隊列之外的消息隊列。
具體地,在本發明的一個實施例中,當前視頻的熱度指數可以為事件視頻出現在各個消息隊列的次數,可以設置一個消息隊列最多計一次,即當多個同一事件的視頻出現在同一個消息隊列中時,消息隊列計一次,因此,當前視頻的熱度指數最大為傳感器的個數。具體地,事件視頻指多個消息隊列中與當前視頻為同一事件的視頻。
優選地,在本發明的一個實施例中,根據當前視頻的文字信息和其他消息隊列的視頻的文字信息確定當前視頻的熱度指數即步驟S2可以包括以下步驟:
S21,分別計算當前視頻的文字信息與其他消息隊列中每個視頻的文字信息的相似度。
優選地,在本發明的一個實施例中,在分別計算當前視頻的文字信息與其他消息隊列中每個視頻的文字信息的相似度即步驟S21之前,還可以包括以下步驟:
S20,分別對當前視頻的文字信息和其他消息隊列中每個視頻的文字信息進行分詞處理和實體識別處理,以獲得當前視頻的文字信息和其他消息隊列中每個視頻的文字信息對應的實體集合和關鍵詞集合。
其中,在步驟S20中,可以直接采用學術界和工業界的一些開源工具對當前視頻的文字信息和其他消息隊列中每個視頻的文字信息進行分詞處理 和實體識別處理,從而得到當前視頻的文字信息和其他消息隊列中每個視頻的文字信息中的實體集合(包含人名、地名、機構名、專有名詞等)和關鍵詞集合。
進一步地,在本發明的一個實施例中,分別計算當前視頻的文字信息與其他消息隊列中每個視頻的文字信息的相似度即步驟S21,具體可以包括以下步驟:
根據當前視頻的文字信息和其他消息隊列中每個視頻的文字信息對應的實體集合和關鍵詞集合構成相應視頻的文字信息的文本分詞向量。
通過余弦公式分別計算當前視頻的文字信息的文本分詞向量與其他消息隊列中每個視頻的文字信息的文本分詞向量之間的相似度。
其中,計算兩個文本分詞向量之間的相似度的余弦公式為:
y=x→1·x→2||x→1||·||x→2||]]>
其中,為第一個文本分詞向量,為第二個文本分詞向量。
下面就根據實體集合和關鍵詞集合如何構成視頻的文字信息的文本分詞向量作進一步的說明。
例如,在本發明的一個實施例中,視頻1的文字信息為“李連杰起訴宋祖德侵權宋祖德表示很委屈”,視頻2的文字信息為“被李連杰告誹謗宋祖德喊冤”。分別對視頻1的文字信息和視頻2的文字信息進行分詞處理和實體識別處理后,視頻1的文字信息的分詞項為:{李連杰,宋祖德,起訴,侵權},視頻1的文字信息中實體集合為:{李連杰,宋祖德},視頻1的文字信息中關鍵詞集合為:{起訴,侵權},視頻2的文字信息的分詞項為:{李連杰,宋祖德,誹謗,喊冤},視頻2的文字信息中實體集合為:{李連杰,宋祖德},視頻2的文字信息中關鍵詞集合為:{誹謗,喊冤}。可以將實體權重設置為2,關鍵詞權重設置為1,于是獲得圖2,根據圖2可以得到視頻1的文字信息的文本分詞向量為(2,2,1,1,0,0),視頻2的文字信息的文本分詞向量為(2,2,0,0,1,1)。通過余弦公式計算視頻1的文字信息的文本分詞向量(2,2,1,1,0,0)和視頻2的文字信息的文本分詞向量(2,2,0,0,1,1)之間的相似度 為0.8。
S22,根據相似度和預設相似度閾值判斷當前視頻與其他消息隊列中對應的視頻是否相似,并當相似度大于預設相似度閾值時,判斷當前視頻與其他消息隊列中對應的視頻相似。
其中,預設相似度閾值根據實際應用情況進行確定。在步驟S22中,若當前視頻與其他消息隊列中對應的視頻相似,則當前視頻與其他消息隊列中對應的視頻為同一事件的視頻,該其他消息隊列存在與當前視頻相似視頻。
S23,統計存在與當前視頻相似視頻的其他消息隊列個數。
S24,將個數加一的結果作為當前視頻的熱度指數。
其中,將個數加一的結果指存在與當前視頻相似視頻的其他消息隊列加當前視頻所在的消息隊列的個數。
S3,當當前視頻的熱度指數大于預設熱度閾值時,判斷當前視頻為熱門視頻。
步驟S1-步驟S3能夠準確、實時的預測、發現熱門視頻。
優選地,在本發明的一個實施例中,在判斷當前視頻為熱門視頻即步驟S3之后,還可以包括以下步驟:
S4,將當前視頻的文字信息發送至預設網站編輯,和/或添加至預設視頻搜索索引。
其中,預設網站編輯可以為網站首頁編輯或待挖掘熱門視頻的類型的頻道首頁編輯等。當將當前視頻的文字信息發送至預設網站編輯后,網站編輯即可方便的將當前視頻的相關信息編輯至網站首頁和/或對應的頻道首頁。而當將當前視頻的文字信息發送至預設視頻搜索索引后,用戶即可通過搜索等方式獲取當前視頻的文字信息。
進一步地,在本發明的另一個實施例中,當步驟S1從傳感器上抓取當前視頻的的文字信息和相應的鏈接時,步驟S4可以為:
將當前視頻的文字信息和相應的鏈接通過預設方式發送至預設網站編輯,和/或添加至預設視頻搜索索引。
其中,預設方式可以為短信、郵件或微博等。
需要說明的是,挖掘熱門視頻,將挖掘到的熱門視頻的文字信息、或文字信息和相應的鏈接發送至預設網站編輯可以提高網站編輯、視頻搜索索引對熱門事件視頻的抓取實時性以及精準度,提高了熱門視頻搜索結果的時效性,更好的滿足了用戶需求。
具體地,在本發明的一個具體實施例中,參照圖3,當前視頻的熱度指數記為hot_index,判斷當前視頻是否為熱門視頻包括以下步驟:
S5,初始化當前視頻的熱度指數hot_index=1。
S6,對當前視頻的文字信息和其他消息隊列中每個視頻的文字信息進行分詞處理和實體識別處理。
S7,依次計算處理后的當前視頻的文字信息與其他消息隊列中每個視頻的文字信息的相似度,且根據相似度判斷當前視頻與其他消息隊列中對應的視頻是否相似,如果相似,當前視頻的熱度指數hot_index+=1。
S8,如果當前視頻的熱度指數hot_index大于預設熱度閾值,判定當前視頻為熱門視頻。
與現有技術相比,本發明實施例的熱門視頻挖掘方法包括以下優點:
將在預設時間內從多個傳感器上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器對應的消息隊列,進而根據當前視頻的文字信息和其他消息隊列的視頻的文字信息確定當前視頻的熱度指數,以及當當前視頻的熱度指數大于預設熱度閾值時,判斷當前視頻為熱門視頻,從而能夠準確、實時的預測、發現熱門視頻,彌補了首頁人工挖掘的不足,提高了網站對熱點視頻的運營能力,極大節約了運營成本;
發送熱門視頻的文字信息、或文字信息和相應的鏈接等至預設網站編輯,和/或添加至預設視頻搜索索引,提高了網站編輯、視頻搜索索引對熱門事件視頻的抓取實時性以及精準度,提高了熱門視頻搜索結果的時效性,從而更好的滿足了用戶需求。
需要說明的是,對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例并不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以采用其他順序或 者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優選實施例,所涉及的動作并不一定是本發明實施例所必須的。
參照圖4,示出了本發明一種熱門視頻挖掘裝置實施例的結構框圖,具體可以包括如下模塊:多個傳感器例如傳感器1、傳感器2、傳感器3......傳感器N以及監視器10,N為大于0的正整數。其中,多個傳感器1根據待挖掘熱門視頻的類型選取。參照圖5,監視器10可以包括多個消息隊列例如消息隊列1、消息隊列2、消息隊列3......消息隊列N和消息處理模塊11。多個消息隊列與多個傳感器1一一對應。消息處理模塊11將在預設時間內從多個傳感器1上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器1對應的消息隊列,并根據當前視頻的文字信息和其他消息隊列的視頻的文字信息確定當前視頻的熱度指數,以及當當前視頻的熱度指數大于預設熱度閾值時,判斷當前視頻為熱門視頻。
優選地,在本發明的一個實施例中,多個傳感器1可以為門戶網站、微博大V用戶等。
優選地,在本發明的一個實施例中,消息處理模塊11可以包括:相似度計算單元12、判斷單元13、統計單元14以及熱度指數確定單元15。其中,相似度計算單元12分別計算當前視頻的文字信息與其他消息隊列中每個視頻的文字信息的相似度。判斷單元13根據相似度和預設相似度閾值判斷當前視頻與其他消息隊列中對應的視頻是否相似,并當相似度大于預設相似度閾值時,判斷當前視頻與其他消息隊列中對應的視頻相似。統計單元14統計存在與當前視頻相似視頻的其他消息隊列個數。熱度指數確定單元15將個數加一的結果作為當前視頻的熱度指數。
優選地,在本發明的一個實施例中,消息處理模塊11還可以包括處理單元16,在相似度計算單元12分別計算當前視頻的文字信息與其他消息隊列中每個視頻的文字信息的相似度之前,處理單元16分別對當前視頻的文字信息和其他消息隊列中每個視頻的文字信息進行分詞處理和實體識別處理,以獲得當前視頻的文字信息和其他消息隊列中每個視頻的文字信息對應的實體集合和關鍵詞集合。
在本發明的一個實施例中,相似度計算單元12具體用于:根據當前視頻的文字信息和其他消息隊列中每個視頻的文字信息對應的實體集合和關鍵詞集合構成相應視頻的文字信息的文本分詞向量,以及通過余弦公式分別計算當前視頻的文字信息的文本分詞向量與其他消息隊列中每個視頻的文字信息的文本分詞向量之間的相似度。
優選地,在本發明的一個實施例中,在判斷當前視頻為熱門視頻之后,消息處理模塊11可以將當前視頻的文字信息發送至預設網站編輯,和/或添加至預設視頻搜索索引。
與現有技術相比,本發明實施例的熱門視頻挖掘裝置包括以下優點:
通過監視器將在預設時間內從多個傳感器上抓取的至少一個視頻的文字信息和當前視頻的文字信息,分別存儲至相應傳感器對應的消息隊列,進而根據當前視頻的文字信息和其他消息隊列的視頻的文字信息確定當前視頻的熱度指數,以及當當前視頻的熱度指數大于預設熱度閾值時,判斷當前視頻為熱門視頻,從而能夠準確、實時的預測、發現熱門視頻,彌補了首頁人工挖掘的不足,提高了網站對熱點視頻的運營能力,極大節約了運營成本;
通過消息處理模塊發送熱門視頻的文字信息、或文字信息和相應的鏈接等至預設網站編輯,和/或添加至預設視頻搜索索引,提高了網站編輯、視頻搜索索引對熱門事件視頻的抓取實時性以及精準度,提高了熱門視頻搜索結果的時效性,從而更好的滿足了用戶需求。
對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或計算機程序產品。因此,本發明實施例可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明實施例可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介 質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理終端設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理終端設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理終端設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理終端設備上,使得在計算機或其他可編程終端設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程終端設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本發明實施例的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優選實施例以及落入本發明實施例范圍的所有變更和修改。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且 還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的一種熱門視頻挖掘方法和一種熱門視頻挖掘裝置,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

關 鍵 詞:
一種 熱門 視頻 挖掘 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種熱門視頻挖掘方法和裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6353682.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图