• / 7
  • 下載費用:30 金幣  

一種輿情收集整理方法.pdf

摘要
申請專利號:

CN201610562010.3

申請日:

2016.07.15

公開號:

CN106257457A

公開日:

2016.12.28

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20160715|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 合肥指南針電子科技有限責任公司
發明人: 黨連坤; 石曄
地址: 230000 安徽省合肥市高新區望江西路800號合肥創新產業園C4棟7樓
優先權:
專利代理機構: 合肥市長遠專利代理事務所(普通合伙) 34119 代理人: 程篤慶;黃樂瑜
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201610562010.3

授權公告號:

|||

法律狀態公告日:

2017.02.01|||2016.12.28

法律狀態類型:

實質審查的生效|||公開

摘要

本發明公開了一種輿情收集整理方法,包括以下步驟:S1、設置高信網站數據庫預存網站地址;S2、輸入主題,并根據主題進行網絡信息檢索獲取主題相關信息;S3、統計主題相關信息的來源網站以及瀏覽量;S4、提取各主題相關信息的關鍵詞,并根據關鍵詞對主題相關信息進行聚類,獲得多個信息小類。本發明中,根據關鍵詞對主題相關信息進行聚類,獲得多個信息小類。如此,將零散的主題相關信息轉換成具有一定聚集度的信息小類,避免了以零散的主題相關信息作為信息處理對象的繁瑣性,減少了工作量,提高了信息處理效率。

權利要求書

1.一種輿情收集整理方法,其特征在于,包括以下步驟:
S1、設置高信網站數據庫預存網站地址;
S2、輸入主題,并根據主題進行網絡信息檢索獲取主題相關信息;
S3、統計主題相關信息的來源網站以及瀏覽量;
S4、提取各主題相關信息的關鍵詞,并根據關鍵詞對主題相關信息進行聚類,獲得多個
信息小類;
S5、對信息小類的關鍵詞進行語義分析,根據語義相似度對各信息小類進行聚類,獲得
多個信息大類,并提取各信息小類關鍵詞中語義相同的部分作為信息大類的名稱;
S6、預設第一閾值和第二閾值;
S7、根據瀏覽量對各信息大類、信息大類中包含的信息小類以及信息小類中包含的主
題相關信息進行排序;
S8、篩選排序位于第一閾值前的信息大類以及各信息大類中排序位于第二閾值前的信
息小類繪制成評估報告輸出;
S9、獲取存在于高信網站數據庫中的來源網站對應的主題相關信息作為校對目標,根
據校對目標所在信息小類及信息大類對評估報告進行補充。
2.如權利要求1所述的輿情收集整理方法,其特征在于,步驟S4具體為:提取各主題相
關信息的關鍵詞,并將關鍵詞相同的主題相關信息進行聚類,獲得多個信息小類。
3.如權利要求1所述的輿情收集整理方法,其特征在于,步驟S5中,預設有相似度閾值,
對信息小類的關鍵詞進行語義分析后,將語義相似度大于相似度閾值的信息小類進行聚
類,獲得多個信息大類。
4.如權利要求1至3任一項所述的輿情收集整理方法,其特征在于,評估報告包括信息
大類的名稱、各信息小類對應的關鍵詞以及信息小類中的瀏覽量最高的主題相關信息,并
包括各信息大類的瀏覽量總值、信息小類的瀏覽量總值、主題相關信息的瀏覽量以及來源
網址。
5.如權利要求4所述的輿情收集整理方法,其特征在于,步驟S9具體包括以下分步驟:
S91、判斷評估報告是否遺漏校對目標存在的信息小類;
S92、如果有,則將遺漏的校對目標存在的信息小類作為補充目標;
S93、判斷評估報告是否遺漏補充目標所在的信息大類;
S94、如果沒有,則將補充目標按格式補入到評估報告中對應的信息大類下;
S95、如果有,則將補充目標以及補充補充目標所在信息大類按格式補入到評估報告
中。
6.如權利要求5所述的輿情收集整理方法,其特征在于,步驟S9中,對補入的內容突出
顯示。

說明書

一種輿情收集整理方法

技術領域

本發明涉及輿情監控技術領域,尤其涉及一種輿情收集整理方法。

背景技術

輿情監控,整合互聯網信息采集技術及信息智能處理技術通過對互聯網海量信息
自動抓取、自動分類聚類、主題檢測、專題聚焦,實現用戶的網絡輿情監測和新聞專題追蹤
等信息需求,形成簡報、報告、圖表等分析結果,為客戶全面掌握群眾思想動態,做出正確輿
論引導,提供分析依據。

近年來,互聯網發展迅速,作為繼電視、廣播、報紙之外的第四媒體,已經成為反映
社會輿情的一個重要載體。另一方面,由于網絡的開放性和虛擬性,網上輿情已經越來越復
雜,對現實生活的影響與日俱增,一些重大的網絡輿情事件往往對社會產生較大的影響力。

對政府部門、公眾媒體和大型企業來說,如何加強對網絡輿情的及時監測,以及時
采取措施進行有效應對,成為網絡輿情管理的一大難點。

發明內容

基于背景技術存在的技術問題,本發明提出了一種輿情收集整理方法。

本發明提出的一種輿情收集整理方法,包括以下步驟:

S1、設置高信網站數據庫預存網站地址;

S2、輸入主題,并根據主題進行網絡信息檢索獲取主題相關信息;

S3、統計主題相關信息的來源網站以及瀏覽量;

S4、提取各主題相關信息的關鍵詞,并根據關鍵詞對主題相關信息進行聚類,獲得
多個信息小類;

S5、對信息小類的關鍵詞進行語義分析,根據語義相似度對各信息小類進行聚類,
獲得多個信息大類,并提取各信息小類關鍵詞中語義相同的部分作為信息大類的名稱;

S6、預設第一閾值和第二閾值;

S7、根據瀏覽量對各信息大類、信息大類中包含的信息小類以及信息小類中包含
的主題相關信息進行排序;

S8、篩選排序位于第一閾值前的信息大類以及各信息大類中排序位于第二閾值前
的信息小類繪制成評估報告輸出;

S9、獲取存在于高信網站數據庫中的來源網站對應的主題相關信息作為校對目
標,根據校對目標所在信息小類及信息大類對評估報告進行補充。

優選地,步驟S4具體為:提取各主題相關信息的關鍵詞,并將關鍵詞相同的主題相
關信息進行聚類,獲得多個信息小類。

優選地,步驟S5中,預設有相似度閾值,對信息小類的關鍵詞進行語義分析后,將
語義相似度大于相似度閾值的信息小類進行聚類,獲得多個信息大類。

優選地,評估報告包括信息大類的名稱、各信息小類對應的關鍵詞以及信息小類
中的瀏覽量最高的主題相關信息,并包括各信息大類的瀏覽量總值、信息小類的瀏覽量總
值、主題相關信息的瀏覽量以及來源網址。

優選地,步驟S9具體包括以下分步驟:

S91、判斷評估報告是否遺漏校對目標存在的信息小類;

S92、如果有,則將遺漏的校對目標存在的信息小類作為補充目標;

S93、判斷評估報告是否遺漏補充目標所在的信息大類;

S94、如果沒有,則將補充目標按格式補入到評估報告中對應的信息大類下;

S95、如果有,則將補充目標以及補充補充目標所在信息大類按格式補入到評估報
告中。

優選地,步驟S9中,對補入的內容突出顯示。

本發明提出的一種輿情收集整理方法,根據主題進行網絡信息檢索獲取主題相關
信息,以網絡大數據為信息檢索的來源,有利于保證輿情監控的全面性,且基于網絡數據的
快速更新,還有利于保證輿情掌控的實時性。

本發明中,根據關鍵詞對主題相關信息進行聚類,獲得多個信息小類。如此,將零
散的主題相關信息轉換成具有一定聚集度的信息小類,避免了以零散的主題相關信息作為
信息處理對象的繁瑣性,減少了工作量,提高了信息處理效率。

然后,根據語義相似度對各信息小類進行聚類,將信息小類歸納為信息大類,進一
步提高了信息處理對象的聚集度。且將語義相似度大于相似度閾值的信息小類歸類生成信
息大類,使得信息大類中囊括的信息小類表達的主題相關信息相似度高,對信息大類的處
理相當于對表達語義相似的主題相關信息進行集中處理,即保證了信息處理的精確性,又
保證了信息處理的效率。

本發明中,高信網站數據庫用于存儲發布信息真實度較高的且知名度較高的網站
地址,通過高信網站數據庫中的來源網站對評估報告進行復查和補充,使得評估報告更加
可信。

附圖說明

圖1為本發明提出的一種輿情收集整理方法流程圖。

具體實施方式

參照圖1,本發明提出的一種輿情收集整理方法,包括以下步驟。

S1、設置高信網站數據庫預存網站地址。本實施方式中,高信網站數據庫用于存儲
發布信息真實度較高的且知名度較高的網站地址。

S2、輸入主題,并根據主題進行網絡信息檢索獲取主題相關信息。

S3、統計主題相關信息的來源網站以及瀏覽量。本步驟中,對檢索結果進行統計,
有利于后續對檢索結果的調用和復查。

S4、提取各主題相關信息的關鍵詞,并根據關鍵詞對主題相關信息進行聚類,獲得
多個信息小類。具體地,本步驟中將關鍵詞相同的主題相關信息進行聚類,獲得多個信息小
類。

本步驟中,通過關鍵詞進行聚類,將零散的主題相關信息轉換成具有一定聚集度
的信息小類,避免了以零散的主題相關信息作為信息處理對象的繁瑣性,減少了工作量,提
高了信息處理效率。

S5、對信息小類的關鍵詞進行語義分析,根據語義相似度對各信息小類進行聚類,
獲得多個信息大類,并提取各信息小類關鍵詞中語義相同的部分作為信息大類的名稱。本
步驟中,可預設有相似度閾值,對信息小類的關鍵詞進行語義分析后,將語義相似度大于相
似度閾值的信息小類進行聚類,獲得多個信息大類。

如此,通過將信息小類歸納為信息大類,進一步提高了信息處理對象的聚集度。且
將語義相似度大于相似度閾值的信息小類歸類生成信息大類,使得信息大類中囊括的信息
小類表達的主題相關信息相似度高,對信息大類的處理相當于對表達語義相似的主題相關
信息進行集中處理,即保證了信息處理的精確性,又保證了信息處理的效率。本實施方式
中,相似度閾值可又工作人員根據實際情況設置。

以下結合一個具體地實施例對步驟S5作出解釋。例如,步驟S4中,根據獲得地信息
小類為A1、A2、A3、A4、A5、A6;根據A1、A2、A3、A4、A5、A6對應的關鍵詞提取的語義分別為AA1、
AA2、AA3、AA4、AA5、AA6;首先,選擇A1為核心信息小類,且AA1與AA2語義相似度大于相似度
閾值、AA1與AA3語義相似度大于相似度閾值,則將A1、A2、A3歸類到一個信息大類中。將A1、
A2、A3聚類后,從剩余的零散信息A4、A5、A6中選擇A4為核心信息小類,并分別計算AA4與AA5
的語義相似度和AA4與AA6的語義相似度,假設AA4與AA5的語義相似度和AA4與AA6的語義相
似度均小于相似度閾值,則A4自成一個信息大類。然后計算AA5和AA6語義相似度,如果AA5
和AA6語義相似度大于相似度閾值,則將A5、A6納入一個信息大類。至此,信息小類聚類完
成。

S6、預設第一閾值和第二閾值。

S7、根據瀏覽量對各信息大類、信息大類中包含的信息小類以及信息小類中包含
的主題相關信息進行排序。

S8、篩選排序位于第一閾值前的信息大類以及各信息大類中排序位于第二閾值前
的信息小類繪制成評估報告輸出。本實施方式中,評估報告包括信息大類的名稱、各信息小
類對應的關鍵詞以及信息小類中的瀏覽量最高的主題相關信息,并包括各信息大類的瀏覽
量總值、信息小類的瀏覽量總值、主題相關信息的瀏覽量以及來源網址。

本實施方式中,評估報告的輸出,使得工作人員可直觀獲知各種輿情傾向,從而將
模糊抽象的輿情監控工作具象化、實體化,使得輿情監控工作完滿完成。

S91、判斷評估報告是否遺漏校對目標存在的信息小類。

S92、如果有,則將遺漏的校對目標存在的信息小類作為補充目標。

S93、判斷評估報告是否遺漏補充目標所在的信息大類。

S94、如果沒有,則將補充目標按格式補入到評估報告中對應的信息大類下。

S95、如果有,則將補充目標以及補充補充目標所在信息大類按格式補入到評估報
告中。

步驟S91至S95,通過獲取存在于高信網站數據庫中的來源網站對應的主題相關信
息作為校對目標,根據校對目標所在信息小類及信息大類對評估報告進行補充。如此,相當
于通過高信網站數據庫中的來源網站對評估報告進行復查和補充,使得評估報告更加可
信。本實施方式中,在評估報告中對補入的內容突出顯示,以便工作人員查閱。

以上所述,僅為本發明較佳的具體實施方式,但本發明的保護范圍并不局限于此,
任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,根據本發明的技術方案及其
發明構思加以等同替換或改變,都應涵蓋在本發明的保護范圍之內。

關 鍵 詞:
一種 輿情 收集 整理 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種輿情收集整理方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100782.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图