• / 25
  • 下載費用:30 金幣  

信息處理方法和信息處理裝置.pdf

摘要
申請專利號:

CN201410126767.9

申請日:

2014.03.31

公開號:

CN104951478A

公開日:

2015.09.30

當前法律狀態:

撤回

有效性:

無權

法律詳情: 發明專利申請公布后的視為撤回IPC(主分類):G06F 17/30申請公布日:20150930|||實質審查的生效 IPC(主分類):G06F 17/30申請日:20140331|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 富士通株式會社
發明人: 張波; 孟遙; 孫俊
地址: 日本神奈川縣
優先權:
專利代理機構: 北京集佳知識產權代理有限公司11227 代理人: 朱勝; 穆云麗
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201410126767.9

授權公告號:

||||||

法律狀態公告日:

2018.09.21|||2015.11.04|||2015.09.30

法律狀態類型:

發明專利申請公布后的視為撤回|||實質審查的生效|||公開

摘要

本發明公開了信息處理方法和信息處理裝置,該信息處理方法包括:根據預設關鍵詞在多個媒體平臺中進行搜索以得到各個媒體平臺中與關鍵詞有關的媒體條目集合;針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整合為重復集合;從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺及其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題;以及利用從話題中提取的表示該話題在多個媒體平臺間的差異性的特定特征和通過對該話題預先進行標注得到的標注結果,構建用于確定該話題的狀態的分類模型。

權利要求書

權利要求書
1.  一種信息處理方法,包括:
搜索步驟,根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到所述多個媒體平臺中的各個媒體平臺中與所述關鍵詞有關的媒體條目集合;
內容整合步驟,針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將所述內容重復度滿足預定條件的媒體條目整合為重復集合;
話題確定步驟,從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及所述多個媒體平臺中除所述自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據所述相似媒體條目確定話題;以及
模型構建步驟,利用從所述話題中提取的表示所述話題在所述多個媒體平臺之間的差異性的特定特征和通過對所述話題預先進行標注而得到的標注結果,構建用于確定所述話題的狀態的分類模型。

2.  根據權利要求1所述的信息處理方法,還包括:
數據擴充步驟,從在所述內容整合步驟中得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在所述多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將所述其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集合中以得到擴充的重復集合,
其中,在所述話題確定步驟中,通過從所述擴充的重復集合中提取關鍵詞來確定所述話題。

3.  根據權利要求1所述的信息處理方法,其中,所述特定特征包括以下中的一個或多個:話題在不同媒體平臺中的持續時間、話題在不同媒體平臺之間出現的平均時間差和話題在不同媒體平臺中的平均討論熱度。

4.  根據權利要求3所述的信息處理方法,其中,在所述模型構建步驟中,還從所述話題提取表示該話題所涉及的媒體平臺的數量的特征以及該話題相關的內容特征來構建所述分類模型。

5.  一種信息處理方法,包括:
搜索步驟,根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到所 述多個媒體平臺中的各個媒體平臺中與所述關鍵詞有關的媒體條目集合;
內容整合步驟,針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將所述內容重復度滿足預定條件的媒體條目整合為重復集合;
話題確定步驟,從每個重復集合中提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及所述多個媒體平臺中除所述自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據所述相似媒體條目確定話題;以及
分類步驟,從所述話題中提取表示所述話題在所述多個媒體平臺之間的差異性的特定特征,并利用所提取的特定特征和根據權利要求1所述的分類模型對所述話題進行分類,以確定所述話題的狀態。

6.  根據權利要求5所述的信息處理方法,還包括:
數據擴充步驟,從在所述內容整合步驟中得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在所述多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將所述其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集合中以得到擴充的重復集合,
其中,在所述話題確定步驟中,通過從所述擴充的重復集合中提取關鍵詞來確定所述話題。

7.  一種信息處理裝置,包括:
搜索單元,被配置成根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到所述多個媒體平臺中的各個媒體平臺中與所述關鍵詞有關的媒體條目集合;
內容整合單元,被配置成針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將所述內容重復度滿足預定條件的媒體條目整合為重復集合;
話題確定單元,被配置成從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及所述多個媒體平臺中除所述自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據所述相似媒體條目確定話題;以及
模型構建單元,被配置成利用從所述話題中提取的表示所述話題在所述多個媒體平臺之間的差異性的特定特征和通過對所述話題預先進行標注而得到的標注結果,構建用于確定所述話題的狀態的分類模型。

8.  根據權利要求7所述的信息處理裝置,還包括:
數據擴充單元,被配置成從所述內容整合單元得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在所述多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將所述其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集合中以得到擴充的重復集合,
其中,所述話題確定單元通過從所述擴充的重復集合中提取關鍵詞來確定所述話題。

9.  一種信息處理裝置,包括:
搜索單元,被配置成根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到所述多個媒體平臺中的各個媒體平臺中與所述關鍵詞有關的媒體條目集合;
內容整合單元,被配置成針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將所述內容重復度滿足預定條件的媒體條目整合為重復集合;
話題確定單元,被配置成從每個重復集合中提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及所述多個媒體平臺中除所述自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據所述相似媒體條目確定話題;以及
分類單元,被配置成從所述話題中提取表示所述話題在所述多個媒體平臺之間的差異性的特定特征,并利用所提取的特定特征和根據權利要求1所述的分類模型對所述話題進行分類,以確定所述話題的狀態。

10.  根據權利要求9所述的信息處理裝置,還包括:
數據擴充單元,被配置成從所述內容整合單元得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在所述多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將所述其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集 合中以得到擴充的重復集合,
其中,所述話題確定單元通過從所述擴充的重復集合中提取關鍵詞來確定所述話題。

說明書

說明書信息處理方法和信息處理裝置
技術領域
本公開涉及信息處理技術領域,更具體地,涉及一種用于輿情監控的信息處理方法和信息處理裝置。
背景技術
當前開放的公眾輿論媒體平臺主要包括微博、論壇、新聞等,用戶可以在這些媒體平臺上發表評論。隨著社交媒體網絡的發展,用于對媒體平臺上的公眾輿論進行監控的輿情監控技術也得到了快速發展和應用。
現有的輿情監控預警技術主要是針對不同媒體平臺的數量、內容等特征進行監控而沒有考慮對跨越不同媒體平臺的相同或相似內容進行特征提取。然而,由于相同或相似的內容可能覆蓋不同的媒體平臺,例如,微博上的熱門話題在新聞上可能是冷門,甚至可能是過時的新聞重新人為炒作的結果,因此如果不考慮對跨越不同媒體平臺的相同或相似內容進行特征提取,則會影響預警質量。
發明內容
在下文中給出了關于本公開的簡要概述,以便提供關于本公開的某些方面的基本理解。但是,應當理解,這個概述并不是關于本公開的窮舉性概述。它并不是意圖用來確定本公開的關鍵性部分或重要部分,也不是意圖用來限定本公開的范圍。其目的僅僅是以簡化的形式給出關于本公開的某些概念,以此作為稍后給出的更詳細描述的前序。
鑒于以上問題,本公開的目的是提供一種信息處理方法和信息處理裝置,其通過跨越多個媒體平臺對特定話題進行擴展并且考慮該話題在不同媒體平臺之間的差異性,能夠提高輿情監控預警的準確度。
根據本公開的一方面,提供了一種信息處理方法,該方法包括:搜索步驟,根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到多個媒體平臺中的各個媒體平臺中與該關鍵詞有關的媒體條目集合;內容整合步驟, 針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整合為重復集合;話題確定步驟,從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及多個媒體平臺中除自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題;以及模型構建步驟,利用從話題中提取的表示該話題在多個媒體平臺之間的差異性的特定特征和通過對該話題預先進行標注而得到的標注結果,構建用于確定該話題的狀態的分類模型。
根據本公開的優選實施例,該信息處理方法還可包括:數據擴充步驟,從在內容整合步驟中得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集合中以得到擴充的重復集合,其中,在話題確定步驟中,通過從擴充的重復集合中提取關鍵詞來確定話題。
根據本公開的另一優選實施例,上述特定特征可包括以下中的一個或多個:話題在不同媒體平臺中的持續時間、話題在不同媒體平臺之間出現的平均時間差和話題在不同媒體平臺中的平均討論熱度。
根據本公開的又一優選實施例,在模型構建步驟中,還可從話題提取表示該話題所涉及的媒體平臺的數量的特征以及該話題相關的內容特征來構建分類模型。
根據本公開的另一方面,還提供了一種信息處理方法,其包括:搜索步驟,根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到多個媒體平臺中的各個媒體平臺中與該關鍵詞有關的媒體條目集合;內容整合步驟,針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整合為重復集合;話題確定步驟,從每個重復集合中提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及多個媒體平臺中除自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題;以及分類步驟,從話題中提取表示該話題在多個媒體平臺之間的差異性的特定特征,并利用所提取的特定特征和上述分類模型對話題進行分類,以確定話題的狀態。
根據本公開的另一方面,還提供了一種信息處理裝置,其包括:搜索 單元,被配置成根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到多個媒體平臺中的各個媒體平臺中與該關鍵詞有關的媒體條目集合;內容整合單元,被配置成針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整合為重復集合;話題確定單元,被配置成從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及多個媒體平臺中除自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題;以及模型構建單元,被配置成利用從話題中提取的表示該話題在多個媒體平臺之間的差異性的特定特征和通過對話題預先進行標注而得到的標注結果,構建用于確定話題的狀態的分類模型。
根據本公開的另一方面,還提供了一種信息處理裝置,其包括:搜索單元,被配置成根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到多個媒體平臺中的各個媒體平臺中與該關鍵詞有關的媒體條目集合;內容整合單元,被配置成針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整合為重復集合;話題確定單元,被配置成從每個重復集合中提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及多個媒體平臺中除自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題;以及分類單元,被配置成從話題中提取表示該話題在多個媒體平臺之間的差異性的特定特征,并利用所提取的特定特征和上述分類模型對話題進行分類,以確定話題的狀態。
根據本公開的另一方面,還提供了一種存儲介質,該存儲介質包括機器可讀的程序代碼,當在信息處理設備上執行程序代碼時,該程序代碼使得信息處理設備執行以下步驟:搜索步驟,根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到多個媒體平臺中的各個媒體平臺中與關鍵詞有關的媒體條目集合;內容整合步驟,針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整合為重復集合;話題確定步驟,從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及多個媒體平臺中除自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題;以及模型構建步驟,利用從話題中提取的表示該話題在多個媒體平 臺之間的差異性的特定特征和通過對該話題預先進行標注而得到的標注結果,構建用于確定該話題的狀態的分類模型。
根據本公開的另一方面,還提供了一種程序產品,該程序產品包括機器可執行的指令,當在信息處理設備上執行指令時,該指令使得信息處理設備執行以下步驟:搜索步驟,根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到多個媒體平臺中的各個媒體平臺中與關鍵詞有關的媒體條目集合;內容整合步驟,針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整合為重復集合;話題確定步驟,從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及多個媒體平臺中除自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題;以及模型構建步驟,利用從話題中提取的表示該話題在多個媒體平臺之間的差異性的特定特征和通過對該話題預先進行標注而得到的標注結果,構建用于確定該話題的狀態的分類模型。
根據本公開的另一方面,還提供了一種存儲介質,該存儲介質包括機器可讀的程序代碼,當在信息處理設備上執行程序代碼時,該程序代碼使得信息處理設備執行以下步驟:搜索步驟,根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到多個媒體平臺中的各個媒體平臺中與該關鍵詞有關的媒體條目集合;內容整合步驟,針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整合為重復集合;話題確定步驟,從每個重復集合中提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及多個媒體平臺中除自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題;以及分類步驟,從話題中提取表示該話題在多個媒體平臺之間的差異性的特定特征,并利用所提取的特定特征和上述分類模型對話題進行分類,以確定話題的狀態。
根據本公開的另一方面,還提供了一種程序產品,該程序產品包括機器可執行的指令,當在信息處理設備上執行指令時,該指令使得信息處理設備執行以下步驟:搜索步驟,根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到多個媒體平臺中的各個媒體平臺中與該關鍵詞有關的媒體條目集合;內容整合步驟,針對每個媒體條目集合,計算媒體條目之間的內 容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整合為重復集合;話題確定步驟,從每個重復集合中提取關鍵詞,并根據所提取的關鍵詞確定在自身媒體平臺以及多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題;以及分類步驟,從話題中提取表示該話題在多個媒體平臺之間的差異性的特定特征,并利用所提取的特定特征和上述分類模型對話題進行分類,以確定話題的狀態。
在下面的說明書部分中給出本公開實施例的其它方面,其中,詳細說明用于充分地公開本公開的優選實施例,而不對其施加限定。
附圖說明
本公開可以通過參考下文中結合附圖所給出的詳細描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中并形成說明書的一部分,用來進一步舉例說明本公開的優選實施例和解釋本公開的原理和優點。其中:
圖1是示出根據本公開的第一實施例的信息處理方法的過程示例的流程圖;
圖2是示出根據本公開的第一實施例的信息處理方法的另一過程示例的流程圖;
圖3是示出根據本公開的第二實施例的信息處理方法的過程示例的流程圖;
圖4是示出根據本公開的第二實施例的信息處理方法的另一過程示例的流程圖;
圖5是示出根據本公開的第三實施例的信息處理裝置的功能配置示例的框圖;
圖6是示出根據本公開的第三實施例的信息處理裝置的另一功能配置示例的框圖;
圖7是示出根據本公開的第四實施例的信息處理裝置的功能配置示例的框圖;
圖8是示出根據本公開的第四實施例的信息處理裝置的另一功能配置示例的框圖;以及
圖9是示出示出作為本公開的實施例中可采用的信息處理設備的個人計算機的示例結構的框圖。
具體實施方式
在下文中將結合附圖對本公開的示范性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現開發人員的具體目標,例如,符合與系統及業務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發工作有可能是非常復雜和費時的,但對得益于本公開內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。
在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本公開,在附圖中僅僅示出了與根據本公開的方案密切相關的設備結構和/或處理步驟,而省略了與本公開關系不大的其它細節。
以下將參照圖1至圖9描述本公開的實施例。首先,將參照圖1描述根據本公開的第一實施例的信息處理方法的過程示例。圖1是示出根據本公開的第一實施例的信息處理方法的過程示例的流程圖。
如圖1所示,信息處理方法100可包括搜索步驟S102、內容整合步驟S104、話題確定步驟S106和模型構建步驟S108。下面將分別詳細描述各個步驟中的處理。
首先,在搜索步驟S102中,可根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到多個媒體平臺中的各個媒體平臺中與該關鍵詞有關的媒體條目集合。
具體地,可根據預設的關鍵詞在例如微博、論壇和新聞等媒體平臺中進行搜索,從而得到分別在微博、論壇和新聞中的與該關鍵詞有關的三個媒體條目集合。
接下來,在內容整合步驟S104中,針對所確定的每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整 合為重復集合。
具體地,在內容整合步驟S104中計算內容重復度時,可利用例如杰卡德(Jaccard)算法,如果兩個媒體條目的重復的詞條占到詞條總數的例如80%以上,則確定這兩個媒體條目是重復的,并將其加入到其所在媒體平臺的重復集合中。以此方式,確定各個媒體平臺中的重復集合。
應指出,這里所提供的重復度算法僅為示例而非限制,并且本領域技術人員可以容易地想到其它公知的重復度計算方法來確定不同媒體條目的內容是否是重復的。
然后,在話題確定步驟S106中,從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及多個媒體平臺中除自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題。
具體地,對于所確定的每個重復集合,例如,在內容整合步驟S104中,確定微博平臺中包括三個重復集合A1、A2和A3,論壇平臺中包括兩個重復集合B1和B2,并且新聞平臺中包括一個重復集合C1,則可從集合A1至A3、集合B1至B2和集合C1中分別提取其關鍵詞(例如,名詞、動詞、形容詞等)以形成關鍵詞向量VA1、VA2、VA3、VB1、VB2和VC1,然后可使用例如余弦公式來計算各個關鍵詞向量之間的相似度。例如,如果算出向量VA1和VC1之間的相似度大于或等于預定閾值,即,對于集合A1,在集合C1中還存在與集合A1中的媒體條目相似的媒體條目,則確定集合A1和集合C1中的媒體條目屬于同一話題。
這里,還應指出,上述確定相似媒體條目從而確定話題的方法僅是示例而非限制,本領域技術人員可以想到其它公知的方法來確定不同媒體平臺中屬于同一話題的媒體條目。例如,可利用在上述集合A1中提取的關鍵詞在微博平臺、論壇平臺和新聞平臺中分別進行搜索,并確定搜索到的媒體條目與集合A1中的媒體條目之間的相似度,如果相似,則認為這些媒體條目屬于同一話題。
接下來,在模型構建步驟S108中,可利用從話題中提取的表示該話題在多個媒體平臺之間的差異性的特定特征和通過對話題預先進行標注而得到的標注結果,構建用于確定話題的狀態的分類模型。
具體地,可預先對以上得到的數據進行人工標注,從而判定所形成的話題的危險程度。例如,可通過三個人采用投票機制進行標注,如果三個 人的標注結果均不一致,則協商后重新進行標注,直到能夠通過投票確定一致的標注結果為止。優選地,話題的危險程度例如可分為四個等級:非常態、重要、危險和極度危險。
此外,優選地,對于一個話題,所提取的表示話題在不同媒體平臺間的差異性的特定特征可包括以下中的一個或多個:話題在不同媒體平臺中的持續時間、話題在不同媒體平臺之間出現的平均時間差和話題在不同媒體平臺中的平均討論熱度。
此外,優選地,還可進一步從話題提取表示該話題所涉及的媒體平臺的數量的特征以及該話題相關的內容特征(例如,是否出現名詞、動詞、形容詞等)來構建分類模型。
然后,可根據預先標注好的訓練數據和所提取的特征來構建用于確定話題的危險程度的分類模型。優選地,該分類模型可以是支持向量機(SVM)分類器或樸素貝葉斯(NB)分類器。
可以看出,根據本公開的實施例的分類模型(即,輿情監控預警模型)考慮了跨媒體平臺的特征,因而能夠更準確地進行輿情監控和預警。
接下來,將參照圖2描述根據本公開的第一實施例的信息處理方法的另一過程示例。圖2是示出根據本公開的第一實施例的信息處理方法的另一過程示例的流程圖。
如圖2所示,信息處理方法2000可包括搜索步驟S202、內容整合步驟S204、數據擴充步驟S206、話題確定步驟S208和模型構建步驟S210。這里,應指出,搜索步驟S202、內容整合步驟S204和模型構建步驟S210中的處理分別與以上參照圖1描述的相應步驟中的處理相同,因此在此不再給出其詳細描述。下面將僅詳細描述數據擴充步驟S206和話題確定步驟S208中的處理。
在數據擴充步驟S206中,可從在內容整合步驟S204中得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集合中以得到擴充的重復集合。
具體地,例如,對于在內容整合步驟S204中確定的微博平臺中的重復集合,從該重復集合中提取關鍵詞(例如,名詞、動詞或形容詞等),利用這些關鍵詞在論壇平臺和新聞平臺的搜索引擎中進行搜索,并將這兩 個平臺中搜索得到的排序靠前的例如10個媒體條目加入到該重復集合中,從而得到擴充的重復集合。
接下來,在話題確定步驟S208中,可通過從擴充的重復集合提取關鍵詞來確定話題。話題確定步驟中的具體處理與以上參照圖1描述的相同,在此不再贅述。
應理解,根據該實施例,通過對媒體條目數據進行擴充,從而將特定話題在多個媒體平臺中進行擴展,使得如此訓練得到的輿情監控預警模型更加準確。
接下來,將參照圖3至圖4描述利用根據本公開的第一實施例的分類模型進行輿情監控的應用示例。
圖3是示出根據本公開的第二實施例的信息處理方法的過程示例的流程圖。
如圖3所示,信息處理方法300可包括搜索步驟S302、內容整合步驟S304、話題確定步驟S306和分類步驟S308。應指出,搜索步驟S302、內容整合步驟S304和話題確定步驟S306中的處理與以上參照圖1描述的相應步驟中的處理相同,在此不再給出其詳細描述。下面將僅詳細描述分類步驟S308中的處理。
在分類步驟S308中,從在話題確定步驟S306中確定的話題中提取表示該話題在多個媒體平臺之間的差異性的特定特征,并利用所提取的特定特征和根據本公開的第一實施例的分類模型對話題進行分類,以確定該話題的狀態。
優選地,表示話題在多個媒體平臺之間的差異性的特定特征可包括以下中的一個或多個:話題在不同媒體平臺中的持續時間、話題在不同媒體平臺之間出現的平均時間差和話題在不同媒體平臺中的平均討論熱度。此外,優選地,還可進一步從話題提取表示該話題所涉及的媒體平臺的數量的特征以及該話題相關的內容特征(例如,是否出現名詞、動詞、形容詞等)。然后,利用所提取的特征和上述訓練得到的分類模型(例如,SVM分類器或NB分類器)確定話題的危險程度,即,非常態、重要、危險或極度危險。
接下來,將參照圖4描述根據本公開的第二實施例的信息處理方法的另一過程示例。
如圖4所示,信息處理方法400可包括搜索步驟S402、內容整合步 驟S404、數據擴充步驟S406、話題確定步驟S408和分類步驟S410。應指出,搜索步驟S402、內容整合步驟S404和分類步驟S410中的處理分別與以上參照圖3描述的相應步驟中的處理相同,并且數據擴充步驟S406和話題確定步驟S408中的處理分別與以上參照圖2描述的相應步驟中的處理相同,因此在此不再給出其詳細描述,具體可參見以上相應位置的描述。
應理解,根據本實施例,跨越多個媒體平臺對特定話題進行擴展,并且利用根據本公開的實施例的分類模型確定該話題的危險程度,從而能夠得到更準確的輿情監控預警效果。
應理解,盡管這里參照圖1至圖4描述了根據本公開的實施例的信息處理方法的過程示例,但是本公開不限于這樣的示例,本領域技術人員可以根據本公開的原理對上述過程進行修改,例如,增加或省略某些步驟,并且這樣的修改被認為落入本公開的范圍內。
接下來,將參照圖5描述根據本公開的第三實施例的信息處理裝置的功能配置示例。圖5是示出根據本公開的第三實施例的信息處理裝置的功能配置示例的框圖。
如圖5所示,信息處理裝置500可包括搜索單元502、內容整合單元504、話題確定單元506和模型構建單元508。下面將分別描述各個單元的功能配置示例。
搜索單元502可被配置成根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到多個媒體平臺中的各個媒體平臺中與該關鍵詞有關的媒體條目集合。
內容整合單元504可被配置成針對所確定的每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將內容重復度滿足預定條件的媒體條目整合為重復集合。
話題確定單元506可被配置成從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及多個媒體平臺中除自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據相似媒體條目確定話題。
模型構建單元508可被配置成利用從話題中提取的表示話題在多個媒體平臺之間的差異性的特定特征和通過對話題預先進行標注而得到的 標注結果,構建用于確定話題的狀態的分類模型。
優選地,所提取的表示話題在不同媒體平臺間的差異性的特定特征可包括以下中的一個或多個:話題在不同媒體平臺中的持續時間、話題在不同媒體平臺之間出現的平均時間差和話題在不同媒體平臺中的平均討論熱度。此外,還可進一步從話題提取表示該話題所涉及的媒體平臺的數量的特征以及該話題相關的內容特征(例如,是否出現名詞、動詞、形容詞等)來構建分類模型。
此外,優選地,話題的狀態可包括:非常態、重要、危險和極度危險。
此外,優選地,所構建的分類模型可以是SVM分類器或NB分類器。
圖6是示出根據本公開的第三實施例的信息處理裝置的另一功能配置示例的框圖。
如圖6所示,信息處理裝置600可包括搜索單元602、內容整合單元604、數據擴充單元606、話題確定單元608和模型構建單元610。應指出,搜索單元602、內容整合單元604和模型構建單元610的功能配置與以上參照圖5描述的相應單元的功能配置相同,在此不再給出其詳細描述。下面將僅詳細描述數據擴充單元606和話題確定單元608的功能配置示例。
數據擴充單元606可被配置成從內容整合單元604得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集合中以得到擴充的重復集合。
話題確定單元608可被配置成通過從擴充的重復集合提取關鍵詞來確定話題。
圖7是示出根據本公開的第四實施例的信息處理裝置的功能配置示例的框圖。
如圖7所示,信息處理裝置700可包括搜索單元702、內容整合單元704、話題確定單元706和分類單元708。應指出,搜索單元702、內容整合單元704和話題確定單元706的功能配置分別與以上參照圖5描述的相應單元的功能配置相同,在此不再給出其詳細描述。下面將僅詳細描述分類單元708的功能配置示例。
分類單元708可被配置成從話題確定單元706確定的話題中提取表示 該話題在多個媒體平臺之間的差異性的特定特征,并利用所提取的特定特征和根據本公開的第一實施例的分類模型對話題進行分類,以確定該話題的狀態。
圖8是示出根據本公開的第四實施例的信息處理裝置的另一功能配置示例的框圖。
如圖8所示,信息處理裝置800可包括搜索單元802、內容整合單元804、數據擴充單元806、話題確定單元808和分類單元810。應指出,搜索單元802、內容整合單元804和分類單元810的功能配置分別與以上參照圖7描述的相應單元的功能配置相同,并且數據擴充單元806和話題確定單元808的功能配置分別與以上參照圖6描述的相應單元的功能配置相同,在此不再給出其詳細描述,具體可參見以上相應位置的描述。
應指出,參照圖5至圖8所描述的裝置實施例分別對應于以上參照圖1至圖4描述的方法實施例,因此在裝置實施例中未詳細描述的內容可參見以上方法實施例中相應位置的描述,在此不再贅述。
此外,還應指出,盡管以上參照圖5至圖8描述了根據本公開的實施例的信息處理裝置的功能配置的示例,但是這僅是示例而非限制,并且本領域技術人員可以想到根據實際需要而對以上實施例中描述的功能模塊進行組合和/或省略和/或添加一個或多個功能模塊,這樣的變型示例應認為落入本公開的范圍內。
此外,根據本公開的實施例,還提供了一種存儲介質,該存儲介質包括機器可讀的程序代碼,當在信息處理設備上執行程序代碼時,該程序代碼使得信息處理設備執行上述信息處理方法。
此外,根據本公開的實施例,還提供了一種程序產品,該程序產品包括機器可執行的指令,當在信息處理設備上執行指令時,該指令使得信息處理設備執行上述信息處理方法。
應理解,在存儲介質和程序產品的實施例中未詳細描述的內容可參考先前方法實施例中的相應位置的描述,在此不再重復進行描述。
相應地,用于承載上述存儲有機器可執行的指令的程序產品的存儲介質也包括在本發明的公開中。所述存儲介質包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等等。
另外,還應該指出的是,上述系列處理和裝置也可以通過軟件和/或固件實現。在通過軟件和/或固件實現的情況下,從存儲介質或網絡向具 有專用硬件結構的計算機,例如圖9所示的通用個人計算機900安裝構成該軟件的程序,該計算機在安裝有各種程序時,能夠執行各種功能等等。
在圖9中,中央處理單元(CPU)901根據只讀存儲器(ROM)902中存儲的程序或從存儲部分908加載到隨機存取存儲器(RAM)903的程序執行各種處理。在RAM903中,也根據需要存儲當CPU901執行各種處理等等時所需的數據。
CPU901、ROM902和RAM903經由總線904彼此連接。輸入/輸出接口905也連接到總線904。
下述部件連接到輸入/輸出接口905:輸入部分906,包括鍵盤、鼠標等等;輸出部分907,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等等,和揚聲器等等;存儲部分908,包括硬盤等等;和通信部分909,包括網絡接口卡比如LAN卡、調制解調器等等。通信部分909經由網絡比如因特網執行通信處理。
根據需要,驅動器910也連接到輸入/輸出接口905。可拆卸介質911比如磁盤、光盤、磁光盤、半導體存儲器等等根據需要被安裝在驅動器910上,使得從中讀出的計算機程序根據需要被安裝到存儲部分908中。
在通過軟件實現上述系列處理的情況下,從網絡比如因特網或存儲介質比如可拆卸介質911安裝構成軟件的程序。
本領域的技術人員應當理解,這種存儲介質不局限于圖9所示的其中存儲有程序、與設備相分離地分發以向用戶提供程序的可拆卸介質911。可拆卸介質911的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(CD-ROM)和數字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器。或者,存儲介質可以是ROM902、存儲部分908中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起被分發給用戶。
還需要指出的是,執行上述系列處理的步驟可以自然地根據說明的順序按時間順序執行,但是并不需要一定根據時間順序執行。某些步驟可以并行或彼此獨立地執行。
雖然已經詳細說明了本公開及其優點,但是應當理解在不脫離由所附的權利要求所限定的本公開的精神和范圍的情況下可以進行各種改變、替代和變換。而且,本公開實施例的術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、 物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
根據本公開的實施例,還公開了以下附記:
附記1.一種信息處理方法,包括:
搜索步驟,根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到所述多個媒體平臺中的各個媒體平臺中與所述關鍵詞有關的媒體條目集合;
內容整合步驟,針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將所述內容重復度滿足預定條件的媒體條目整合為重復集合;
話題確定步驟,從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及所述多個媒體平臺中除所述自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據所述相似媒體條目確定話題;以及
模型構建步驟,利用從所述話題中提取的表示所述話題在所述多個媒體平臺之間的差異性的特定特征和通過對所述話題預先進行標注而得到的標注結果,構建用于確定所述話題的狀態的分類模型。
附記2.根據附記1所述的信息處理方法,還包括:
數據擴充步驟,從在所述內容整合步驟中得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在所述多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將所述其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集合中以得到擴充的重復集合,
其中,在所述話題確定步驟中,通過從所述擴充的重復集合中提取關鍵詞來確定所述話題。
附記3.根據附記1所述的信息處理方法,其中,所述特定特征包括以下中的一個或多個:話題在不同媒體平臺中的持續時間、話題在不同媒體平臺之間出現的平均時間差和話題在不同媒體平臺中的平均討論熱度。
附記4.根據附記1所述的信息處理方法,其中,在所述模型構建步驟中,還從所述話題提取表示該話題所涉及的媒體平臺的數量的特征以及 該話題相關的內容特征來構建所述分類模型。
附記5.根據附記1所述的信息處理方法,其中,所述狀態包括:非常態、重要、危險和極度危險。
附記6.根據附記1所述的信息處理方法,其中,所述分類模型包括支持向量機分類器或樸素貝葉斯分類器。
附記7.一種信息處理方法,包括:
搜索步驟,根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到所述多個媒體平臺中的各個媒體平臺中與所述關鍵詞有關的媒體條目集合;
內容整合步驟,針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將所述內容重復度滿足預定條件的媒體條目整合為重復集合;
話題確定步驟,從每個重復集合中提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及所述多個媒體平臺中除所述自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據所述相似媒體條目確定話題;以及
分類步驟,從所述話題中提取表示所述話題在所述多個媒體平臺之間的差異性的特定特征,并利用所提取的特定特征和根據附記1所述的分類模型對所述話題進行分類,以確定所述話題的狀態。
附記8.根據附記7所述的信息處理方法,還包括:
數據擴充步驟,從在所述內容整合步驟中得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在所述多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將所述其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集合中以得到擴充的重復集合,
其中,在所述話題確定步驟中,通過從所述擴充的重復集合中提取關鍵詞來確定所述話題。
附記9.一種信息處理裝置,包括:
搜索單元,被配置成根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到所述多個媒體平臺中的各個媒體平臺中與所述關鍵詞有關的媒體條目集合;
內容整合單元,被配置成針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將所述內容重復度滿足預定條件的媒體條目整合為重復集合;
話題確定單元,被配置成從每個重復集合提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及所述多個媒體平臺中除所述自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據所述相似媒體條目確定話題;以及
模型構建單元,被配置成利用從所述話題中提取的表示所述話題在所述多個媒體平臺之間的差異性的特定特征和通過對所述話題預先進行標注而得到的標注結果,構建用于確定所述話題的狀態的分類模型。
附記10.根據附記9所述的信息處理裝置,還包括:
數據擴充單元,被配置成從所述內容整合單元得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在所述多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將所述其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集合中以得到擴充的重復集合,
其中,所述話題確定單元通過從所述擴充的重復集合中提取關鍵詞來確定所述話題。
附記11.根據附記9所述的信息處理裝置,其中,所述特定特征包括以下中的一個或多個:話題在不同媒體平臺中的持續時間、話題在不同媒體平臺之間出現的平均時間差和話題在不同媒體平臺中的平均討論熱度。
附記12.根據附記9所述的信息處理裝置,其中,所述模型構建單元還從所述話題提取表示該話題所涉及的媒體平臺的數量的特征以及該話題相關的內容特征。
附記13.根據附記9所述的信息處理裝置,其中,所述狀態包括:非常態、重要、危險和極度危險。
附記14.根據附記9所述的信息處理裝置,其中,所述分類模型包括支持向量機分類器或樸素貝葉斯分類器。
附記15.一種信息處理裝置,包括:
搜索單元,被配置成根據預設的關鍵詞在多個媒體平臺中進行搜索,以得到所述多個媒體平臺中的各個媒體平臺中與所述關鍵詞有關的媒體條目集合;
內容整合單元,被配置成針對每個媒體條目集合,計算媒體條目之間的內容重復度,并根據算出的內容重復度對該媒體條目集合中的媒體條目進行整合,以將所述內容重復度滿足預定條件的媒體條目整合為重復集合;
話題確定單元,被配置成從每個重復集合中提取關鍵詞,并根據所提取的關鍵詞確定在該重復集合所屬的自身媒體平臺以及所述多個媒體平臺中除所述自身媒體平臺之外的其它媒體平臺中的相似媒體條目,從而根據所述相似媒體條目確定話題;以及
分類單元,被配置成從所述話題中提取表示所述話題在所述多個媒體平臺之間的差異性的特定特征,并利用所提取的特定特征和根據附記1所述的分類模型對所述話題進行分類,以確定所述話題的狀態。
附記16.根據附記15所述的信息處理裝置,還包括:
數據擴充單元,從所述內容整合單元得到的每個重復集合提取關鍵詞,并利用所提取的關鍵詞在所述多個媒體平臺中除該重復集合所屬的自身媒體平臺之外的其它媒體平臺的搜索引擎中進行搜索,并將所述其它媒體平臺中搜索結果排序靠前的預定數量的媒體條目加入該重復集合中以得到擴充的重復集合,
其中,所述話題確定單元通過從所述擴充的重復集合中提取關鍵詞來確定所述話題。

關 鍵 詞:
信息處理 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:信息處理方法和信息處理裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6381406.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图