• / 17
  • 下載費用:30 金幣  

一種信息確定方法和裝置.pdf

摘要
申請專利號:

CN201510346751.3

申請日:

2015.06.19

公開號:

CN106257449A

公開日:

2016.12.28

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20150619|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 阿里巴巴集團控股有限公司
發明人: 葉舟; 湯開智; 王瑜; 徐季秋; 付志嵩; 閔萬里
地址: 英屬開曼群島大開曼島資本大廈一座四層847號郵箱
優先權:
專利代理機構: 北京集佳知識產權代理有限公司 11227 代理人: 王寶筠
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510346751.3

授權公告號:

|||

法律狀態公告日:

2017.01.25|||2016.12.28

法律狀態類型:

實質審查的生效|||公開

摘要

本發明實施例公開了一種信息確定方法和裝置,對歷史新聞的內容進行數據結構化,確定出所述歷史新聞的熱度值相關的語義特征集合以及語義特征相對于所述熱度值所占的權重并保存在回歸模型中;包括:獲取網絡中發布的信息,對所述信息進行所述數據結構化,獲取所述信息的至少一個語義特征;將所述信息的至少一個語義特征輸入到所述回歸模型中,利用確定出的與所述信息的至少一個語義特征對應的權重,計算得到所述信息的熱度值;若所述信息的熱度值大于預設熱度值,確定所述信息為用于形成新聞素材的信息。由此可以通過數據結構化和回歸模型對網絡上的信息的識別自動得出信息的熱度值,由此確定信息是否具有作為新聞素材的條件,大大提高了確定效率。

權利要求書

1.一種信息確定方法,其特征在于,對歷史新聞的內容進行數據結構化,
獲得所述歷史新聞的至少一個語義特征;從所述歷史新聞的至少一個語義特
征中確定出所述歷史新聞的熱度值相關的語義特征集合;確定所述語義特征
集合中的語義特征相對于所述熱度值所占的權重并保存在回歸模型中;所述
方法包括:
獲取網絡中發布的信息,所述信息的發布時間具有新聞時效性;
對所述信息進行所述數據結構化,獲取所述信息的至少一個語義特征;
將所述信息的至少一個語義特征輸入到所述回歸模型中,利用確定出的
與所述信息的至少一個語義特征對應的權重,計算得到所述信息的熱度值;
若所述信息的熱度值大于預設熱度值,確定所述信息為用于形成新聞素
材的信息。
2.根據權利要求1所述的方法,其特征在于,若所述信息的熱度值大于
預設熱度,還包括:
確定出所述信息的主題,并保存所述信息、所述信息的主題和所述信息
的熱度值三者之間的第一對應關系。
3.根據權利要求2所述的方法,其特征在于,還包括:
根據所述歷史新聞確定出所述歷史新聞的主題和對應所述歷史新聞的主
題的至少一個新聞模板的第二對應關系。
4.根據權利要求3所述的方法,其特征在于,在所述確定所述信息為用
于形成新聞素材的信息后,還包括:
根據所述第一對應關系得到所述信息的主題;
確定出與所述信息的主題相同的所述歷史新聞的主題;
通過與所述信息的主題相同的所述歷史新聞的主題,根據所述第二對應
關系選擇相應的新聞模板;
使用所述相應的新聞模板將所述信息的內容生成新聞素材。
5.根據權利要求4所述的方法,其特征在于,若所述相應的新聞模板中
包括待確認統計數據時,還包括:
根據所述信息和所述相應的新聞模板中的關鍵字在預先建立的包含關鍵
字、數據集合和計算算法的映射關系的映射表中進行檢索,通過對應的數據
集合和計算算法計算得到所述待確認統計數據;
使用所述相應的新聞模板將所述信息的內容和計算得到所述待確認統計
數據生成新聞素材。
6.一種信息確定裝置,其特征在于,包括:
回歸模型建立單元,用于對歷史新聞的內容進行數據結構化,獲得所述
歷史新聞的至少一個語義特征;從所述歷史新聞的至少一個語義特征中確定
出所述歷史新聞的熱度值相關的語義特征集合;確定所述語義特征集合中的
語義特征相對于所述熱度值所占的權重并保存在回歸模型中;
獲取單元,用于獲取網絡中發布的信息,所述信息的發布時間具有新聞
時效性;
結構化單元,用于對所述信息進行所述數據結構化,獲取所述信息的至
少一個語義特征;
計算單元,用于將所述信息的至少一個語義特征輸入到所述回歸模型中,
利用確定出的與所述信息的至少一個語義特征對應的權重,計算得到所述信
息的熱度值;
第一確定單元,用于若所述信息的熱度值大于預設熱度值,確定所述信
息為用于形成新聞素材的信息。
7.根據權利要求6所述的裝置,其特征在于,還包括:
第二確定單元,用于若所述信息的熱度值大于預設熱度,確定出所述信
息的主題,并保存所述信息、所述信息的主題和所述信息的熱度值三者之間
的第一對應關系。
8.根據權利要求7所述的裝置,其特征在于,還包括:
第三確定單元,用于根據所述歷史新聞確定出所述歷史新聞的主題和對
應所述歷史新聞的主題的至少一個新聞模板的第二對應關系。
9.根據權利要求8所述的裝置,其特征在于,還包括:
查詢單元,用于在觸發所述第一確定單元后,根據所述第一對應關系得
到所述信息的主題;
比對單元,用于確定出與所述信息的主題相同的所述歷史新聞的主題;
選擇單元,用于通過與所述信息的主題相同的所述歷史新聞的主題,根
據所述第二對應關系選擇相應的新聞模板;
生成單元,用于使用所述相應的新聞模板將所述信息的內容生成新聞素
材。
10.根據權利要求9所述的裝置,其特征在于,還包括:
檢索單元,用于若所述選擇單元選擇的所述相應的新聞模板中包括待確
認統計數據時,根據所述信息和所述相應的新聞模板中的關鍵字在預先建立
的包含關鍵字、數據集合和計算算法的映射關系的映射表中進行檢索,通過
對應的數據集合和計算算法計算得到所述待確認統計數據;
所述生成單元還用于使用所述相應的新聞模板將所述信息的內容和計算
得到所述待確認統計數據生成新聞素材。

說明書

一種信息確定方法和裝置

技術領域

本發明涉及數據處理領域,特別是涉及一種信息確定方法和裝置。

背景技術

信息可以隨著網絡快速傳播,其中有些信息是可以用于形成新聞的素材。
新聞提供商可以以這些作為新聞素材的信息為基礎,通過加工形成新聞。

如何從網上傳播的海量信息中挑選出具有作為新聞素材條件的信息是一
難點。目前主要通過人工的方式,通過對用戶在網上最新發布的內容的大量
瀏覽以及個人經驗,從瀏覽的內容中找出可能具有作為新聞素材條件或者說
具有新聞價值的信息。這種查找方式消耗大量人力,成本高。且面對網絡上
每時每刻出現的海量信息以及新聞所需的時效性,使用人工查找的效率太低。
可見目前通過人工查找的方式無法有效的在網上發布的海量信息中確定出具
有作為新聞素材條件的信息。

發明內容

為了解決上述技術問題,本發明提供了一種信息確定方法和裝置,以使
得可以自動計算信息的熱度值,以熱度值衡量信息是否為用于形成新聞素材
的信息,提高了效率。

本發明實施例公開了如下技術方案:

一種信息確定方法,對歷史新聞的內容進行數據結構化,獲得所述歷史
新聞的至少一個語義特征;從所述歷史新聞的至少一個語義特征中確定出所
述歷史新聞的熱度值相關的語義特征集合;確定所述語義特征集合中的語義
特征相對于所述熱度值所占的權重并保存在回歸模型中;所述方法包括:

獲取網絡中發布的信息,所述信息的發布時間具有新聞時效性;

對所述信息進行所述數據結構化,獲取所述信息的至少一個語義特征;

將所述信息的至少一個語義特征輸入到所述回歸模型中,利用確定出的
與所述信息的至少一個語義特征對應的權重,計算得到所述信息的熱度值;

若所述信息的熱度值大于預設熱度值,確定所述信息為用于形成新聞素
材的信息。

可選的,若所述信息的熱度值大于預設熱度,還包括:

確定出所述信息的主題,并保存所述信息、所述信息的主題和所述信息
的熱度值三者之間的第一對應關系。

可選的,還包括:

根據所述歷史新聞確定出所述歷史新聞的主題和對應所述歷史新聞的主
題的至少一個新聞模板的第二對應關系。

可選的,在所述確定所述信息為用于形成新聞素材的信息后,還包括:

根據所述第一對應關系得到所述信息的主題;

確定出與所述信息的主題相同的所述歷史新聞的主題;

通過與所述信息的主題相同的所述歷史新聞的主題,根據所述第二對應
關系選擇相應的新聞模板;

使用所述相應的新聞模板將所述信息的內容生成新聞素材。

可選的,若所述相應的新聞模板中包括待確認統計數據時,還包括:

根據所述信息和所述相應的新聞模板中的關鍵字在預先建立的包含關鍵
字、數據集合和計算算法的映射關系的映射表中進行檢索,通過對應的數據
集合和計算算法計算得到所述待確認統計數據;

使用所述相應的新聞模板將所述信息的內容和計算得到所述待確認統計
數據生成新聞素材。

一種信息確定裝置,包括:

回歸模型建立單元,用于對歷史新聞的內容進行數據結構化,獲得所述
歷史新聞的至少一個語義特征;從所述歷史新聞的至少一個語義特征中確定
出所述歷史新聞的熱度值相關的語義特征集合;確定所述語義特征集合中的
語義特征相對于所述熱度值所占的權重并保存在回歸模型中;

獲取單元,用于獲取網絡中發布的信息,所述信息的發布時間具有新聞
時效性;

結構化單元,用于對所述信息進行所述數據結構化,獲取所述信息的至
少一個語義特征;

計算單元,用于將所述信息的至少一個語義特征輸入到所述回歸模型中,
利用確定出的與所述信息的至少一個語義特征對應的權重,計算得到所述信
息的熱度值;

第一確定單元,用于若所述信息的熱度值大于預設熱度值,確定所述信
息為用于形成新聞素材的信息。

可選的,還包括:

第二確定單元,用于若所述信息的熱度值大于預設熱度,確定出所述信
息的主題,并保存所述信息、所述信息的主題和所述信息的熱度值三者之間
的第一對應關系。

可選的,還包括:

第三確定單元,用于根據所述歷史新聞確定出所述歷史新聞的主題和對
應所述歷史新聞的主題的至少一個新聞模板的第二對應關系。

可選的,還包括:

查詢單元,用于在觸發所述第一確定單元后,根據所述第一對應關系得
到所述信息的主題;

比對單元,用于確定出與所述信息的主題相同的所述歷史新聞的主題;

選擇單元,用于通過與所述信息的主題相同的所述歷史新聞的主題,根
據所述第二對應關系選擇相應的新聞模板;

生成單元,用于使用所述相應的新聞模板將所述信息的內容生成新聞素
材。

可選的,還包括:

檢索單元,用于若所述選擇單元選擇的所述相應的新聞模板中包括待確
認統計數據時,根據所述信息和所述相應的新聞模板中的關鍵字在預先建立
的包含關鍵字、數據集合和計算算法的映射關系的映射表中進行檢索,通過
對應的數據集合和計算算法計算得到所述待確認統計數據;

所述生成單元還用于使用所述相應的新聞模板將所述信息的內容和計算
得到所述待確認統計數據生成新聞素材。

由上述技術方案可以看出,根據對歷史新聞的數據結構化得到至少一個
語義特征,根據歷史新聞已知的熱度值,計算出與熱度值相關的語義特征相
對于所述熱度值所占的權重并保存在回歸模型中,當獲取網絡中發布的具有
新聞時效性的信息時,可以通過數據結構化,將得到的所述信息的至少一個
語義特征輸入到所述回歸模型中,利用與所述信息的至少一個語義特征對應
的權重計算出所述信息的熱度值,若所述信息的熱度值能夠大于預設熱度值,
則將所述信息確定為用于形成新聞素材的信息。由此可以通過數據結構化和
回歸模型對網絡上的信息的識別自動得出信息的熱度值,由此確定信息是否
具有作為新聞素材的條件,大大提高了確定效率。

附圖說明

為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實
施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面
描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,
在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。

圖1為本發明實施例提供的一種信息確定方法的方法流程圖;

圖2為本發明實施例提供的一種建立回歸模型方法的方法流程圖;

圖3為本發明實施例提供的一種生成新聞素材方法的方法流程圖;

圖4為本發明實施例提供的一種統計數據確認方法的方法流程圖;

圖5為本發明實施例提供的一種信息確定裝置的裝置結構圖;

圖6為本發明實施例提供的一種信息確定裝置的裝置結構圖。

具體實施方式

為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發
明實施例中的附圖,對本發明實施例中的技術方案進行清楚地描述,顯然,
所描述的實施例是本發明一部分實施例,而不是全部的實施例。基于本發明
中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所
有其他實施例,都屬于本發明保護的范圍。

網絡中傳播的有些信息是可以用于形成新聞的素材。新聞提供商可以以
這些作為新聞素材的信息為基礎,通過加工形成新聞。以此提高新聞產出速
度和產出數量。目前主要通過人工的方式,通過對用戶在網上最新發布的內
容的大量瀏覽以及個人經驗,從瀏覽的內容中找出可能具有作為新聞素材條
件或者說具有新聞價值的信息。這種查找方式消耗大量人力,成本高。且面
對網絡上每時每刻出現的海量信息以及新聞所需的時效性,使用人工查找的
效率太低。可見目前通過人工查找的方式無法有效的在網上發布的海量信息
中確定出具有作為新聞素材條件的信息。

為此,本發明實施例提供了一種信息確定方法和裝置,根據對歷史新聞
的數據結構化得到至少一個語義特征,根據歷史新聞已知的熱度值,計算出
與熱度值相關的語義特征相對于所述熱度值所占的權重并保存在回歸模型
中,當獲取網絡中發布的具有新聞時效性的信息時,可以通過數據結構化,
將得到的所述信息的至少一個語義特征輸入到所述回歸模型中,利用與所述
信息的至少一個語義特征對應的權重計算出所述信息的熱度值,若所述信息
的熱度值能夠大于預設熱度值,則將所述信息確定為用于形成新聞素材的信
息。由此可以通過數據結構化和回歸模型對網絡上的信息的識別自動得出信
息的熱度值,由此確定信息是否具有作為新聞素材的條件,大大提高了確定
效率。

需要注意的是,在確定出信息后,雖然是可以用于形成新聞素材,但是
這些信息基本上都不具有新聞的表達形式,無法簡單的通過編輯形成新聞,
需要通過人工進一步加工才能形成新聞素材。然而若通過人工,以可以作為
新聞素材的信息為基礎撰寫出一篇新聞,需要一定的時間,效率不高,有些
情況下難以滿足信息時代快速的新聞更新速度。目前有不少與新聞數據挖掘
相關的方案,但主要還是應用于已完成的新聞。在一篇已完成新聞的基礎上,
通過自然語言處理方法對該新聞的文本進行降維,從而得到用于描述該新聞
內容的更精練的語言。這類方案實際上并不是形成新聞,而更像是對現有新
聞的一種總結和歸納。可見,現有技術中只能通過人工的方式以信息為基礎
形成新聞,暫時沒有一種有效的方式,可以以用于形成新聞素材的信息為基
礎自動形成新聞,以滿足快速的新聞更新速度。

本發明實施例中,利用歷史新聞生成新聞模板,并根據文檔主題生成模
型生成所述歷史新聞的主題,由此建立所述歷史新聞的主題和新聞模板之間
的第二對應關系。當所述信息的熱度值確定大于預設熱度值時,也通過文檔
主題生成模型得到所述信息的主題,選擇與所述信息的主題相同的所述歷史
新聞的主題所對應的新聞模板,使用所述相應的新聞模板將所述信息的內容
生成新聞素材,由此達到了依據歷史新聞的模板自動將所述信息生成為新聞
素材的效果,免除了人工方式生成新聞模板所消耗的時間,提高了將所述信
息生成為新聞素材的效率,有效滿足了快速的新聞更新速度。

在使用所述信息通過新聞模板生成新聞素材的過程中,若新聞模板中包
括待確認統計數據,可以根據所述信息和所述相應的新聞模板中的關鍵字在
預先建立的包含關鍵字、數據集合和計算算法的映射關系的映射表中進行檢
索,通過對應的數據集合和計算算法計算得到所述待確認統計數據。通過預
先建立的映射表,可以不需要手動調取數據計算,進一步提高了將信息的內
容生成新聞素材的效率。

實施例一

圖1為本發明實施例提供的一種信息確定方法的方法流程圖,所述方法
包括:

在說明如何從網絡中的信息中確定出具有作為新聞素材條件的信息之
前,先通過圖2對如何建立用于確認信息的回歸模型進行詳細描述。

圖2為本發明實施例提供的一種建立回歸模型方法的方法流程圖,所述
方法包括:

S201:對歷史新聞的內容進行數據結構化,獲得所述歷史新聞的至少一
個語義特征。

舉例說明,所述歷史新聞可以理解為在網絡中歷年發表的新聞稿。所述
數據結構化可以理解為通過信息提取技術,從所述歷史新聞中的文本內容中
提取出其中的語義特征或者語要素。語義特征可以是動態的,例如可以為“內
容是否新奇”、“主題是否熱門”和“內容是否合適”,可以通過0標識為否,
通過1標識為是。

S202:從所述歷史新聞的至少一個語義特征中確定出所述歷史新聞的熱
度值相關的語義特征集合。

舉例說明,S202相當于將S201中得出的所述歷史新聞的至少一個語義特
征與所述歷史新聞的熱度值進行關聯的操作,從所述歷史新聞的至少一個語
義特征中確定出與所述熱度值相關的語義特征。所述歷史新聞的熱度值可以
理解為用于標識所述歷史新聞的一種傳播程度或者影響范圍,可以使用所述
歷史新聞的直觀參數,例如閱讀次數、轉發次數等或更為精細的特征。本發
明不限定所述熱度值的具體表現形式。

S203:確定所述語義特征集合中的語義特征相對于所述熱度值所占的權
重并保存在回歸模型中。

舉例說明,由于所述歷史新聞的熱度值是已知的,與所述熱度值相關的
語義特征集合也由S202所確認,故通過訓練以及采集一定量的歷史新聞,可
以得到所述語義特征集合中各個語義特征相對于所述熱度值所占的權重。

通過歷史新聞建立的回歸模型,可以當輸入語義特征時,通過已經算出
的該語義特征的權重,計算輸入的該語義特征所能產生的熱度值,或者說對
熱度值所帶來的影響。

S101:獲取網絡中發布的信息,所述信息的發布時間具有新聞時效性。

舉例說明,所述信息可以理解為用戶在網絡上實時發布的,所述信息的
形式可以為目前常見的微博、朋友圈、博客等等,本發明對信息的形式不限
定。

所述信息的發布時間具有新聞時效性可以理解為所述信息為近期發布
的。例如一周或更短時間之內發布的,若發布時間過長例如一個信息為一個
月前發布的,那么該信息被關注的程度將非常有限,不值得消耗系統資源對
該信息進行處理。

S102:對所述信息進行所述數據結構化,獲取所述信息的至少一個語義
特征。

S103:將所述信息的至少一個語義特征輸入到所述回歸模型中,利用確
定出的與所述信息的至少一個語義特征對應的權重,計算得到所述信息的熱
度值。

舉例說明,根據圖2所對應實施例的描述,所述回歸模型中具有不同語
義特征以及語義特征所對應的權重,通過不斷練習,所述回歸模型中的參數
將越來越準確,越來越全面。當將所述信息的至少一個語義特征輸入到所述
回歸模型中,可以調用已知的權重,計算出所述信息的熱度值。所述信息的
熱度值可以理解為通過所述回歸模型預估出的通過所述信息得到的新聞可能
達到的或潛在的熱度值。

S104:若所述信息的熱度值大于預設熱度值,確定所述信息為用于形成
新聞素材的信息。

舉例說明,所述預設熱度值可以根據不同場景對熱度值的需求,設置為
不同的大小。可以通過統計歷史新聞的熱度值,將統計結果作為設置的依據。
使用所述預設熱度值作為衡量信息是否可以用于形成新聞素材的條件,若信
息的熱度值大于所述預設熱度值,該信息可以用于形成新聞素材,若信息的
熱度值小于所述預設熱度值,該信息不可以用于形成新聞素材。

可見,根據對歷史新聞的數據結構化得到至少一個語義特征,根據歷史
新聞已知的熱度值,計算出與熱度值相關的語義特征相對于所述熱度值所占
的權重并保存在回歸模型中,當獲取網絡中發布的具有新聞時效性的信息時,
可以通過數據結構化,將得到的所述信息的至少一個語義特征輸入到所述回
歸模型中,利用與所述信息的至少一個語義特征對應的權重計算出所述信息
的熱度值,若所述信息的熱度值能夠大于預設熱度值,則將所述信息確定為
用于形成新聞素材的信息。由此可以通過數據結構化和回歸模型對網絡上的
信息的識別自動得出信息的熱度值,由此確定信息是否具有作為新聞素材的
條件,大大提高了確定效率。

實施例二

需要注意的是,在確定出信息后,雖然是可以用于形成新聞素材,但是
這些信息基本上都不具有新聞的表達形式,無法簡單的通過編輯形成新聞,
需要通過人工進一步加工才能形成新聞素材。然而若通過人工,以可以作為
新聞素材的信息為基礎撰寫出一篇新聞,需要一定的時間,效率不高,有些
情況下難以滿足信息時代快速的新聞更新速度。目前有不少與新聞數據挖掘
相關的方案,但主要還是應用于已完成的新聞。在一篇已完成新聞的基礎上,
通過自然語言處理方法對該新聞的文本進行降維,從而得到用于描述該新聞
內容的更精練的語言。這類方案實際上并不是形成新聞,而更像是對現有新
聞的一種總結和歸納。可見,現有技術中只能通過人工的方式以信息為基礎
形成新聞,暫時沒有一種有效的方式,可以以用于形成新聞素材的信息為基
礎自動形成新聞,以滿足快速的新聞更新速度。

為此,本發明實施例提供了一種用于自動生成新聞素材的方法,接下來
分步驟進行說明。

為了能夠自動根據信息生成新聞素材,需要形成新聞模板。本發明實施
例中,提供了通過歷史新聞獲得新聞模板的方式。

也就是說,根據所述歷史新聞確定出所述歷史新聞的主題和對應所述歷
史新聞的主題的至少一個新聞模板的第二對應關系。

舉例說明,所述歷史新聞的主題可以通過文檔主題生成模型得到,例如
較為成熟的三層貝葉斯概率模型(Latent Dirichlet Allocation,LDA)。例如歷
史新聞的內容為:“2014年夏天,數據分析師在對阿里巴巴內衣銷售數據分析
后發現,購買大號內衣的女性往往更敗家”,通過文檔主題生成模型得到的主
題可以為“女人”。

新聞模板可以通過統計學技術從所述歷史新聞中歸納出。不同的主題可
以歸納出不同的新聞模板,例如“熱賣”主題經常會出現“某某商品最近突
然大賣,近一周平均銷量為多少,較去年同期上漲多少”這種句式,我們可
以利用信息提取技術和語料庫將這種句式提取出來。常見的第二對應關系可
以為:

所述歷史新聞的主題為:熱賣

對應所述歷史新聞的主題的新聞模板為:商品最近突然大賣,近一周平
均銷量為XXX,較去年同期銷量上漲YYY。

其中的XXX和YYY部分待確定統計數據。

對應所述歷史新聞的主題的所述新聞模板可以不止一個,一般為了語言
更加豐富,對于一個歷史新聞的主題,會有多個對應的新聞模板以供選擇。

對于熱度值大于預設熱度的所述信息,為了能夠快速的找到可以匹配的
新聞模板,也需要通過文檔主題生成模型得到所述信息的主題,并建立所述
信息、所述信息的主題和所述信息的熱度值三者之間的第一對應關系,其中
所述信息的熱度值由S103獲得。

在通過所述信息得到新聞素材的過程中,可以通過所述第一對應關系中
所述信息的主題和所述第二對應關系中所述歷史新聞的主題作為匹配要素,
匹配出適合所述信息的新聞模板。

可選的,在圖1所對應實施例的基礎上,在所述確定所述信息為用于形
成新聞素材的信息后,圖3為本發明實施例提供的一種生成新聞素材方法的
方法流程圖,包括:

S301:根據所述第一對應關系得到所述信息的主題。

S302:確定出與所述信息的主題相同的所述歷史新聞的主題。

S303:通過與所述信息的主題相同的所述歷史新聞的主題,根據所述第
二對應關系選擇相應的新聞模板。

舉例說明,根據S301中得到的所述信息的主題,在S302和S303中通過
所述第二對應關系進行查找,以查找到與所述信息的主題相同的所述歷史新
聞的主題,以及該歷史新聞的主題所對應的新聞模板。當對應的新聞模板為
多個時,可以從中選擇一個。

S304:使用所述相應的新聞模板將所述信息的內容生成新聞素材。

舉例說明,在選擇出相應的新聞模板后,可以將所述信息中的內容相應
的填寫到所述新聞模板中,例如已經通過歷史新聞得到了所述回歸模型,獲
取網絡中發布的一條微博,其發布時間是符合新聞時效性的。微博內容是:“刺
繡露背連衣裙,雪紡料,輕薄又淑女,很適合現在的天氣哦”。通過數據結構
化,并將得到的語義特征輸入所述回歸模型后,得到該條微博的預估熱度值
為90。假設預設熱度值為60,那么可以確定該條微博為用于形成新聞素材的
微博。可以通過文檔主題生成模型生成該條微博的主題,得到主題“熱賣”。
以此建立了該條微博、該條微博的熱度值和該條微博的主題之間的第一對應
關系。通過查找,得到主題也為“熱賣”的歷史新聞主題,并根據第二對應
關系得到對應的新聞模板:“商品最近突然大賣,近一周平均銷量為XXX,
較去年同期銷量上漲YYY”,其中XXX和YYY為待確認統計數據。根據關
鍵字例如“連衣裙”、“一周平均銷量”(均值)、“較去年同期銷量”(同比)
等查找映射表,得到XXX為1億件,YYY為40%。根據確定的新聞模板、
該條微博的內容以及得到的待確定統計數據生成新聞素材,所述新聞素材具
體為:“連衣裙最近突然大賣,近一周平均銷量為1億件,較去年同期銷量上
漲40%。”

需要注意的是,S304所選擇的新聞模板中可能具有待確定統計數據,例
如一些同比數值、均值等,如果手動調取數據計算的話,效率低,耗時長。
為此在本發明實施例中,在使用所述信息通過新聞模板生成新聞素材的過程
中,若新聞模板中包括待確認統計數據,可以根據所述信息和所述相應的新
聞模板中的關鍵字在預先建立的包含關鍵字、數據集合和計算算法的映射關
系的映射表中進行檢索,通過對應的數據集合和計算算法計算得到所述待確
認統計數據。在圖3所對應實施例的基礎上,圖4為本發明實施例提供的一
種統計數據確認方法的方法流程圖。若所述相應的新聞模板中包括待確認統
計數據時,所述方法包括:

S401:根據所述信息和所述相應的新聞模板中的關鍵字在預先建立的包
含關鍵字、數據集合和計算算法的映射關系的映射表中進行檢索,通過對應
的數據集合和計算算法計算得到所述待確認統計數據。

舉例說明,所述映射表中的計算算法和數據集合可以理解為提數邏輯,
所述關鍵字不僅可以包括所述信息和/或新聞模板內容中的關鍵字,還可以包
括所述信息和/或新聞模板的主題。所述提數邏輯可以為結構化查詢語言
(Structured Query Language,SQL)或者應用程序編程接口(Application
Programming Interface,API)的形式。所調用數據集合可以是電商提供的電
商數據。

S402:使用所述相應的新聞模板將所述信息的內容和計算得到所述待確
認統計數據生成新聞素材。

可見,通過預先建立的映射表,不需要手動調取數據計算,可以自動算
出所述待確認統計數據,進一步提高了將信息的內容生成新聞素材的效率。

由上述實施例可以看出,利用歷史新聞生成新聞模板,并根據文檔主題
生成模型生成所述歷史新聞的主題,由此建立所述歷史新聞的主題和新聞模
板之間的第二對應關系。當所述信息的熱度值確定大于預設熱度值時,也通
過文檔主題生成模型得到所述信息的主題,選擇與所述信息的主題相同的所
述歷史新聞的主題所對應的新聞模板,使用所述相應的新聞模板將所述信息
的內容生成新聞素材,由此達到了依據歷史新聞的模板自動將所述信息生成
為新聞素材的效果,免除了人工方式生成新聞模板所消耗的時間,提高了將
所述信息生成為新聞素材的效率,有效滿足了快速的新聞更新速度。

實施例三

圖5為本發明實施例提供的一種信息確定裝置的裝置結構圖,包括:

回歸模型建立單元500,用于對歷史新聞的內容進行數據結構化,獲得所
述歷史新聞的至少一個語義特征;從所述歷史新聞的至少一個語義特征中確
定出所述歷史新聞的熱度值相關的語義特征集合;確定所述語義特征集合中
的語義特征相對于所述熱度值所占的權重并保存在回歸模型中。

舉例說明,所述歷史新聞可以理解為在網絡中歷年發表的新聞稿。所述
數據結構化可以理解為通過信息提取技術,從所述歷史新聞中的文本內容中
提取出其中的語義特征或者語要素。語義特征可以是動態的,例如可以為“內
容是否新奇”、“主題是否熱門”和“內容是否合適”,可以通過0標識為否,
通過1標識為是。

得出的所述歷史新聞的至少一個語義特征與所述歷史新聞的熱度值進行
關聯的操作,從所述歷史新聞的至少一個語義特征中確定出與所述熱度值相
關的語義特征。所述歷史新聞的熱度值可以理解為用于標識所述歷史新聞的
一種傳播程度或者影響范圍,可以使用所述歷史新聞的直觀參數,例如閱讀
次數、轉發次數等或更為精細的特征。本發明不限定所述熱度值的具體表現
形式。

由于所述歷史新聞的熱度值是已知的,與所述熱度值相關的語義特征集
合也已確認,故通過訓練以及采集一定量的歷史新聞,可以得到所述語義特
征集合中各個語義特征相對于所述熱度值所占的權重。

通過歷史新聞建立的回歸模型,可以當輸入語義特征時,通過已經算出
的該語義特征的權重,計算輸入的該語義特征所能產生的熱度值,或者說對
熱度值所帶來的影響。

還需要注意的是,所述回歸模型建立單元500并不是每次進行信息確定
時都需要被觸發。

獲取單元501,用于獲取網絡中發布的信息,所述信息的發布時間具有新
聞時效性。

舉例說明,所述信息可以理解為用戶在網絡上實時發布的,所述信息的
形式可以為目前常見的微博、朋友圈、博客等等,本發明對信息的形式不限
定。

所述信息的發布時間具有新聞時效性可以理解為所述信息為近期發布
的。例如一周或更短時間之內發布的,若發布時間過長例如一個信息為一個
月前發布的,那么該信息被關注的程度將非常有限,不值得消耗系統資源對
該信息進行處理。

結構化單元502,用于對所述信息進行所述數據結構化,獲取所述信息的
至少一個語義特征。

計算單元503,用于將所述信息的至少一個語義特征輸入到所述回歸模型
中,利用確定出的與所述信息的至少一個語義特征對應的權重,計算得到所
述信息的熱度值。

舉例說明,根據對所述回歸模型建立單元500的描述,所述回歸模型中
具有不同語義特征以及語義特征所對應的權重,通過不斷練習,所述回歸模
型中的參數將越來越準確,越來越全面。當將所述信息的至少一個語義特征
輸入到所述回歸模型中,可以調用已知的權重,計算出所述信息的熱度值。
所述信息的熱度值可以理解為通過所述回歸模型預估出的通過所述信息得到
的新聞可能達到的或潛在的熱度值。

第一確定單元504,用于若所述信息的熱度值大于預設熱度值,確定所述
信息為用于形成新聞素材的信息。

舉例說明,所述預設熱度值可以根據不同場景對熱度值的需求,設置為
不同的大小。可以通過統計歷史新聞的熱度值,將統計結果作為設置的依據。
使用所述預設熱度值作為衡量信息是否可以用于形成新聞素材的條件,若信
息的熱度值大于所述預設熱度值,該信息可以用于形成新聞素材,若信息的
熱度值小于所述預設熱度值,該信息不可以用于形成新聞素材。

可見,根據對歷史新聞的數據結構化得到至少一個語義特征,根據歷史
新聞已知的熱度值,計算出與熱度值相關的語義特征相對于所述熱度值所占
的權重并保存在回歸模型中,當獲取網絡中發布的具有新聞時效性的信息時,
可以通過數據結構化,將得到的所述信息的至少一個語義特征輸入到所述回
歸模型中,利用與所述信息的至少一個語義特征對應的權重計算出所述信息
的熱度值,若所述信息的熱度值能夠大于預設熱度值,則將所述信息確定為
用于形成新聞素材的信息。由此可以通過數據結構化和回歸模型對網絡上的
信息的識別自動得出信息的熱度值,由此確定信息是否具有作為新聞素材的
條件,大大提高了確定效率。

實施例四

圖6為本發明實施例提供的一種信息確定裝置的裝置結構圖,還包括:

第三確定單元602,用于根據所述歷史新聞確定出所述歷史新聞的主題和
對應所述歷史新聞的主題的至少一個新聞模板的第二對應關系。

舉例說明,所述歷史新聞的主題可以通過文檔主題生成模型得到,例如
較為成熟的LDA。例如歷史新聞的內容為:“2014年夏天,數據分析師在對
阿里巴巴內衣銷售數據分析后發現,購買大號內衣的女性往往更敗家”,通過
文檔主題生成模型得到的主題可以為“女人”。

新聞模板可以通過統計學技術從所述歷史新聞中歸納出。不同的主題可
以歸納出不同的新聞模板,例如“熱賣”主題經常會出現“某某商品最近突
然大賣,近一周平均銷量為多少,較去年同期上漲多少”這種句式,我們可
以利用信息提取技術和語料庫將這種句式提取出來。常見的第二對應關系可
以為:

所述歷史新聞的主題為:熱賣

對應所述歷史新聞的主題的新聞模板為:商品最近突然大賣,近一周平
均銷量為XXX,較去年同期銷量上漲YYY。

其中的XXX和YYY部分待確定統計數據。

對應所述歷史新聞的主題的所述新聞模板可以不止一個,一般為了語言
更加豐富,對于一個歷史新聞的主題,會有多個對應的新聞模板以供選擇。

第二確定單元601,用于若所述信息的熱度值大于預設熱度,確定出所述
信息的主題,并保存所述信息、所述信息的主題和所述信息的熱度值三者之
間的第一對應關系。

在通過所述信息得到新聞素材的過程中,可以通過所述第一對應關系中
所述信息的主題和所述第二對應關系中所述歷史新聞的主題作為匹配要素,
匹配出適合所述信息的新聞模板。

查詢單元603,用于在觸發所述第一確定單元504后,根據所述第一對應
關系得到所述信息的主題。

比對單元604,用于確定出與所述信息的主題相同的所述歷史新聞的主
題。

選擇單元605,用于通過與所述信息的主題相同的所述歷史新聞的主題,
根據所述第二對應關系選擇相應的新聞模板。

舉例說明,根據所述第二確定單元601得到的所述信息的主題,通過所
述第二對應關系進行查找,以查找到與所述信息的主題相同的所述歷史新聞
的主題,以及該歷史新聞的主題所對應的新聞模板。當對應的新聞模板為多
個時,可以從中選擇一個。

生成單元606,用于使用所述相應的新聞模板將所述信息的內容生成新聞
素材。

舉例說明,在選擇出相應的新聞模板后,可以將所述信息中的內容相應
的填寫到所述新聞模板中,例如已經通過歷史新聞得到了所述回歸模型,獲
取網絡中發布的一條微博,其發布時間是符合新聞時效性的。微博內容是:“刺
繡露背連衣裙,雪紡料,輕薄又淑女,很適合現在的天氣哦”。通過數據結構
化,并將得到的語義特征輸入所述回歸模型后,得到該條微博的預估熱度值
為90。假設預設熱度值為60,那么可以確定該條微博為用于形成新聞素材的
微博。可以通過文檔主題生成模型生成該條微博的主題,得到主題“熱賣”。
以此建立了該條微博、該條微博的熱度值和該條微博的主題之間的第一對應
關系。通過查找,得到主題也為“熱賣”的歷史新聞主題,并根據第二對應
關系得到對應的新聞模板:“商品最近突然大賣,近一周平均銷量為XXX,
較去年同期銷量上漲YYY”,其中XXX和YYY為待確認統計數據。根據關
鍵字例如“連衣裙”、“一周平均銷量”(均值)、“較去年同期銷量”(同比)
等查找映射表,得到XXX為1億件,YYY為40%。根據確定的新聞模板、
該條微博的內容以及得到的待確定統計數據生成新聞素材,所述新聞素材具
體為:“連衣裙最近突然大賣,近一周平均銷量為1億件,較去年同期銷量上
漲40%。”

檢索單元607,用于若所述選擇單元605選擇的所述相應的新聞模板中包
括待確認統計數據時,根據所述信息和所述相應的新聞模板中的關鍵字在預
先建立的包含關鍵字、數據集合和計算算法的映射關系的映射表中進行檢索,
通過對應的數據集合和計算算法計算得到所述待確認統計數據。

舉例說明,所述映射表中的計算算法和數據集合可以理解為提數邏輯,
所述關鍵字不僅可以包括所述信息和/或新聞模板內容中的關鍵字,還可以包
括所述信息和/或新聞模板的主題。所述提數邏輯可以為SQL或者API的形式。
所調用數據集合可以是電商提供的電商數據。

所述生成單元606還用于使用所述相應的新聞模板將所述信息的內容和
計算得到所述待確認統計數據生成新聞素材。

可見,通過預先建立的映射表,不需要手動調取數據計算,可以自動算
出所述待確認統計數據,進一步提高了將信息的內容生成新聞素材的效率。

由上述實施例可以看出,利用歷史新聞生成新聞模板,并根據文檔主題
生成模型生成所述歷史新聞的主題,由此建立所述歷史新聞的主題和新聞模
板之間的第二對應關系。當所述信息的熱度值確定大于預設熱度值時,也通
過文檔主題生成模型得到所述信息的主題,選擇與所述信息的主題相同的所
述歷史新聞的主題所對應的新聞模板,使用所述相應的新聞模板將所述信息
的內容生成新聞素材,由此達到了依據歷史新聞的模板自動將所述信息生成
為新聞素材的效果,免除了人工方式生成新聞模板所消耗的時間,提高了將
所述信息生成為新聞素材的效率,有效滿足了快速的新聞更新速度。

通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到
上述實施例方法中的全部或部分步驟可借助軟件加通用硬件平臺的方式來實
現。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻
的部分可以以軟件產品的形式體現出來,該計算機軟件產品可以存儲在存儲
介質中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機
設備(可以是個人計算機,服務器,或者諸如媒體網關等網絡通信設備)執
行本發明各個實施例或者實施例的某些部分所述的方法。

需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,各個
實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其
他實施例的不同之處。尤其,對于設備及系統實施例而言,由于其基本相似
于方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明
即可。以上所描述的設備及系統實施例僅僅是示意性的,其中作為分離部件
說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以
是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個
網絡單元上。可以根據實際的需要選擇其中的部分或者全部模塊來實現本實
施例方案的目的。本領域普通技術人員在不付出創造性勞動的情況下,即可
以理解并實施。

以上所述僅是本發明的優選實施方式,并非用于限定本發明的保護范圍。
應當指出,對于本技術領域的普通技術人員來說,在不脫離本發明原理的前
提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發明的保護
范圍。

關 鍵 詞:
一種 信息 確定 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種信息確定方法和裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100788.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图