• / 14
  • 下載費用:30 金幣  

一種短信分類的方法及裝置.pdf

摘要
申請專利號:

CN201510674401.X

申請日:

2015.10.16

公開號:

CN105260467A

公開日:

2016.01.20

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20151016|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 中國聯合網絡通信集團有限公司
發明人: 李浩; 羅云彬; 王偉華; 馮麗芳
地址: 100033北京市西城區金融大街21號
優先權:
專利代理機構: 北京中博世達專利商標代理有限公司11274 代理人: 申健
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510674401.X

授權公告號:

||||||

法律狀態公告日:

2018.10.19|||2016.02.17|||2016.01.20

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開一種短信分類的方法及裝置,涉及通信網絡技術領域,可以解決現有技術中短信分類的精確度低的問題。本發明實施例通過提取原始短信樣本中出現的所有非重復的關鍵詞,組成短信類庫訓練的詞典;確定在同一短信集合的每個短信中,詞典中的每個關鍵詞對應的TF-IDF;將同一短信集合中的每個關鍵詞對應的TF-IDF劃分為至少三個區間;為每個短信集合生成短信類庫,進而根據短信類庫對待分類短信進行分類。本發明實施例提供的方案適于短信分類時采用。

權利要求書

1.一種短信分類的方法,其特征在于,包括:
提取用于類庫訓練的原始短信樣本中出現的所有非重復的關鍵詞,組成所
述短信類庫訓練的詞典,所述原始短信樣本中包括至少兩個類別的短信,每個
類別的短信組成一個短信集合;
確定在同一短信集合的每個短信中,所述詞典中的每個關鍵詞對應的
TF-IDF;
將同一短信集合中的每個關鍵詞對應的詞頻TF-關鍵度IDF劃分為至少三個
區間;
為每個短信集合生成短信類庫,所述短信類庫中包括短信類庫所屬類別的
概率,以及對應存儲的關鍵詞與關鍵詞位于每個區間中的概率,所述短信類庫
所屬類別的概率為所述短信類庫對應的短信集合在原始短信樣本中的占比;
根據所述短信類庫對待分類短信進行分類。
2.根據權利要求1所述的短信分類的方法,其特征在于,所述將同一短信
集合中的每個關鍵詞對應的TF-IDF劃分為至少三個區間,包括:
確定同一短信集合中每個關鍵詞對應的所有TF-IDF的均值和標準差;
在同一短信集合中,根據所述均值和標準差以及正態分布3σ原理分別將每
個關鍵詞對應的TF-IDF劃分為至少三個區間。
3.根據權利要求1或2所述的短信分類的方法,其特征在于,所述為每個
短信集合生成短信類庫,包括:
在同一短信集合中,統計同一關鍵詞對應的TF-IDF位于每個區間的概率;
在每個短信集合中,存儲短信集合所屬類別的概率,并對應存儲關鍵詞與
關鍵詞位于每個區間的概率,生成每個短信集合的短信類庫。
4.根據權利要求3所述的短信分類的方法,其特征在于,所述根據所述短
信類庫對待分類短信進行分類,包括:
確定所述待分類短信中的每個關鍵詞的TF-IDF;
在每個短信類庫中,分別查找所述待分類短信中的關鍵詞在每個區間中的
概率;
通過所述待分類短信中的關鍵詞在每個區間中的概率,以及每個短信類庫
所屬類別的概率,確定待分類短信屬于每個類別的概率;
根據所述待分類短信屬于每個類別的概率對所述待分類短信進行分類。
5.一種短信分類的裝置,其特征在于,包括:
提取單元,用于提取用于類庫訓練的原始短信樣本中出現的所有非重復的
關鍵詞,組成所述短信類庫訓練的詞典,所述原始短信樣本中包括至少兩個類
別的短信,每個類別的短信組成一個短信集合;
確定單元,用于確定在同一短信集合的每個短信中,所述詞典中的每個關
鍵詞對應的TF-IDF;
劃分單元,用于將同一短信集合中的每個關鍵詞對應的詞頻TF-關鍵度IDF
劃分為至少三個區間;
生成單元,用于為每個短信集合生成短信類庫,所述短信類庫中包括短信
類庫所屬類別的概率,以及對應存儲的關鍵詞與關鍵詞位于每個區間中的概率,
所述短信類庫所屬類別的概率為所述短信類庫對應的短信集合在原始短信樣本
中的占比;
分類單元,用于根據所述短信類庫對待分類短信進行分類。
6.根據權利要求5所述的短信分類的裝置,其特征在于,
所述劃分單元,還用于確定同一短信集合中每個關鍵詞對應的所有TF-IDF
的均值和標準差;在同一短信集合中,根據所述均值和標準差以及正態分布3σ
原理分別將每個關鍵詞對應的TF-IDF劃分為至少三個區間。
7.根據權利要求5或6所述的短信分類的裝置,其特征在于,
所述生成單元,還用于在同一短信集合中,統計同一關鍵詞對應的TF-IDF
位于每個區間的概率;在每個短信集合中,存儲短信集合所屬類別的概率,并
對應存儲關鍵詞與關鍵詞位于每個區間的概率,生成每個短信集合的短信類庫。
8.根據權利要求7所述的短信分類的裝置,其特征在于,
所述分類單元,還用于確定所述待分類短信中的每個關鍵詞的TF-IDF;在
每個短信類庫中,分別查找所述待分類短信中的關鍵詞在每個區間中的概率;
通過所述待分類短信中的關鍵詞在每個區間中的概率,以及每個短信類庫所屬
類別的概率,確定待分類短信屬于每個類別的概率;根據所述待分類短信屬于
每個類別的概率對所述待分類短信進行分類。

說明書

一種短信分類的方法及裝置

技術領域

本發明涉及通信技術領域,尤其涉及一種短信分類的方法及裝置。

背景技術

隨著通信技術的發展,短信成為被廣泛使用的業務,由于現在欺詐短信、
廣告短信等垃圾短信泛濫,所以需對短信進行分類,進而攔截垃圾短信。目前,
常用的短信分類方法為根據關鍵字和預設規則來識別垃圾短信,例如,當識別
到短信中有“發票”等敏感詞匯時,該短信就會被當作垃圾短信攔截,然而如
果短信的敏感詞匯中攜帶有特殊字符,例如“發*票”,該短信就很難被歸為垃
圾短信并攔截。此外,由于正常用戶的短信中也可能包含敏感詞匯,此時采用
這種短信分類方法可能會造成正常短信的誤攔截,目前為了防止誤攔截,一般
當識別出短信中包含多個敏感詞匯時,該短信才會被確定為垃圾短信,就使得
一些真正的垃圾短信未被歸為垃圾短信的類別。所以,現有的短信分類方法的
精度低。

發明內容

本發明的實施例提供一種短信分類的方法及裝置,可以解決短信分類精度
低的問題。

為達到上述目的,本發明的實施例采用如下技術方案:

一種短信分類的方法,包括:

提取用于類庫訓練的原始短信樣本中出現的所有非重復的關鍵詞,組成所
述短信類庫訓練的詞典,所述原始短信樣本中包括至少兩個類別的短信,每個
類別的短信組成一個短信集合;

確定在同一短信集合的每個短信中,所述詞典中的每個關鍵詞對應的
TF-IDF;

將同一短信集合中的每個關鍵詞對應的詞頻TF-關鍵度IDF劃分為至少三個
區間;

為每個短信集合生成短信類庫,所述短信類庫中包括短信類庫所屬類別的
概率,以及對應存儲的關鍵詞與關鍵詞位于每個區間中的概率,所述短信類庫
所屬類別的概率為所述短信類庫對應的短信集合在原始短信樣本中的占比;

根據所述短信類庫對待分類短信進行分類。

一種短信分類的裝置,包括:

提取單元,用于提取用于類庫訓練的原始短信樣本中出現的所有非重復的
關鍵詞,組成所述短信類庫訓練的詞典,所述原始短信樣本中包括至少兩個類
別的短信,每個類別的短信組成一個短信集合;

確定單元,用于確定在同一短信集合的每個短信中,所述詞典中的每個關
鍵詞對應的TF-IDF;

劃分單元,用于將同一短信集合中的每個關鍵詞對應的詞頻TF-關鍵度IDF
劃分為至少三個區間;

生成單元,用于為每個短信集合生成短信類庫,所述短信類庫中包括短信
類庫所屬類別的概率,以及對應存儲的關鍵詞與關鍵詞位于每個區間中的概率,
所述短信類庫所屬類別的概率為所述短信類庫對應的短信集合在原始短信樣本
中的占比;

分類單元,用于根據所述短信類庫對待分類短信進行分類。

本發明實施例提供的短信分類的方法及裝置,對原始短信樣本進行類庫訓
練,根據關鍵詞的TF-IDF值得到每個類別短信對應的短信類庫,每個短信類庫
中都包括每個關鍵詞屬于各區間的概率以及該短信類庫所屬短信類別的概率,
進而根據類庫就可以完成對待分類短信的精確分類。與現有技術中的短信分類
方法精度低相比,本發明實施例中根據每個關鍵詞的TF-IDF值,以及每個關鍵
詞的TF-IDF值在每個分層的概率得到短信類庫,進而使得根據短信類庫對待分
類短信進行分類時可以確定待分類短信屬于各個短信類別的概率,從而得到精
確的分類結果,提高了短信分類的精度。

附圖說明

為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施
例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述
中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付
出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。

圖1為本發明實施例提供的一種短信分類的系統的邏輯結構示意圖;

圖2為本發明實施例提供的一種短信分類的方法的流程圖;

圖3為本發明實施例提供的另一種短信分類的方法的流程圖;

圖4為本發明實施例提供的另一種短信分類的方法的流程圖;

圖5為本發明實施例提供的一種短信分類的裝置的邏輯結構示意圖。

具體實施方式

下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清
楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是
全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造
性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。

本發明實施例提供的短信類庫適用于短信分類系統中,如圖1所示,該短
信分類系統主要包括用于存儲原始短信樣本和短信類庫的hdfs(分布式存儲)、
交換機,以及用于進行短信類庫訓練的MapReduce(分布式計算)。

其中,hdfs包括一個NameNode(管理節點)和至少兩個DataNode(數據節
點)。MapReduce包括一個JobTracker(任務管理節點)和至少兩個TaskTracker
(任務執行節點)。一個NameNode和一個JobTracker位于同一服務器中,一個
DataNode和一個JobTracker位于同一個服務器中。

NameNode用于存儲短信索引文件,主要負責文本索引的存儲和快速定位查
找。DataNode用于存儲具體的短信文本內容以及短信類庫。

TaskTracker用于執行任務,JobTracker用于監控任務的執行。

由于現有的短信分類方法分類精度較低,為了提高短信分類的精度,可以
將樸素貝葉斯算法應用于短信分類的過程中,具體可以通過計算短信中每個詞
所屬的類別,判別該短信所屬的類別,樸素貝葉斯算法雖然計算簡單、分類精
確,但是只能采用統計詞頻的方法處理非連續性數據,但是對于短信文本,詞
頻并不能體現短信中某個詞對于整個短信的關鍵性,而TF-IDF(詞頻-關鍵度)
可以精確的體現短信中某個詞對于整個短信的關鍵性,但是TF-IDF為連續性數
據。所以,為了將TF-IDF應用在樸素貝葉斯算法中,以提高短信分類的精度,
本發明實施例提供了一種短信分類的方法,應用于圖1所示的短信分類系統中,
如圖2所示,該方法包括:

201、提取用于類庫訓練的原始短信樣本中出現的所有非重復的關鍵詞,組
成短信類庫訓練的詞典,原始短信樣本中包括至少兩個類別的短信,每個類別
的短信組成一個短信集合。

其中,原始短信樣本均存儲于分布式存儲hdfs中,具體存儲在hdfs中的
DataNode中,DataNode上的索引文件存儲于NameNode中,且TaskTracker已
經通過聚類操作將原始短信樣本中的短信分為至少兩個類別,每個類別的短信
組成一個短信集合,且通常不同類別的短信存儲于不同的文件夾中。

在將關鍵字組成詞典之后,還需對詞典中的關鍵詞進行編號,為每個關鍵
詞設置一個ID作為關鍵詞的唯一編號。

值得說明的是,本發明實施例的方法流程主要由TaskTracker執行。

還需說明的是,為了提高根據短信類庫對短信分類的精度,原始短信樣本
中短信數量一般很大,為了快速處理大批量的數據,本發明實施例主要采用
MapReduce進行短信類庫訓練,JobTracker負責MapReduce過程中的任務鍵控,
而MapReduce過程中的具體任務由TaskTracker執行。在本步驟中,可以采用
MapReduce,將提取的詞典封裝成一個job任務提交。在Map階段,各任務節點
的<Key,Value>輸入值為<隨機唯一值,短信文本>,Map階段對短信文本按照關鍵
詞進行切分,并去除停止詞等非關鍵詞,進而Map階段輸出值為<關鍵詞,1>。
為了保證關鍵詞順序的一致性,將Reduce任務數量設置為1,Reduce階段輸出
的<Key,Value>值為<ID,關鍵詞>,輸出結果以SequenceFile形式(即Key-Value
鍵值對)存儲,從而得到類庫訓練的詞典。

202、確定在同一短信集合的每個短信中,詞典中的每個關鍵詞對應的
TF-IDF。

可以理解的是,對于每個短信集合的每條短信,都要確定詞典的每個關鍵
詞對應的TF-IDF。TF-IDF=TF×IDF,其中TF代表該關鍵詞在一個短信集合
中的一條短信中出現的次數,IDF用于代表該短信集合中,具有該關鍵詞的短信
數量,其中,D為該短信集合中短信的數量,Dw為該短信集合中,
具有該關鍵詞的短信數量。

步驟202也可以通過MapReduce實現,由于不同類別的短信存儲在不同的
文件夾中。因此,在Map階段需根據短信集合的數量設置Map的個數,并按照
類對短信進行序列化。例如,屬于別墅類別的若干條短信,Map階段輸出的
<Key,Value>鍵值對的值為<Bieshu_N,tf-vector>。也就是Key按照該類別名稱
+短信序列號的方式進行命名;Value值是該短信中出現的關鍵詞的詞頻tf。

在Reduce階段,根據tf-idf計算公式,結合全局的idf,計算每個短信中,
每個關鍵詞對應的tf-idf值。Reduce階段輸出結果為
<Bieshu_N,tf-idf-vector>。

203、將同一短信集合中的每個關鍵詞對應的TF-IDF劃分為至少三個區間。

其中,同一短信集合中包括多個短信,同一關鍵詞在不同短信中的TF-IDF
值不同,所以在同一短信集合中,同一關鍵詞對應多個TF-IDF值。可以將同一
關鍵詞對應的TF-IDF值按照取值大小劃分為至少三個區間。

204、為每個短信集合生成短信類庫,短信類庫中包括短信類庫所屬類別的
概率,以及對應存儲的關鍵詞與關鍵詞位于每個區間中的概率。

其中,短信類庫所屬類別的概率為短信類庫對應的短信集合在原始短信樣
本中的占比。例如,短信樣本中包括1000條短信,短信集合A中包括50條短
信,則短信類庫A的概率為50/1000=0.05。

此外,關鍵詞與關鍵詞位于每個區間的概率是對應存儲的,假設一共有三
個區間,則每個類庫中每個關鍵詞的存儲方式為:“關鍵詞-C1C2C3”,其
中C1、C2、C3分別為該關鍵詞屬于每個區間的概率,一個短信類庫中按上述方
式存儲了詞典中所有的關鍵詞,且還存儲了該短信類庫所屬短信類別的概率。

205、根據短信類庫對待分類短信進行分類。

在短信類庫生成之后,即可使用短信類庫對待分類短信進行分類,根據短
信類庫可以判斷出待分類短信屬于每個短信類庫的概率,進而根據該概率將待
分類短信歸為相應的短信類別。

本發明實施例提供的短信分類的方法,對原始短信樣本進行類庫訓練,根
據關鍵詞的TF-IDF值得到每個類別短信對應的短信類庫,每個短信類庫中都包
括每個關鍵詞屬于各區間的概率以及該短信類庫所屬短信類別的概率,進而根
據類庫就可以完成對待分類短信的精確分類。與現有技術中的短信分類方法精
度低相比,本發明實施例中根據每個關鍵詞的TF-IDF值,以及每個關鍵詞的
TF-IDF值在每個分層的概率得到短信類庫,進而使得根據短信類庫對待分類短
信進行分類時可以確定待分類短信屬于各個短信類別的概率,從而得到精確的
分類結果,提高了短信分類的精度。

當短信集合中的短信足夠多時,同一短信集合中每個關鍵詞對應的TF-IDF
的取值符合正態分布,所以可以根據正態分布將同一短信集合中每個關鍵詞對
應的TF-IDF劃分為多個區間,基于此,在本發明實施例提供的另一種實現方式
中,如圖3所示,上述步驟203、將同一短信集合中的每個關鍵詞對應的TF-IDF
劃分為至少三個區間,具體可以實現為步驟2031和步驟2032。

2031、確定同一短信集合中每個關鍵詞對應的所有TF-IDF的均值和標準差。

可以理解的是,對于每個短信集合,都需計算詞典中每個關鍵詞在該短信
集合中對應的所有TF-IDF的均值μ和標準差σ。計算均值和標準差依然可以利
用MapReduce。

(1)、均值計算。

在Map階段,對同一關鍵詞對應的TF-IDF值進行求和運算,輸出的
<Key,Value>值為<關鍵詞的ID,sum(tf-idf)>,其中,value值為該關鍵詞對應
的所有TF-IDF值之和。

在Reduce階段,對Map階段輸出的結果進行進一步計算,輸出<Key,Value>
值為<關鍵詞的ID,sum(tf-idf)/短信數量>,其中,Value值為該關鍵詞所有
TF-IDF之和除以該短信集合中的短信數量。

(2)、標準差計算。

Map階段:根據之前均值任務的輸出結果,在Map階段需計算每個關鍵字對
應的TF-IDF值的方差,計算公式為:(x1-μ)2+(x2-μ)2+....(xn-μ)2,其中x1表
示該關鍵字在該短信集合的第一條短信中的TF-IDF值,該短信集合中一共有n
個短信,xn表示該短信集合中最后一條短信的TF-IDF值。Map階段輸出的
<Key,Value>值為<關鍵詞的ID,方差>。

Reduce階段:相同的關鍵詞會被分配到同一個Reduce任務上,Reduce階
段根據方差求解標準差。輸出的<Key,Value>值為<關鍵詞的ID,標準差>。

2032、在同一短信集合中,根據所述均值和標準差以及正態分布3σ原理分
別將每個關鍵詞對應的TF-IDF劃分為至少三個區間。

需說明的是,當短信集合中的短信足夠多時,同一短信集合中每個關鍵詞
對應的TF-IDF的取值符合正態分布,所以遵循正態分布的3σ原理。

根據正態分布的3σ原理,P(μ-3σ<x≤μ+3σ)=99.7%,正態分布在
(μ-3σ<x≤μ+3σ]外的概率不到0.3%,所以關鍵詞的TF-IDF值超出3σ值外的概
率只有不到0.3%,為小概率事件,可以將超出3σ值外的TF-IDF值的取值范圍
規定為[-∞,μ-3σ]和[μ+3σ,∞],進而根據3σ原理,將詞典中每個關鍵詞對應
的TF-IDF劃分為8個區間,第一區間至第八區間分別為:[-∞,μ-3σ]、
[μ-3σ,μ-2σ]、[μ-2σ,μ-σ]、[μ-σ,μ]、[μ,μ+σ]、[μ+σ,μ+2σ]、
[μ+2σ,μ+3σ]、[μ+3σ,∞]。

結合上述描述,在將每個關鍵詞對應的TF-IDF劃分為至少三個區間之后,
需根據關鍵詞的TF-IDF以及劃分的區間生成短信類庫,所以上述步驟204、為
每個短信集合生成短信類庫,具體可以實現為以下兩個步驟。

2041、在同一短信集合中,統計同一關鍵詞對應的TF-IDF位于每個區間的
概率。

其中,由于同一關鍵詞在不同短信中的TF-IDF值不同,所以同一關鍵詞對
應多個TF-IDF值,在本步驟中,需統計這些TF-IDF位于每個區間的概率。

具體實現方法為:在Map階段:統計每條短信中不同關鍵詞所處的區間,
形成一個統計數組,輸出鍵值對<Key,Value>的值為<關鍵詞的ID,數組>,其中,
數組長度為8,格式為[0,1,0,0,0,0,0,0],該數組代表當前統計的關鍵詞的TF-IDF
值位于第二個區間中。

在Reduce階段:按照關鍵詞進行匯總統計,將Map階段輸出的對應于同一
關鍵詞的數組進行累加,并轉換成概率的形式表示,最終輸出結果<Key,Value>
的值為<關鍵詞的ID,數組>,數組的格式為[c1,c2,c3,c4,c5,c6,c7,c8],c1是指關鍵詞
在該短信集合中,位于第1區間的概率。

2042、在每個短信集合中,存儲短信集合所屬類別的概率,并對應存儲關
鍵詞與關鍵詞位于每個區間的概率,生成每個短信集合的短信類庫。

值得說明的是,在上一步驟將詞典中的所有關鍵詞分別在每個短信集合中
計算完成后,將計算結果存儲即可得到短信類庫,短信類庫的存儲方式如下表
所示,其中,該表格以根據短信集合A生成的短信類庫A為例,其中,T1、T2……TN
分別代表詞典中的每個關鍵詞,每一行的C1,C2……C8分別代表改行的關鍵詞
屬于各個區間的概率,例如第一行的C1代表關鍵詞T1屬于第一區間的概率。
每個類別的短信類庫均以該表格所示的方式存儲。


本發明實施例提供的短信分類的方法,在短信類庫訓練時,將符合正態分
布的連續的TF-IDF劃分為多個區間,并計算同一關鍵詞的TF-IDF屬于每個區
間的概率,使得本發明實施例能夠根據短信類庫使用樸素貝葉斯算法對待分類
短信進行分類,且通過將TF-IDF根據概率劃分為多個區間,提高了分類的準確
度。

在短信類庫訓練完成之后,就可以根據存儲的短信類庫對待分類短信進行
分類,所以在本發明實施例提供的另一種實現方式中,如圖4所示,上述步驟
205、根據短信類庫對待分類短信進行分類,具體包括以下步驟:

2051、計算待分類短信中的每個關鍵詞的TF-IDF。

2052、在每個短信類庫中,分別查找待分類短信中的關鍵詞的TF-IDF在每
個區間中的概率。

結合上述表格,確定待分類短信中的關鍵詞之后,即可根據樸素貝葉斯算
法,從短信類庫中查找每個關鍵詞的TF-IDF所處的區間,以及在所處區間中的
概率。例如關鍵詞1的TF-IDF屬于第一區間,從表格中可知,關鍵詞1屬于第
一區間的概率為C1。

2053、通過待分類短信中的關鍵詞的TF-IDF在每個區間中的概率,以及每
個短信類庫所屬類別的概率,確定待分類短信屬于每個類別的概率。

舉例說明,待分類短信中有T1、T2、T3三個關鍵詞,T1的TF-IDF屬于短
信類庫A的概率為C1,T2的TF-IDF屬于短信類庫A的概率為C2,T3的TF-IDF
屬于短信類庫A的概率為C3,短信類庫A所屬的類別A的概率為P,則可確定
待分類短信屬于類別A的概率為C1×C2×C3×P。

2054、根據待分類短信屬于每個類別的概率對待分類短信進行分類。

需要說明的是,一般將待分類短信歸為概率最高的類別。

本發明實施例提供的短信分類的方法,采用MapReduce對原始短信樣本進
行類庫訓練,根據關鍵詞的TF-IDF值得到每個類別短信對應的短信類庫,每個
短信類庫中都包括每個關鍵詞屬于各區間的概率以及該短信類庫所屬短信類別
的概率,由于每個短信類庫都采用分布式存儲,且短信類庫中存儲的每個關鍵
詞屬于各區間的概率以及該短信類庫所屬短信類別的概率均為非連續性數據,
所以可以采用樸素貝葉斯算法根據短信類庫實現對待分類短信的精確分類,并
且在類庫訓練過程中采用MapReduce可以實現大批量數據的快速處理,所以本
發明實施例可以實現快速、精確的短信分類。

為了提高短信分類的精度,本發明實施例還提供了一種短信分類的裝置,
如圖5所示,該裝置包括:提取單元51,確定單元52,劃分單元53,生成單元
54,分類單元55。

提取單元51,用于提取用于類庫訓練的原始短信樣本中出現的所有非重復
的關鍵詞,組成短信類庫訓練的詞典,原始短信樣本中包括至少兩個類別的短
信,每個類別的短信組成一個短信集合;

確定單元52,用于確定在同一短信集合的每個短信中,詞典中的每個關鍵
詞對應的TF-IDF;

劃分單元53,用于將同一短信集合中的每個關鍵詞對應的詞頻TF-關鍵度
IDF劃分為至少三個區間;

生成單元54,用于為每個短信集合生成短信類庫,短信類庫中包括短信類
庫所屬類別的概率,以及對應存儲的關鍵詞與關鍵詞位于每個區間中的概率,
短信類庫所屬類別的概率為短信類庫對應的短信集合在原始短信樣本中的占
比;

分類單元55,用于根據短信類庫對待分類短信進行分類。

在本發明另一實施例中,劃分單元53,還用于確定同一短信集合中每個關
鍵詞對應的所有TF-IDF的均值和標準差;在同一短信集合中,根據均值和標準
差以及正態分布3σ原理分別將每個關鍵詞對應的TF-IDF劃分為至少三個區間。

在本發明另一實施例中,生成單元54,還用于在同一短信集合中,統計同
一關鍵詞對應的TF-IDF位于每個區間的概率;在每個短信集合中,存儲短信集
合所屬類別的概率,并對應存儲關鍵詞與關鍵詞位于每個區間的概率,生成每
個短信集合的短信類庫。

在本發明另一實施例中,分類單元55,還用于確定待分類短信中的每個關
鍵詞的TF-IDF;在每個短信類庫中,分別查找待分類短信中的關鍵詞在每個區
間中的概率;通過待分類短信中的關鍵詞在每個區間中的概率,以及每個短信
類庫所屬類別的概率,確定待分類短信屬于每個類別的概率;根據待分類短信
屬于每個類別的概率對待分類短信進行分類。

本發明實施例提供的短信分類的裝置,對原始短信樣本進行類庫訓練,根
據關鍵詞的TF-IDF值得到每個類別短信對應的短信類庫,每個短信類庫中都包
括每個關鍵詞屬于各區間的概率以及該短信類庫所屬短信類別的概率,進而根
據類庫就可以完成對待分類短信的精確分類。與現有技術中的短信分類精度低
相比,本發明實施例中根據每個關鍵詞的TF-IDF值,以及每個關鍵詞的TF-IDF
值在每個分層的概率得到短信類庫,進而使得根據短信類庫對待分類短信進行
分類時可以確定待分類短信屬于各個短信類別的概率,從而得到精確的分類結
果,提高了短信分類的精度。

通過以上的實施方式的描述,所屬領域的技術人員可以清楚地了解到本發
明可借助軟件加必需的通用硬件的方式來實現,當然也可以通過硬件,但很多
情況下前者是更佳的實施方式。基于這樣的理解,本發明的技術方案本質上或
者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟
件產品存儲在可讀取的存儲介質中,如計算機的軟盤,硬盤或光盤等,包括若
干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備
等)執行本發明各個實施例所述的方法。

以上所述,僅為本發明的具體實施方式,但本發明的保護范圍并不局限于
此,任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到
變化或替換,都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應
以所述權利要求的保護范圍為準。

關 鍵 詞:
一種 短信 分類 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種短信分類的方法及裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6345633.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图