• / 15
  • 下載費用:30 金幣  

一種數字識別方法及裝置.pdf

摘要
申請專利號:

CN201510346080.0

申請日:

2015.06.19

公開號:

CN106257495A

公開日:

2016.12.28

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06K 9/62申請日:20150619|||公開
IPC分類號: G06K9/62 主分類號: G06K9/62
申請人: 阿里巴巴集團控股有限公司
發明人: 丁威
地址: 英屬開曼群島大開曼資本大廈一座四層847號郵箱
優先權:
專利代理機構: 北京國昊天誠知識產權代理有限公司 11315 代理人: 許志勇
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510346080.0

授權公告號:

|||

法律狀態公告日:

2017.01.25|||2016.12.28

法律狀態類型:

實質審查的生效|||公開

摘要

本申請公開了一種數字識別方法及裝置,該方法獲取待識別圖像,根據所述待識別圖像中各像素之間的距離,提取所述待識別圖像的多維特征向量,根據所述待識別圖像的多維特征向量和生成的訓練模型,對所述待識別圖像進行數字識別,其中,所述訓練模型包括降維矩陣和降維類中心向量。通過上述方法,對于所述待識別圖像的多維特征向量,由于其可以有效地反映出待識別圖像中的數字外部輪廓的形狀、內部輪廓的形狀,以及該數字自身的各筆畫點之間的相對位置關系,因此,可以提高數字識別的準確率。

權利要求書

1.一種數字識別方法,其特征在于,包括:
獲取待識別圖像;
根據所述待識別圖像中各像素之間的距離,提取所述待識別圖像的多維特
征向量;
根據所述待識別圖像的多維特征向量和生成的訓練模型,對所述待識別圖
像進行數字識別,其中,所述訓練模型包括降維矩陣和降維類中心向量。
2.如權利要求1所述的方法,其特征在于,獲取待識別圖像,具體包括:
對原始圖像進行預處理,生成設定尺寸的二值圖像,作為待識別圖像,其
中,所述待識別圖像的前景至多包含一個數字。
3.如權利要求2所述的方法,其特征在于,根據待識別圖像中各像素之
間的距離,提取所述待識別圖像的多維特征向量,具體包括:
根據在待識別圖像中,背景邊緣像素與前景邊緣像素之間的距離、前景像
素與前景邊緣像素之間的距離、選定方向上背景像素與前景像素的跳變次數,
提取所述待識別圖像的多維特征向量。
4.如權利要求3所述的方法,其特征在于,所述訓練模型按照如下方法
生成:
針對0至9這10個數字中的每個數字,分別采集與該數字對應的訓練樣
本;
根據針對各所述數字采集的訓練樣本,生成訓練模型。
5.如權利要求4所述的方法,其特征在于,根據針對各所述數字采集的
訓練樣本,生成訓練模型,具體包括:
針對每個所述數字,提取與該數字對應的各訓練樣本的多維特征向量;并
對所述各訓練樣本的多維特征向量進行聚類,獲得設定數量個多維特征向
量類,以及確定每個所述多維特征向量類的類中心向量,作為與該數字對應的
類中心向量;
根據提取的各所述數字的訓練樣本的多維特征向量,生成多維特征矩陣;
采用降維算法,對所述多維特征矩陣進行降維處理,生成降維矩陣;
根據所述降維矩陣和各所述類中心向量,分別為每個所述類中心向量生成
對應的降維類中心向量;
將所述降維矩陣和各所述降維類中心向量,作為生成的訓練模型。
6.如權利要求5所述的方法,其特征在于,根據所述待識別圖像的多維
特征向量和生成的訓練模型,對所述待識別圖像進行數字識別,具體包括:
根據所述降維矩陣和所述待識別圖像的多維特征向量,生成所述待識別圖
像的降維特征向量;
在各所述降維類中心向量中,基于選定的向量距離度量方法,確定與所述
降維特征向量距離最近的降維類中心向量,作為最近鄰向量;
當所述最近鄰向量與所述降維特征向量之間的距離不大于預設閾值時,確
定所述待識別圖像的前景包含有:所述降維特征向量對應的類中心向量對應的
數字。
7.一種數字識別裝置,其特征在于,包括:
獲取模塊,用于獲取待識別圖像;
特征提取模塊,用于根據所述待識別圖像中各像素之間的距離,提取所述
待識別圖像的多維特征向量;
識別模塊,用于生成訓練模型,并根據所述待識別圖像的多維特征向量和
所述訓練模型,對所述待識別圖像進行數字識別,其中,所述訓練模型包括降
維矩陣和降維類中心向量。
8.如權利要求7所述的裝置,其特征在于,所述獲取模塊具體用于,對
原始圖像進行預處理,生成設定尺寸的二值圖像,作為待識別圖像,其中,所
述待識別圖像的前景至多包含一個數字。
9.如權利要求8所述的裝置,其特征在于,所述特征提取模塊具體用于,
根據在待識別圖像中,背景邊緣像素與前景邊緣像素之間的距離、前景像素與
前景邊緣像素之間的距離、選定方向上背景像素與前景像素的跳變次數,提取
所述待識別圖像的多維特征向量。
10.如權利要求9所述的裝置,其特征在于,所述識別模塊具體用于,針
對0至9這10個數字中的每個數字,分別采集與該數字對應的訓練樣本,根
據針對各所述數字采集的訓練樣本,生成訓練模型。
11.如權利要求10所述的裝置,所述識別模塊具體用于,針對每個所述
數字,提取與該數字對應的各訓練樣本的多維特征向量,并對所述各訓練樣本
的多維特征向量進行聚類,獲得設定數量個多維特征向量類,以及確定每個所
述多維特征向量類的類中心向量,作為與該數字對應的類中心向量,根據提取
的各所述數字的訓練樣本的多維特征向量,生成多維特征矩陣,采用降維算法,
對所述多維特征矩陣進行降維處理,生成降維矩陣,根據所述降維矩陣和各所
述類中心向量,分別為每個所述類中心向量生成對應的降維類中心向量,將所
述降維矩陣和各所述降維類中心向量,作為生成的訓練模型。
12.如權利要求11所述的裝置,所述識別模塊具體用于,根據所述降維
矩陣和所述待識別圖像的多維特征向量,生成所述待識別圖像的降維特征向
量,在各所述降維類中心向量中,基于選定的向量距離度量方法,確定與所述
降維特征向量距離最近的降維類中心向量,作為最近鄰向量,當所述最近鄰向
量與所述降維特征向量之間的距離不大于預設閾值時,確定所述待識別圖像的
前景包含有:所述降維特征向量對應的類中心向量對應的數字。

說明書

一種數字識別方法及裝置

技術領域

本申請涉及計算機技術領域,尤其涉及一種數字識別方法及裝置。

背景技術

目前,數字識別技術理論已經日漸成熟,然而大多數的數字識別方法,在
實際應用過程中或多或少的都會出現一些問題,尤其是在復雜應用場景中或是
移動設備上,識別效率和識別準確率較低。

例如,常見的數字識別方法有:基于逆傳播(Back Propagation,BP)神
經網絡的識別算法、支持向量機(Support Vector Machine,SVM)識別算法、
卷積神經網絡(Convolutional Neural Network,CNN)識別算法,等等。BP神
經網絡的識別算法對樣本數量要求很高,否則無法達到較高的識別準確率,
SVM識別算法需要選擇不同的核函數,且識別模型庫較大,CNN識別算法不
需要提取特征,但識別效率較低。

綜上所述,亟需一種識別效率和識別準確率都較高的數字識別方法。

發明內容

本申請實施例提供一種數字識別方法,用以解決現有技術中的數字識別方
法的識別準確率不高和/或識別效率較低的問題。

本申請實施例提供一種數字識別裝置,用以解決現有技術中的數字識別方
法的識別準確率不高和/或識別效率較低的問題。

本申請實施例提供的一種數字識別方法,包括:

獲取待識別圖像;

根據所述待識別圖像中各像素之間的距離,提取所述待識別圖像的多維特
征向量;

根據所述待識別圖像的多維特征向量和生成的訓練模型,對所述待識別圖
像進行數字識別,其中,所述訓練模型包括降維矩陣和降維類中心向量。

本申請實施例提供的一種數字識別裝置,包括:

獲取模塊,用于獲取待識別圖像;

特征提取模塊,用于根據所述待識別圖像中各像素之間的距離,提取所述
待識別圖像的多維特征向量;

識別模塊,用于生成訓練模型,并根據所述待識別圖像的多維特征向量和
所述訓練模型,對所述待識別圖像進行數字識別,其中,所述訓練模型包括降
維矩陣和降維類中心向量。

本申請實施例通過上述技術方案,對于所述待識別圖像的多維特征向量,
由于其可以有效地反映出待識別圖像中的數字外部輪廓的形狀、內部輪廓的形
狀,以及該數字自身的各筆畫點之間的相對位置關系,因此,可以提高數字識
別的準確率。不僅如此,由于在數字識別過程中對該多維特征向量進行了降維
處理,因此,可以減少數字識別過程中的數據計算量,提高數字識別速度。

附圖說明

此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部
分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不
當限定。在附圖中:

圖1為本申請實施例提供的數字識別過程;

圖2為在本申請實施例提供的數字識別過程中,提取的幾類特征的示意
圖;

圖3為在本申請實施例提供的數字識別過程中,生成訓練模型的詳細過
程;

圖4為本申請實施例提供的數字識別裝置結構示意圖。

具體實施方式

為使本申請的目的、技術方案和優點更加清楚,下面將結合本申請具體實
施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的
實施例僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施
例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施
例,都屬于本申請保護的范圍。

圖1為本申請實施例提供的數字識別過程,具體包括以下步驟:

S101:獲取待識別圖像。

本申請實施例提供的數字識別方法的執行主體可以是終端或服務器,所述
終端包括但不限于:手機、平板電腦、智能手表、車載移動臺、個人計算機等;
所述服務器包括但不限于:大中型計算機、計算機集群等。所述的執行主體并
不構成對本申請的限定。在本申請實施例中,將圖像中可表示數字、字母、漢
字等字符的像素區域稱為所述圖像的前景,相應的,將除了前景之外的其他像
素區域稱為所述圖像的背景,所述數字識別可以是對待識別圖像的前景所包含
的數字(以下簡稱為:待識別圖像中的數字)進行識別的過程。

在本申請實施例中,可以用攝像頭或者其他圖像采集設備采集原始圖像,
然后對原始圖像進行數字識別。進一步的,由于原始圖像中可以有不止一個數
字,而且不同的原始圖像中的數字的大小、清晰度、顏色等特征可能不相同,
從而可能會影響后續數字識別的準確率。因此,也可以不直接對原始圖像進行
數字識別,而是可以對原始圖像進行預處理,獲取到更適用于數字識別的待識
別圖像,再對待識別圖像進行數字識別。其中,所述預處理可以是圖像剪裁、
圖像旋轉、圖像濾波、圖像增強、圖像二值化等處理。

另外,若在經過所述預處理后,原始圖像中的數字分布在了多個待識別圖
像上,則后續對各待識別圖像上的數字進行識別后,還可以對識別出的各數字
進行重新排序、拼接等還原處理,以還原為原始圖像中的數字。例如,假定對
一張訂單圖像中的訂單號進行數字識別,則在預處理過程中可以將表示該訂單
號的數字串分割為多個數字分別進行識別,這樣的話,各數字可能分別分布在
一張待識別圖像上,在對各待識別圖像中的數字進行識別后,可以按照預先記
錄的各數字的順序,還原出該訂單號,至此,完成了對該訂單號進行數字識別
的過程。

S102:根據所述待識別圖像中各像素之間的距離,提取所述待識別圖像的
多維特征向量。

在本申請實施例中,可以在待識別圖像選取一些特定的像素,如背景邊緣
像素、前景邊緣像素、背景內部像素等,這些特定像素之間的距離可以反映出
待識別圖像中的數字的外部輪廓的形狀、內部輪廓的形狀,以及該數字自身的
各筆畫點之間的相對位置關系,因此,可以作為識別該數字的依據。

進一步的,在實際應用中,可以基于最大類間方差法(OTUS)算法,或
者基于直方圖獲取二值化閾值等方法,確定待識別圖像中的背景像素和前景像
素。

其中,OTUS算法的基本原理是:將待識別圖像中的各像素分為兩個像素
堆,使得其中一個像素堆中的任一像素的灰度值均大于另一個像素堆中的任一
像素的灰度值,且這兩個像素堆之間的像素灰度值方差最大。基于直方圖獲取
二值化閾值方法的基本原理是:計算待識別圖像的灰度直方圖,確定該灰度直
方圖中的最高峰和次高峰,將最高峰和次高峰之間的最低的峰谷處對應的灰度
值作為灰度分割閾值,進而可以將各待識別圖像中的各像素分為兩個像素堆。

對于通過以上任一方法確定出的兩個像素堆,可以將位于待識別圖像外側
的像素所屬像素堆中的各像素確定為背景像素,相應的,可以將另一個像素堆
中的各像素確定為前景像素。

在確定出前景像素和背景像素之后,可以通過逐行遍歷各像素,比較每個
像素與相鄰的像素的灰度值的方法,在各背景像素和前景像素中,進一步地確
定出背景邊緣像素、前景邊緣像素、背景內部像素。

在本申請實施例中,根據上述的特定像素之間的距離,可以按照預設規則
組合計算的方式生成多個數據,并將每一個數據作為提取的待識別圖像的一個
特征,進一步的,可以將提取的多個特征用一個多維向量表示,該多維向量中
的每一維的取值分別對應一個所述數據,也即,所述待識別圖像的多維特征向
量。

在本申請實施例中,為了提高數字識別的準確率,可以提取很多個特征,
則提取的所述待識別圖像的多維特征向量的維數也可以較高,可達到上百維,
在后面會對在實際應用中一些可行的具體實施方式進行舉例說明。

S103:根據所述待識別圖像的多維特征向量和生成的訓練模型,對所述待
識別圖像進行數字識別,其中,所述訓練模型包括降維矩陣和降維類中心向量。

在本申請實施例中,可以預先地、或者實時地采集大量各個數字的樣本圖
像,然后對這些樣本圖像進行訓練,生成訓練模型,用于識別所述待識別圖像
中的數字。簡單說來,可以將所述訓練模型視作一個分類器,每個類別分別對
應一個數字,在進行數字識別時,可以向給分類器輸入提取的所述待識別圖像
的多維特征向量,該分類器通過處理確定該多維特征向量所屬的類別,進而,
可以認為待識別圖像中包含有該類別對應的數字。

進一步的,若直接將高維數的多維特征向量用于數字識別,可能會降低數
字識別速度,因此,可以用降維矩陣對所述待識別圖像的多維特征向量進行降
維處理,這樣的話,可以降低數字識別過程中用到的存儲空間,提高數字識別
速度。降維后,可以采用將降維后的多維特征向量(以下簡稱為降維特征向量)
與各類的類中心向量進行匹配的方式,確定降維特征向量所屬的類別,這種匹
配方式準確度較高。其中,所述類中心向量在后面進行詳細解釋。

根據上述分析,所述訓練模型可以包括降維矩陣和降維類中心向量。

通過上述方法,對于所述待識別圖像的多維特征向量,由于其可以有效地
反映出待識別圖像中的數字外部輪廓的形狀、內部輪廓的形狀,以及該數字自
身的各筆畫點之間的相對位置關系,因此,可以提高數字識別的準確率。不僅
如此,由于在數字識別過程中對該多維特征向量進行了降維處理,因此,可以
減少數字識別過程中的數據計算量,提高數字識別速度。

在本申請實施例中,由于數字串是若干個數字(也即,0至9這10個數
字中的任一數字)的組合,若能識別各數字,則也可以實現對數字串的識別。
因此,在上述步驟S101中,獲取待識別圖像,具體包括:對原始圖像進行預
處理,生成設定尺寸的二值圖像,作為待識別圖像,其中,所述待識別圖像的
前景至多包含一個數字。若原始圖像的前景包含多個數字,則可以相應地將原
始圖像分割為多個待識別圖像,分別對各待識別圖像進行數字識別。

在實際應用中,可以采用投影分割的方法將原始圖像分割為多個待識別圖
像,使得每個待識別圖像的前景至多包含一個數字。在此對投影分割的方法進
行簡單說明:可以將原始圖像進行灰度水平投影,然后將灰度水平投影后的原
始圖像的前景中的數字進行逐行分割,再對每一行進行灰度垂直投影,然后對
灰度垂直投影后的每一行中的每個數字進行逐列分割,進而分割出了上述的多
個待識別圖像。

類似的,也可以先對原始圖像進行二值化,然后再將二值化后的原始圖像
分割為多個待識別圖像。

需要說明的是,生成二值圖像可以盡量增大圖像背景像素和前景像素灰度
值之間差異,有利于提高數字識別的準確率。當然,在實際應用中,對于原始
圖像,也可以不做二值化處理,直接進行數字識別。

在本申請實施例中,對于上述步驟S102,根據待識別圖像中各像素之間
的距離,提取所述待識別圖像的多維特征向量,具體包括:根據在待識別圖像
中,背景邊緣像素與前景邊緣像素之間的距離、前景像素與前景邊緣像素之間
的距離、選定方向上背景像素與前景像素的跳變次數,提取所述待識別圖像的
多維特征向量。其中所述前景邊緣像素包括前景外邊緣像素和前景內邊緣像
素。下面對上述的幾大類特征舉例進行說明。

如圖2所示,左側三個待識別圖像的前景包含了數字“8”,最右側的待識
別圖像用陰影部分表示前景。

最左側的待識別圖像中的四個箭頭線段的長度表示了:在待識別圖像的上
下左右四邊上,選定的背景邊緣像素與對應箭頭所指向的前景外邊緣像素之間
的距離(為了便于描述,以下稱為一次外包圍)。

左側起第二個待識別圖像中的四個箭頭線段的長度表示了:在待識別圖像
的上下左右四邊上,選定的背景邊緣像素與對應箭頭所指向的前景內邊緣像素
之間的距離(為了便于描述,以下稱為二次外包圍)。

左側起第三個待識別圖像中的兩個箭頭線段的長度表示了:在待識別圖像
的上邊和左邊上,從選定的背景邊緣像素至對應箭頭所指向的背景邊緣像素所
經過的各像素,根據所述經過的各像素,可以確定在該箭頭方向上背景像素與
前景像素的跳變次數(以下稱為跳變次數),可以看到,左邊箭頭對應的跳變
次數為4次,上邊箭頭對應的跳變次數為6次。

對于最右側的待識別圖像上的任一前景像素,如幾個箭頭的交點處的前景
像素,四個雙箭頭線段分別表示了:該前景像素與對應雙箭頭所指向的前景邊
緣像素之間的距離,其中,該四個雙箭頭對應的方向可以是上下方向、左右方
向、上下方向與左右方向之間設定度數夾角(例如,可以為45度夾角)的兩
個方向。

在實際應用中,可以選取待識別圖像的特定區域的像素,提取上述的這幾
類特征,以及將這幾類特征進行組合形成更多的特征,再將提取的各特征的取
值按照選定的順序表示為多維特征向量。

例如,可以用上述幾大類特征進行組合,總共提取510維的多維特征向量
F[N],其中,N為整數,0≤N<510。該510維特征分別如下:F[0]為在待識
別圖像的列方向上跳變次數的和的1/4,F[1]為在待識別圖像的行方向上跳變
次數的和的1/4,F[2]至F[5]為分別為待識別圖像的上下左右4個方向相鄰行
一次外包圍的距離之差,F[6]至F[9]為待識別圖像的水平方向分成4份,分別
統計的每份中跳變次數小于6次的總數,F[10]至F[13]為待識別圖像的垂直方
向分成4份,分別統計的每份中跳變次數小于6次的總數,F[14]至F[15]為待
識別圖像的左側分成2份,分別統計的每份二次外包圍大于上一行的距離的次
數和,F[16]到F[21]依次是從待識別圖像的右側,上側,下側,按照獲取F[14]
至F[15]的方法獲取,F[22]至F[29]與獲取F[14]至F[21]的方式類似,不過統計
的是二次外包圍小于上一行的距離的次數和,F[30]至F[31]為待識別圖像的左
側分成2份,分別統計的每份一次外包圍大于上一行的距離的次數和,F[32]至
F[37]依次是從待識別圖像的右側,上側,下側,按照獲取F[30]至F[31]的方法
獲取,F[38]至F[45]與獲取F[30]至F[37]的獲取方式類似,不過統計的是一次
外包圍小于上一行的距離的次數和,F[46]到F[53]為待識別圖像的左側分成8
份,分別統計的每份內的二次外包圍距離和,F[54]到F[77]分別為其余三個方
向各分成8份進行二次外包圍距離和,F[78]到F[85]為待識別圖像的左側分成
8份,統計每份內的一次外包圍距離和,F[86]到F[109]為其余3個方向各分成
8份統計一次外包圍距離和,至此共生成110維特征,計算每個前景像素4個
方向延伸到前景外邊緣的像素點和,對待識別圖像進行分塊,塊的大小為4×4,
塊偏移為4,在每個塊內分別統計所有前景像素在4個方向上的距離和,共可
以生成400維特征,即為F[110]至F[509]。以上總計生成待識別圖像的510維
特征。需要說明的是,在實際應用中,可以對這510維特征中的某些特征進行
刪減或重新組合,且這510維特征在多維特征向量F[N]中的排列順序也可以
進行調換。

在本申請實施例中,對于上述步驟S103,可以按照如下方法生成所述訓
練模型:針對0至9這10個數字中的每個數字,分別采集與該數字對應的訓
練樣本,根據針對各所述數字采集的訓練樣本,生成訓練模型。其中,為每個
數字都可以采集多個訓練樣本,為了提高后續生成的訓練模型的適用性和容錯
性,每個數字在其對應的各訓練樣本中的字體可以不相同,所述字體包括但不
限:宋體、楷體、隸書、黑體、點狀字體(常見于機打票據上)、線狀字體(常
見于儀表上)、液晶字體(常見于液晶顯示屏上),等等,這樣的話,即使待識
別圖像上的數字的字體不同,對后續數字識別的準確度影響也較小。

進一步的,根據針對各所述數字采集的訓練樣本,生成訓練模型,具體包
括以下步驟:

S301:針對每個所述數字(整數0至9),提取與該數字對應的各訓練樣
本的多維特征向量,并對所述各訓練樣本的多維特征向量進行聚類,獲得設定
數量個多維特征向量類,以及確定每個所述多維特征向量類的類中心向量,作
為與該數字對應的類中心向量。

所述訓練樣本可以是經過了預處理后的、包含有一個數字的圖像,所述訓
練樣本的尺寸大小可以與所述待識別圖像的尺寸大小相同。提取各訓練樣本的
多維特征向量的方法,與提取待識別圖像的多維特征向量的方法相同。下面對
所述聚類過程進行說明。

一般的,各訓練樣本的多維特征向量可以聚類為10大類,每個大類分別
對應整數0至9中的一個數字。進一步的,由于每個大類中的數字雖然可能相
同,但是數字的字體、顏色等屬性可能不同,在每個大類中的各多維特征向量
在特征分布上差異性可能較大,不利于后續數字識別,則針對這個問題,可以
在每個大類中進行類內聚類,也即,將每個數字對應的大類聚類為多個的小類
(所述小類也可以稱作簇),每個小類中的各多維特征向量在特征分布上差異
性較小,這樣的話,可以提高后續數字識別的精度和準確度。假定將每個大類
聚類成設定數量個小類(將所述設定數量用M表示,M為正整數),為了便于
理解,可以用數字0至9分別表示對應的大類,用01、02、…、0M分別表示數
字0標記的大類所聚類成的M個小類,其他數字標記的大類所聚類成的M個
小類也可以用類似的方法表示,總共有10×M個小類。其中,所述小類即為所
述多維特征向量類。

對于每個大類中的各相同的數字,若有越多的所述各相同的數字相互之間
的外觀差異較大(可能由于字體、顏色等屬性不相同等原因導致),則相應地
可以將對應大類的M設定得越大,這樣的話,在類內聚類后,各數字對應的
多維特征向量有更大的概率落在M個所述多維特征向量類中,而不是落空,
進而也使后續進行數字識別時,待識別圖片中的數字可以更準確地與訓練模型
進行匹配。在實際應用中,一般可以將M設置為30至50之間,后續數字識
別效果較好。

在本申請實施例中,可以采用現有的聚類算法實現上述聚類過程,所述聚
類算法包括但不限于:K-means聚類算法、ROCK聚類算法、Chameleon聚類
算法,等等。例如,當采用K-means聚類算法時,可以基于L1距離進行距離
度量,在這種情況下,假定向量V和向量M中各有m維,向量V中各維分別
為V1、V2、…、Vm,向量M中各維分別為M1、M2、…、Mm,則向量V與向
量M之間的L1距離D為:

<mrow> <mi>D</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <mo>|</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow>

其中,i、m為正整數。

K-means聚類算法的優點是簡單快速,且對于球形類數據簇有較好的聚類
效果。在聚類過程中,可以確定出每個所述多維特征向量類的類中心向量,以
用于后續數字識別。

S302:根據提取的各所述數字的訓練樣本的多維特征向量,生成多維特征
矩陣。

具體的,可以將每個多維特征向量作為生成多維特征矩陣中的一個行向
量,例如,假定多維特征向量的維數為N,訓練樣本的總數量(也即,多維特
征向量的總數量)為S,則可以生成S×N的多維特征矩陣。

S303:采用降維算法,對所述多維特征矩陣進行降維處理,生成降維矩陣。

在本申請實施例中,可以采用現有的降維算法實現降維處理過程,所述降
維算法包括但不限于:線性判別式分析(Linear Discriminant Analysis,LDA)
降維算法、主成分分析(Principal Components Analysis,PCA)降維算法,等
等。例如,當采用LDA降維算法時,其基本原理是將高維特征向量投影到最
佳鑒別矢量空間,以達到提取分類信息和壓縮降低特征向量維數的效果,投影
后保證降維后的高維特征向量在該最佳鑒別矢量空間中有最大的類間距離和
最小的類內距離,對于本申請實施例,可以使所述各多維特征向量在降維后有
最佳的可分離性,而且還可以降低圖像噪聲,節省存儲成本。

S304:根據所述降維矩陣和各所述類中心向量,分別為每個所述類中心向
量生成對應的降維類中心向量。

例如,可以用Ci表示所述類中心向量,用Ci'表示生成的與Ci對應的降維類
中心向量,其中,i為整數,0≤i≤10×M。假定降維前的維數為N,降維后的
維數為N',N和N'均為正整數,N>N'。用WN×N'表示在S303中生成的降維矩
陣,WN×N'為N行N'列的矩陣,則采用以下公式計算Ci':Ci'=Ci×WN×N'。

S305:將所述降維矩陣和各所述降維類中心向量,作為生成的訓練模型。

另外,在實際應用中,為了進一步節省存儲成本,可以將數字識別相關數
據從浮點數轉換為short類型保存,則可降低一半存儲空間,而在載入訓練模
型的時候,再將轉換后的相關數據還原回來。

在本申請實施例中,對于上述步驟S103,可以采用最近鄰分類器的方法
實現。具體的,可以根據所述降維矩陣和所述待識別圖像的多維特征向量,生
成所述待識別圖像的降維特征向量,在各所述降維類中心向量中,基于選定的
向量距離度量方法,確定與所述降維特征向量距離最近的降維類中心向量,作
為最近鄰向量,當所述最近鄰向量與所述降維特征向量之間的距離不大于預設
閾值時,確定所述待識別圖像的前景包含有:所述降維特征向量對應的類中心
向量對應的數字。

繼續用上例進行說明,可以用V1×N表示待識別圖像的多維特征向量,V1×N
為1行N列的行向量,用V'1×N'表示待識別圖像的降維特征向量,V'1×N'為1行N'
列的行向量,則V'1×N'=V1×N×WN×N'。

進一步的,可以基于L1距離,或者歐氏距離等向量距離度量方法,對所
述待識別圖像的降維特征向量進行最近鄰分類。例如,當基于L1距離時,可
采用公式M確定待識別圖像的降維特征向量所對應的多
維特征向量類,可以采用公式度量數字識別結果的可信
度,λ越小,數字識別結果的可信度越高。其中,Vm'表示V'1×N'的第m維的取值,
C'im表示第i個降維類中心向量的第m維的取值。

為了進一步地提高數字識別結果的可靠性和容錯性,也可以在各所述降維
類中心向量中,基于選定的向量距離度量方法,從與所述降維特征向量距離最
近的降維類中心向量開始,按照各降維類中心向量與所述降維特征向量距離從
近至遠的順序,選擇設定數量個降維類中心向量,作為最近鄰向量集合,然后
在所述最近鄰向量集合中,分別確定各降維類中心向量對應的類中心向量對應
的數字,將對應數字相同的降維類中心向量歸為一類,可以將包含降維類中心
向量最多的一類對應的數字,確定為從待識別圖像中識別出的數字。當然,若
對于包含降維類中心向量的一類中的各降維類中心向量,若該各降維類中心向
量與所述降維特征向量之間的平均距離大于所述預設閾值時,可以認為待識別
圖像中可能并不包含數字,而是包含了其他字符。

另外,本申請實施例所提供的數字識別方法,也適用于對除數字之外的其
他字符進行識別,例如英文字母、漢字等等。相應的,在對其他字符進行識別
時,應當還要基于該其他字符對應的訓練樣本生成訓練模型,而不是僅基于0
至9這10數字對應的訓練樣本生成訓練模型,這樣才能保證訓練模型的適用
性和可靠性。

以上為本申請實施例提供的數字識別方法,基于同樣的思路,本申請實施
例還提供相應的數字識別裝置,如圖4所示。

圖4為本申請實施例提供的數字識別裝置結構示意圖,具體包括:

獲取模塊401,用于獲取待識別圖像;

特征提取模塊402,用于根據所述待識別圖像中各像素之間的距離,提取
所述待識別圖像的多維特征向量;

識別模塊403,用于生成訓練模型,并根據所述待識別圖像的多維特征向
量和所述訓練模型,對所述待識別圖像進行數字識別,其中,所述訓練模型包
括降維矩陣和降維類中心向量。

所述獲取模塊401具體用于,對原始圖像進行預處理,生成設定尺寸的二
值圖像,作為待識別圖像,其中,所述待識別圖像的前景至多包含一個數字。

所述特征提取模塊402具體用于,根據在待識別圖像中,背景邊緣像素與
前景邊緣像素之間的距離、前景像素與前景邊緣像素之間的距離、選定方向上
背景像素與前景像素的跳變次數,提取所述待識別圖像的多維特征向量。

所述識別模塊403具體用于,針對0至9這10個數字中的每個數字,分
別采集與該數字對應的訓練樣本,根據針對各所述數字采集的訓練樣本,生成
訓練模型。

所述識別模塊403具體用于,針對每個所述數字,提取與該數字對應的各
訓練樣本的多維特征向量,并對所述各訓練樣本的多維特征向量進行聚類,獲
得設定數量個多維特征向量類,以及確定每個所述多維特征向量類的類中心向
量,作為與該數字對應的類中心向量,根據提取的各所述數字的訓練樣本的多
維特征向量,生成多維特征矩陣,采用降維算法,對所述多維特征矩陣進行降
維處理,生成降維矩陣,根據所述降維矩陣和各所述類中心向量,分別為每個
所述類中心向量生成對應的降維類中心向量,將所述降維矩陣和各所述降維類
中心向量,作為生成的訓練模型。

所述識別模塊403具體用于,根據所述降維矩陣和所述待識別圖像的多維
特征向量,生成所述待識別圖像的降維特征向量,在各所述降維類中心向量中,
基于選定的向量距離度量方法,確定與所述降維特征向量距離最近的降維類中
心向量,作為最近鄰向量,當所述最近鄰向量與所述降維特征向量之間的距離
不大于預設閾值時,確定所述待識別圖像的前景包含有:所述降維特征向量對
應的類中心向量對應的數字。

具體的上述如圖4所示的裝置可以位于終端、服務器上。

本申請實施例提供一種數字識別方法及裝置,該方法獲取待識別圖像,根
據所述待識別圖像中各像素之間的距離,提取所述待識別圖像的多維特征向
量,根據所述待識別圖像的多維特征向量和生成的訓練模型,對所述待識別圖
像進行數字識別,其中,所述訓練模型包括降維矩陣和降維類中心向量。通過
上述方法,對于所述待識別圖像的多維特征向量,由于其可以有效地反映出待
識別圖像中的數字外部輪廓的形狀、內部輪廓的形狀,以及該數字自身的各筆
畫點之間的相對位置關系,因此,可以提高數字識別的準確率。不僅如此,由
于在數字識別過程中對該多維特征向量進行了降維處理,因此,可以減少數字
識別過程中的數據計算量,提高數字識別速度。

本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計
算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結
合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包
含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、
CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。

本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產
品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和
/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/
或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入
式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算
機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一
個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設
備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中
的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個
流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使
得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處
理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個
流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸
出接口、網絡接口和內存。

內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器
(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或閃存(flash
RAM)。內存是計算機可讀介質的示例。

計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任
何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序
的模塊或其他數據。計算機的存儲介質的例子包括,但不限于相變內存
(PRAM)、靜態隨機存取存儲器(SRAM)、動態隨機存取存儲器(DRAM)、其
他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀
存儲器(EEPROM)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器
(CD-ROM)、數字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁
磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質,可用于存儲可以被計算
設備訪問的信息。按照本文中的界定,計算機可讀介質不包括暫存電腦可讀媒
體(transitory media),如調制的數據信號和載波。

還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非
排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包
括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、
方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括
一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設
備中還存在另外的相同要素。

本領域技術人員應明白,本申請的實施例可提供為方法、系統或計算機程
序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例或結合軟件和
硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算
機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、
光學存儲器等)上實施的計算機程序產品的形式。

以上所述僅為本申請的實施例而已,并不用于限制本申請。對于本領域技
術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內所
作的任何修改、等同替換、改進等,均應包含在本申請的權利要求范圍之內。

關 鍵 詞:
一種 數字 識別 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種數字識別方法及裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100822.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图