• / 14
  • 下載費用:30 金幣  

海量網絡文本與非文本圖像分類方法.pdf

摘要
申請專利號:

CN201610541508.1

申請日:

2016.07.12

公開號:

CN106257496A

公開日:

2016.12.28

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06K 9/62申請日:20160712|||公開
IPC分類號: G06K9/62 主分類號: G06K9/62
申請人: 華中科技大學
發明人: 白翔; 石葆光; 章成全
地址: 430074 湖北省武漢市洪山區珞喻路1037號
優先權:
專利代理機構: 華中科技大學專利中心 42201 代理人: 梁鵬
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201610541508.1

授權公告號:

|||

法律狀態公告日:

2017.01.25|||2016.12.28

法律狀態類型:

實質審查的生效|||公開

摘要

本發明公開了一種海量網絡文本與非文本圖像分類方法,首先構建多尺度空間劃分網絡,然后對訓練圖像集中的圖像,獲取圖像的多尺度圖像塊標簽信息,并根據構建的多尺度空間劃分網絡,利用標注好的訓練數據集訓練多尺度空間劃分網絡的網絡參數,然后利用構建的多尺度空間劃分網絡以及訓練得到的網絡參數,對待測試的大規模網絡圖像進行分類,最終獲取圖像的分類結果,對圖像是否為文本圖像做出判決,并獲取文本區域在圖像中的大致位置。本發明方法文本與非文本圖像分類準確率高,且有很高的分類效率。

權利要求書

1.一種海量網絡文本與非文本圖像分類方法,其特征在于,所述方法包含下述步驟:
(1)多尺度空間劃分網絡構建,包括:(1.1)定義多層次特征圖生成子網絡網絡結構;
(1.2)定義多尺度圖像塊特征生成子網絡網絡結構;(1.3)定義文本與非文本圖像塊分類子
網絡網絡結構;(1.4)構建多尺度空間劃分網絡;
(2)多尺度空間劃分網絡訓練:(2.1)對訓練圖像集中的每一張圖像,獲取多尺度圖像
塊標簽信息;(2.2)根據所述多尺度圖像塊標簽信息訓練得到多尺度空間劃分網絡的參數;
(3)文本與非文本圖像分類:根據多尺度空間劃分網絡的參數,利用所述多尺度空間劃
分網絡對待識別文本或者非文本圖像進行分類。
2.根據權利要求1所述的海量網絡文本與非文本圖像分類方法,其特征在于,所述步驟
(1.1)具體為:
(1.1.1)定義圖像特征提取網絡結構:所述的圖像特征提取網絡結構包括五個卷積階
段,其中第一個和第二個卷積階段的網絡結構均為兩個卷積層和一個最大池化層,最后三
個卷積階段的網絡結構均為三個卷積層和一個最大池化層,對輸入圖像I,經過該圖像特征
提取網絡得到各個卷積階段的輸出特征圖,記為其中表示
第s個卷積階段的輸出的特征圖序列,Ms,m表示第m個特征圖,MNums為預設的第s個卷積階段
輸出特征圖的個數;
(1.1.2)定義多層次特征圖生成子網絡網絡結構:對步驟(1.1.1)中所述的圖像特征提
取網絡的后三個卷積階段之后分別接一個反卷積層,將這三個卷積階段的輸出中
的所有特征圖的尺度全部縮放到Wm×Hm大小,所得尺度縮放后的特征圖序列記為
其中Wm和Hm分別表示預設的特征圖尺度縮放后特征圖寬度和高度,
表示第s個卷積階段的輸出特征圖序列FMs中的每個特征圖經過尺度縮放
后得到的特征圖序列,Ms′,m表示FMs中第m個特征圖經過尺度縮放后得到的特征圖,MNums為
預設的第s個卷積階段輸出特征圖的個數,之后將FMS′中的所有特征圖進行堆疊,得到多層
次特征圖,記為其
中M″c表示圖像的多層次特征圖的c個特征圖,MNum=MNum3+MNum4+MNum5,表示多層次特征
圖中特征圖個數。
3.根據權利要求1或2所述的海量網絡文本與非文本圖像分類方法,其特征在于,所述
步驟(1.2)具體為:
(1.2.1)單一尺度圖像塊空間劃分:對步驟(1.1)所述的多層次特征圖生成子網絡得到
的圖像多層次特征圖F,將多層次特征圖劃分為尺度為的圖像塊,劃分方法表示
為:
<mrow> <msup> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
將多層次特征圖劃分為SP=sp×sp個圖像塊,對于劃分的一個圖像塊Fij,在輸入圖像I
中對應的圖像塊Iij計算方法為:
<mrow> <msup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中Fij表示將多層次特征圖進行圖像塊劃分后在第i列、第j行的圖像塊,x和y分別表
示像素點在圖像塊中的橫坐標和縱坐標,Wm和Hm分別表示多層次特征圖的寬度和高度,W和
H分別表示輸入圖像I的寬度和高度,sp為預設的圖像塊劃分尺度;
(1.2.2)多尺度圖像塊空間劃分:預設多個不同的圖像塊劃分尺度,記為
對其中的每個劃分尺度spk,按照步驟(1.2.1)所述的方法,對多層次特征
圖F進行圖像塊空間劃分,得到SPk=spk×spk個圖像塊,通過多尺度圖像塊空間劃分,得到
的所有圖像塊序列為PS,且其中Patchn表示第n個圖像塊,
表示圖像塊總數;
(1.2.3)多尺度圖像塊特征提取:對步驟(1.2.2)中對多層次特征圖F進行多尺度圖像
塊空間劃分得到的圖像塊序列PS中的每一個圖像塊Patch,將圖像塊按行和列分別分割為
Nsp份,則每個圖像塊Patch分割為SPNum=Nsp×Nsp個子圖像塊,記為
其中SubPnsp表示第nsp個子圖像塊,然后利用一個最大池化層將每
個子圖像塊轉換為該子圖像塊對應的特征向量,則得到每個圖像塊Patch對應的子圖像塊
特征向量序列,記為其中SubVnsp表示第nsp個子圖像塊對應的特征
向量,特征向量長度即為所述步驟(1.1.2)中所得的多層次特征圖中特征圖個數MNum,將圖
像塊中所有子圖像塊對應的特征向量進行拼接,得到圖像塊對應的特征向量,記為V=
[SubV1,...,SubVSPNum],則圖像塊特征向量長度為MNum×SPNum,對多尺度圖像塊空間劃分
得到的每一個圖像塊按上述方法提取圖像塊的特征向量,得到所有圖像塊的特征向量集
合,記為其中Vn表示第n個圖像塊對應的特征向量,PNum表示圖像塊總數;
4.根據權利要求1或2所述的海量網絡文本與非文本圖像分類方法,其特征在于,所述
步驟(1.3)具體為:在步驟(1.2)所述的多尺度圖像塊特征生成子網絡之后,接一個由三個
全連接層構成的文本與非文本圖像塊分類網絡,對步驟(1.2)中所得的多尺度圖像塊特征
向量集合VS中的每一個圖像塊特征向量V,通過該文本與非文本圖像塊分類網絡進行分類
判決,得到的輸出Pro表示該圖像塊為文本圖像塊的概率,若Pro>tP,則該圖像塊的分類結
果記為1,否則分類結果為0,由此得到所有圖像塊的分類結果,記為
其中Predn表示第n個圖像塊的分類結果,且Predn∈{0,1},若Predn=0則表示該圖像塊為非
文本圖像塊,Predn=1則表示該圖像塊為文本圖像塊。
5.根據權利要求1或2所述的海量網絡文本與非文本圖像分類方法,其特征在于,所述
步驟(1.4)具體為:將步驟(1.1)至步驟(1.3)中定義的多層次特征圖生成子網絡網絡結構、
多尺度圖像塊特征生成子網絡網絡結構以及文本與非文本圖像塊分類子網絡網絡結構級
聯在一起,構建一個完整的多尺度空間劃分網絡。
6.根據權利要求1或2所述的海量網絡文本與非文本圖像分類方法,其特征在于,所述
步驟(2.1)具體為:
對訓練圖像集中的每一張圖像Itr,用人工標注的方式獲取圖像中文本區
域的位置,記為其中T表示訓練圖像的個數,bbq表示圖像中第q個文本區域
的包圍盒,Q為圖像中文本區域的個數,然后按照步驟(1.2.1)所述的方法,根據步驟
(1.2.2)中預設的多個不同的圖像塊劃分尺度中的每個劃分尺度,對圖像
Itr進行多尺度圖像塊空間劃分,對于空間劃分之后的每一個圖像塊PatchTr,記圖像塊的
面積為SPatchTr,圖像塊的高度為HPatchTr,圖像塊中文本區域的面積為SText,圖像塊中
文本區域的高度為HText,若該圖像塊滿足條件:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>S</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>S</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>S</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>H</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>H</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>H</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>
則標注該圖像塊為文本區域,對應的標簽信息為1,否則標注該圖像塊為非文本區域,
對應的標簽信息為0,其中tS為預設的圖像塊中文本區域占整個圖像塊面積比的閾值,tH為
預設的圖像塊中文本區域的高度與圖像塊高度比的閾值,記多尺度圖像塊標簽信息為
其中lbll表示第l個圖像塊的標簽信息,PNum表示多尺度空間劃分后圖像
塊的個數;
7.根據權利要求1或2所述的海量網絡文本與非文本圖像分類方法,其特征在于,所述
步驟(2.2)具體為:
利用標注好的訓練圖像集χ以及標注好的訓練圖像集中每張訓練圖像的多尺度圖像塊
標簽信息利用反向傳導的方法訓練步驟(1)中構建的多尺度空間劃分網
絡,其中,損失函數計算方法為:
<mrow> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>P</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </munderover> <mrow> <mo>(</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> <mi>log</mi> <mi> </mi> <msub> <mi>pro</mi> <mi>l</mi> </msub> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>pro</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,lbll表示第l個圖像塊的標簽信息,PNum表示多尺度空間劃分后圖像塊的個數,
prol表示第l個圖像塊分類結果為文本圖像塊的概率,為多尺度空間劃分網絡的輸出,訓練
所得的多尺度空間劃分網絡參數記為θ;
8.根據權利要求1或2所述的海量網絡文本與非文本圖像分類方法,其特征在于,所述
步驟(3)具體為:對測試圖像Ite,首先按照步驟(1.2.1)所述的方法,根據步驟(1.2.2)中預
設的多個不同的圖像塊劃分尺度中的每個劃分尺度,對圖像Itr進行多尺
度圖像塊空間劃分,記空間劃分之后得到的所有圖像塊的集合為
然后利用步驟(1)中構建的多尺度空間劃分網絡以及步驟(2)中訓練得到的多尺度空間劃
分網絡的參數θ,得到測試圖像的分類判決結果其中PredTer表示
測試圖像中第r個圖像塊的預測結果,PNum表示多尺度圖像塊空間劃分后的圖像塊個數,
SubPS中所有預測結果為1的圖像塊集合TextPS即為輸入圖像Ite中所有文本圖像塊集合,
由此得到圖像中文本區域的大致位置以及文本區域的尺度信息,如果TextPS不為空,則該
測試圖像的分類結果為文本圖像,否則測試圖像的分類結果為非文本圖像。

說明書

海量網絡文本與非文本圖像分類方法

技術領域

本發明屬于計算機視覺技術領域,更具體地,涉及一種海量網絡文本與非文本圖
像分類方法。

背景技術

隨著電視、互聯網的飛速發展,人類社會已經逐漸邁入了信息時代,今后,人類的
經濟生活將以信息的占有、配置、生產、使用為主。而隨著信息時代的到來,越來越多的圖像
視頻數據以各式各樣的途徑傳播,而這些數據包含大量的有用信息,如何從這些海量的數
據中提取出這些有用的信息,將是信息時代人類能否快速高效地獲取更多收益的關鍵。當
前互聯網中提供了海量的視頻、圖像數據,而這些海量的網絡視頻幀與網絡圖像中的文本
作為一種極其重要的信息來源,可以被用來輔助于多種實際應用,包括圖像檢索、人機交互
和駕駛導航系統等等。

現有的獲取圖像中的文本信息的方法主要包含文本檢測和文本識別兩部分,因此
這兩個圖像文本自動閱讀的主要技術的研究一直是計算機領域備受關注的課題。然而,在
海量傳播的數據中,只有極少部分的圖像包含文本,而現有的文本檢測和文本識別方法受
限于提取圖像中文本信息的速度,很難直接用于提取這些數據中的有用文本信息,因此關
于文本與非文本圖像分類算法的研究具備較高的現實意義和使用價值。

發明內容

本發明的目的在于提供一種海量網絡文本與非文本圖像分類方法,該方法文本與
非文本圖像分類過程簡單易行,且分類準確率高。

為實現上述目的,本發明提供了一種海量網絡文本與非文本圖像分類方法,包括
如下步驟:

(1)多尺度空間劃分網絡構建,所述的多尺度空間劃分網絡包括多層次特征圖生
成子網絡、多尺度圖像塊特征生成子網絡以及文本與非文本圖像塊分類子網絡:

(1.1)定義多層次特征圖生成子網絡網絡結構;

(1.1.1)定義圖像特征提取網絡結構;

具體地,所述的圖像特征提取網絡結構包括五個卷積階段,其中第一個和第二個
卷積階段的網絡結構均為兩個卷積層和一個最大池化層,最后三個卷積階段的網絡結構均
為三個卷積層和一個最大池化層,對輸入圖像I,經過該圖像特征提取網絡可以得到各個卷
積階段的輸出特征圖,記為其中表示第s個卷積階段的輸
出的特征圖序列,Ms,m表示第m個特征圖,MNums為預設的第s個卷積階段輸出特征圖的個數;

(1.1.2)定義多層次特征圖生成子網絡網絡結構;

具體地,對步驟(1.1.1)中所述的圖像特征提取網絡的第三個、第四個和第五個網
絡階段之后分別接一個反卷積層,將這三個卷積階段的輸出中的所有特征圖的尺
度全部縮放到Wm×Hm大小,所得尺度縮放后的特征圖序列記為其中Wm和
Hm分別表示預設的特征圖尺度縮放后特征圖的寬度和高度,表示第s個卷
積階段的輸出特征圖序列FMs中的每個特征圖經過尺度縮放后得到的特征圖序列,M′s,m表
示FMs中第m個特征圖經過尺度縮放后得到的特征圖,MNums為預設的第s個卷積階段輸出特
征圖的個數,之后將FMS′中的所有特征圖進行堆疊,得到多層次特征圖,記為
其中M″c表示圖像的
多層次特征圖的c個特征圖,MNum=MNum3+MNum4+MNum5,表示多層次特征圖中特征圖個數;

(1.2)定義多尺度圖像塊特征生成子網絡網絡結構;

(1.2.1)單一尺度圖像塊空間劃分;

具體地,對步驟(1.1)所述的多層次特征圖生成子網絡得到的圖像多層次特征圖
F,將多層次特征圖劃分為尺度為的圖像塊,劃分方法表示為:

<mrow> <msup> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

這樣,可以將多層次特征圖劃分為SP=sp×sp個圖像塊,對于劃分的一個圖像塊
Fij,在輸入圖像I中對應的圖像塊Iij計算方法為:

<mrow> <msup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中Fij表示將多層次特征圖進行圖像塊劃分后在第i列、第j行的圖像塊,x和y分
別表示像素點在圖像塊中的橫坐標和縱坐標,Wm和Hm分別表示多層次特征圖的寬度和高
度,W和H分別表示輸入圖像I的寬度和高度,sp為預設的圖像塊劃分尺度;

(1.2.2)多尺度圖像塊空間劃分;

具體地,預設多個不同的圖像塊劃分尺度,記為對其中的每個劃
分尺度spk,按照步驟(1.2.1)所述的方法,對多層次特征圖F進行圖像塊空間劃分,可以得
到SPk=spk×spk個圖像塊,通過多尺度圖像塊空間劃分,得到的所有圖像塊序列為PS,且
其中Patchn表示第n個圖像塊,表示圖像塊總數;

(1.2.3)多尺度圖像塊特征提取;

具體地,對步驟(1.2.2)中對多層次特征圖F進行多尺度圖像塊空間劃分得到的圖
像塊序列PS中的每一個圖像塊Patch,將圖像塊按行和列分別分割為Nsp份,則每個圖像塊
Patch可以分割為SPNum=Nsp×Nsp個子圖像塊,記為其中SubPnsp表
示第nsp個子圖像塊,然后利用一個最大池化層將每個子圖像塊轉換為該子圖像塊對應的
特征向量,則可以得到每個圖像塊Patch對應的子圖像塊特征向量序列,記為
其中SubVnsp表示第nsp個子圖像塊對應的特征向量,特征向量長度
即為所述步驟(1.1.2)中所得的多層次特征圖中特征圖個數MNum,將圖像塊中所有子圖像
塊對應的特征向量進行拼接,可以得到圖像塊對應的特征向量,記為V=[SubV1,...,
SubVSPNum],則圖像塊特征向量長度為MNum×SPNum,對多尺度圖像塊空間劃分得到的每一個
圖像塊按上述方法提取圖像塊的特征向量,得到所有圖像塊的特征向量集合,記為
其中Vn表示第n個圖像塊對應的特征向量,PNum表示圖像塊總數;

(1.3)定義文本與非文本圖像塊分類子網絡網絡結構;

具體地,在步驟(1.2)所述的多尺度圖像塊特征生成子網絡之后,接一個由三個全
連接層構成的文本與非文本圖像塊分類網絡,對步驟(1.2)中所得的多尺度圖像塊特征向
量集合VS中的每一個圖像塊特征向量V,通過該文本與非文本圖像塊分類網絡進行分類判
決,得到的輸出Pro表示該圖像塊為文本圖像塊的概率,若Pro>tP,則該圖像塊的分類結果
記為1,否則分類結果為0,由此可以得到所有圖像塊的分類結果,記為
其中Predn表示第n個圖像塊的分類結果,且Predn∈{0,1},若Predn=
0則表示該圖像塊為非文本圖像塊,Predn=1則表示該圖像塊為文本圖像塊;

(1.4)構建多尺度空間劃分網絡;

具體地,將步驟(1.1)至步驟(1.3)中定義的多層次特征圖生成子網絡網絡結構、
多尺度圖像塊特征生成子網絡網絡結構以及文本與非文本圖像塊分類子網絡網絡結構級
聯在一起,即為一個完整的多尺度空間劃分網絡;

(2)多尺度空間劃分網絡訓練:

(2.1)對訓練圖像集中的每一張圖像,獲取多尺度圖像塊標簽信息;

具體地,對訓練圖像集中的每一張圖像Itr,用人工標注的方式獲取
圖像中文本區域的位置,記為其中T表示訓練圖像的個數,bbq表示圖像中
第q個文本區域的包圍盒,Q為圖像中文本區域的個數,然后按照步驟(1.2.1)所述的方法,
根據步驟(1.2.2)中預設的多個不同的圖像塊劃分尺度中的每個劃分尺
度,對圖像Itr進行多尺度圖像塊空間劃分,對于空間劃分之后的每一個圖像塊PatchTr,記
圖像塊的面積為SPatchTr,圖像塊的高度為HPatchTr,圖像塊中文本區域的面積為SText,
圖像塊中文本區域的高度為HText,若該圖像塊滿足條件:

<mfenced open = '{' close = ''> <mtable> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>S</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>S</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>S</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>H</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>H</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>H</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>

則標注該圖像塊為文本區域,對應的標簽信息為1,否則標注該圖像塊為非文本區
域,對應的標簽信息為0,其中tS為預設的圖像塊中文本區域占整個圖像塊面積比的閾值,
tH為預設的圖像塊中文本區域的高度與圖像塊高度比的閾值,記多尺度圖像塊標簽信息為
其中lbll表示第l個圖像塊的標簽信息,PNum表示多尺度空間劃分后圖像
塊的個數;

(2.2)訓練得到多尺度空間劃分網絡的參數;

具體地,利用標注好的訓練圖像集χ以及標注好的訓練圖像集中每張訓練圖像的
多尺度圖像塊標簽信息利用反向傳導的方法訓練步驟(1)中構建的多尺度
空間劃分網絡,其中,損失函數計算方法為:

<mrow> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>P</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </munderover> <mrow> <mo>(</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> <mi>log</mi> <mi> </mi> <msub> <mi>pro</mi> <mi>l</mi> </msub> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mi>log</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>pro</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中,lbll表示第l個圖像塊的標簽信息,PNum表示多尺度空間劃分后圖像塊的個
數,prol表示第l個圖像塊分類結果為文本圖像塊的概率,為多尺度空間劃分網絡的輸出,
訓練所得的多尺度空間劃分網絡參數記為θ;

(3)文本與非文本圖像分類:

具體地,對測試圖像Ite,首先按照步驟(1.2.1)所述的方法,根據步驟(1.2.2)中
預設的多個不同的圖像塊劃分尺度中的每個劃分尺度,對圖像Itr進行多
尺度圖像塊空間劃分,記空間劃分之后得到的所有圖像塊的集合為
然后利用步驟(1)中構建的多尺度空間劃分網絡以及步驟(2)中
訓練得到的多尺度空間劃分網絡的參數θ,得到測試圖像的分類判決結果
其中PredTer表示測試圖像中第r個圖像塊的預測結果,PNum表示
多尺度圖像塊空間劃分后的圖像塊個數,SubPS中所有預測結果為1的圖像塊集合TextPS即
為輸入圖像Ite中所有文本圖像塊集合,由此可以得到圖像中文本區域的大致位置以及文
本區域的尺度信息,如果TextPS不為空,則該測試圖像的分類結果為文本圖像,否則測試圖
像的分類結果為非文本圖像。

通過本發明所構思的以上技術方案,與現有技術相比,本發明具有以下技術效果:

(1)現有的海量網絡文本與非文本圖像分類方法通常首先需要提取圖像中候選的
類文字區域,然后通過分類等方法對這些候選區域進行過濾,最后通過對候選區域的分類
判決來完成對圖像是否為文本圖像的預測;本發明方法首先構建了一個端到端、可訓練的
多尺度空間劃分網絡,通過這個網絡就能實現以圖像為輸入,并對圖像進行圖像塊級別的
預測,最終得到圖像的分類判別結果以及文本在圖像中的大致位置,從而可以端到端的做
到文本與非文本圖像的判別;因此本發明方法實現更加簡潔;

(2)由于圖像中通常存在非常多的類文字區域,而現有的海量網絡文本與非文本
圖像分類方法提取圖像中的候選類文字區域,并采用聚類、分類等方法對所有的候選區域
進行過濾分類,得到最終的分類結果,因此這類方法處理速度非常慢,且這類算法很容易受
到光照等環境因素的影響;本發明方法采用對光照等外界條件有很強的魯棒性的卷積神經
網絡的方法,通過人工對圖像進行空間劃分,并對每個劃分的圖像塊進行分類,避免了魯棒
性較差的類文字區域提取過程;因此本發明方法具有很高的分類準確率以及非常高效的處
理速度,且具有很強的魯棒性;

(3)本發明關于海量網絡文本與非文本圖像的判別結果,不僅包含圖像是否為文
本圖像的信息,還能夠指出文字在圖片中的大致位置和尺度信息,為后續文字檢測環節大
大縮小文字搜索范圍。

附圖說明

圖1是本發明方法構建的多尺度空間劃分網絡結構圖。

具體實施方式

為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對
本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并
不用于限定本發明。此外,下面所描述的本發明各個實施方式中所涉及到的技術特征只要
彼此之間未構成沖突就可以相互組合。

本發明海量網絡文本與非文本圖像分類方法包括以下步驟:

(1)多尺度空間劃分網絡構建,所述的多尺度空間劃分網絡包括多層次特征圖生
成子網絡、多尺度圖像塊特征生成子網絡以及文本與非文本圖像塊分類子網絡:

(1.1)定義多層次特征圖生成子網絡網絡結構;

(1.1.1)定義圖像特征提取網絡結構;

具體地,所述的圖像特征提取網絡結構包括五個卷積階段,其中第一個和第二個
卷積階段的網絡結構均為兩個卷積層和一個最大池化層,最后三個卷積階段的網絡結構均
為三個卷積層和一個最大池化層,對輸入圖像I,經過該圖像特征提取網絡可以得到各個卷
積階段的輸出特征圖,記為其中表示第s個卷積階段的輸
出的特征圖序列,Ms,m表示第m個特征圖,MNums為預設的第s個卷積階段輸出特征圖的個數;

(1.1.2)定義多層次特征圖生成子網絡網絡結構;

具體地,對步驟(1.1.1)中所述的圖像特征提取網絡的第三個、第四個和第五個網
絡階段之后分別接一個反卷積層,將這三個卷積階段的輸出中的所有特征圖的尺
度全部縮放到Wm×Hm大小,所得尺度縮放后的特征圖序列記為其中Wm和
Hm分別表示預設的特征圖尺度縮放后特征圖的寬度和高度,表示第s個卷
積階段的輸出特征圖序列FMs中的每個特征圖經過尺度縮放后得到的特征圖序列,M′s,m表
示FMs中第m個特征圖經過尺度縮放后得到的特征圖,MNums為預設的第s個卷積階段輸出特
征圖的個數,之后將FMS′中的所有特征圖進行堆疊,得到多層次特征圖,記為
其中M″c表示圖像的
多層次特征圖的c個特征圖,MNum=MNum3+MNum4+MNum5,表示多層次特征圖中特征圖個數;

(1.2)定義多尺度圖像塊特征生成子網絡網絡結構;

(1.2.1)單一尺度圖像塊空間劃分;

具體地,對步驟(1.1)所述的多層次特征圖生成子網絡得到的圖像多層次特征圖
F,將多層次特征圖劃分為尺度為的圖像塊,劃分方法表示為:

<mrow> <msup> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

這樣,可以將多層次特征圖劃分為SP=sp×sp個圖像塊,對于劃分的一個圖像塊
Fij,在輸入圖像I中對應的圖像塊Iij計算方法為:

<mrow> <msup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中Fij表示將多層次特征圖進行圖像塊劃分后在第i列、第j行的圖像塊,x和y分
別表示像素點在圖像塊中的橫坐標和縱坐標,Wm和Hm分別表示多層次特征圖的寬度和高
度,W和H分別表示輸入圖像I的寬度和高度,sp為預設的圖像塊劃分尺度;

(1.2.2)多尺度圖像塊空間劃分;

具體地,預設多個不同的圖像塊劃分尺度,記為對其中的每個劃
分尺度spk,按照步驟(1.2.1)所述的方法,對多層次特征圖F進行圖像塊空間劃分,可以得
到SPk=spk×spk個圖像塊,通過多尺度圖像塊空間劃分,得到的所有圖像塊序列為PS,且
其中Patchn表示第n個圖像塊,表示圖像塊總數;

(1.2.3)多尺度圖像塊特征提取;

具體地,對步驟(1.2.2)中對多層次特征圖F進行多尺度圖像塊空間劃分得到的圖
像塊序列PS中的每一個圖像塊Patch,將圖像塊按行和列分別分割為Nsp份,則每個圖像塊
Patch可以分割為SPNum=Nsp×Nsp個子圖像塊,記為其中SubPnsp表
示第nsp個子圖像塊,然后利用一個最大池化層將每個子圖像塊轉換為該子圖像塊對應的
特征向量,則可以得到每個圖像塊Patch對應的子圖像塊特征向量序列,記為
其中SubVnsp表示第nsp個子圖像塊對應的特征向量,特征向量長度
即為所述步驟(1.1.2)中所得的多層次特征圖中特征圖個數MNum,將圖像塊中所有子圖像
塊對應的特征向量進行拼接,可以得到圖像塊對應的特征向量,記為V=[SubV1,...,
SubVSPNum],則圖像塊特征向量長度為MNum×SPNum,對多尺度圖像塊空間劃分得到的每一個
圖像塊按上述方法提取圖像塊的特征向量,得到所有圖像塊的特征向量集合,記為
其中Vn表示第n個圖像塊對應的特征向量,PNum表示圖像塊總數;

(1.3)定義文本與非文本圖像塊分類子網絡網絡結構;

具體地,在步驟(1.2)所述的多尺度圖像塊特征生成子網絡網絡之后,接一個由三
個全連接層構成的文本與非文本圖像塊分類網絡,對步驟(1.2)中所得的多尺度圖像塊特
征向量集合VS中的每一個圖像塊特征向量V,通過該文本與非文本圖像塊分類網絡進行分
類判決,得到的輸出Pro表示該圖像塊為文本圖像塊的概率,若Pro>tP,則該圖像塊的分類
結果記為1,否則分類結果為0,由此可以得到所有圖像塊的分類結果,記為
其中Predn表示第n個圖像塊的分類結果,且Predn∈{0,1},若Predn=
0則表示該圖像塊為非文本圖像塊,Predn=1則表示該圖像塊為文本圖像塊;

(1.4)構建多尺度空間劃分網絡;

具體地,將步驟(1.1)至步驟(1.3)中定義的多層次特征圖生成子網絡網絡結構、
多尺度圖像塊特征生成子網絡網絡結構以及文本與非文本圖像塊分類子網絡網絡結構級
聯在一起,如圖1所示,即為一個完整的多尺度空間劃分網絡;

(2)多尺度空間劃分網絡訓練:

(2.1)對訓練圖像集中的每一張圖像,獲取多尺度圖像塊標簽信息;

具體地,對訓練圖像集中的每一張圖像Itr,用人工標注的方式獲取
圖像中文本區域的位置,記為其中T表示訓練圖像的個數,bbq表示圖像中
第q個文本區域的包圍盒,Q為圖像中文本區域的個數,然后按照步驟(1.2.1)所述的方法,
根據步驟(1.2.2)中預設的多個不同的圖像塊劃分尺度中的每個劃分尺
度,對圖像Itr進行多尺度圖像塊空間劃分,對于空間劃分之后的每一個圖像塊PatchTr,記
圖像塊的面積為SPatchTr,圖像塊的高度為HPatchTr,圖像塊中文本區域的面積為SText,
圖像塊中文本區域的高度為HText,若該圖像塊滿足條件:

<mfenced open = '{' close = ''> <mtable> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>S</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>S</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>S</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>H</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>H</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>H</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>

則標注該圖像塊為文本區域,對應的標簽信息為1,否則標注該圖像塊為非文本區
域,對應的標簽信息為0,其中tS為預設的圖像塊中文本區域占整個圖像塊面積比的閾值,
tH為預設的圖像塊中文本區域的高度與圖像塊高度比的閾值,記多尺度圖像塊標簽信息為
其中lbll表示第l個圖像塊的標簽信息,PNum表示多尺度空間劃分后圖像
塊的個數;

(2.2)訓練得到多尺度空間劃分網絡的參數;

具體地,利用標注好的訓練圖像集χ以及標注好的訓練圖像集中每張訓練圖像的
多尺度圖像塊標簽信息利用反向傳導的方法訓練步驟(1)中構建的多尺度
空間劃分網絡,其中,損失函數計算方法為:

<mrow> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>P</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </munderover> <mrow> <mo>(</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> <mi>log</mi> <mi> </mi> <msub> <mi>pro</mi> <mi>l</mi> </msub> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mi>log</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>pro</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中,lbll表示第l個圖像塊的標簽信息,PNum表示多尺度空間劃分后圖像塊的個
數,prol表示第l個圖像塊分類結果為文本圖像塊的概率,為多尺度空間劃分網絡的輸出,
訓練所得的多尺度空間劃分網絡參數記為θ;

(3)文本與非文本圖像分類:

具體地,對測試圖像Ite,首先按照步驟(1.2.1)所述的方法,根據步驟(1.2.2)中
預設的多個不同的圖像塊劃分尺度中的每個劃分尺度,對圖像Itr進行多
尺度圖像塊空間劃分,記空間劃分之后得到的所有圖像塊的集合為
然后利用步驟(1)中構建的多尺度空間劃分網絡以及步驟(2)中訓
練得到的多尺度空間劃分網絡的參數θ,得到測試圖像的分類判決結果
其中PredTer表示測試圖像中第r個圖像塊的預測結果,PNum表示
多尺度圖像塊空間劃分后的圖像塊個數,SubPS中所有預測結果為1的圖像塊集合TextPS即
為輸入圖像Ite中所有文本圖像塊集合,由此可以得到圖像中文本區域的大致位置以及文
本區域的尺度信息,如果TextPS不為空,則該測試圖像的分類結果為文本圖像,否則測試圖
像的分類結果為非文本圖像。

本領域的技術人員容易理解,以上所述僅為本發明的較佳實施例而已,并不用以
限制本發明,凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含
在本發明的保護范圍之內。

關 鍵 詞:
海量 網絡 文本 圖像 分類 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:海量網絡文本與非文本圖像分類方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100834.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图