• / 14
  • 下載費用:30 金幣  

基于時空聯合信息的無參考視頻質量評估方法.pdf

摘要
申請專利號:

CN201510307504.2

申請日:

2015.06.05

公開號:

CN106303507A

公開日:

2017.01.04

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):H04N 17/00申請日:20150605|||公開
IPC分類號: H04N17/00; G06T7/00 主分類號: H04N17/00
申請人: 江蘇惠緯訊信息科技有限公司; 中國人民解放軍理工大學
發明人: 吳澤民; 邱正倫; 彭濤頻; 田暢; 胡磊; 劉熹
地址: 210000 江蘇省南京市白下區光華路1號白下高新園區創新園孵化大樓A區131室
優先權:
專利代理機構: 南京理工大學專利中心 32203 代理人: 唐代盛
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510307504.2

授權公告號:

||||||

法律狀態公告日:

2019.01.22|||2017.02.01|||2017.01.04

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種基于時空聯合信息的無參考視頻質量評估方法,即在離線訓練階段建立基于聯合時空特性的視頻質量估計器,采用視頻質量估計器對待評估質量的視頻進行在線評估,首先按與離線訓練相同的方法,計算形成未知質量的視頻片段的全局特征向量,然后把該全局特征向量輸入基于聯合時空特性的視頻質量估計器,輸出值即為該段未知質量視頻片段的客觀質量估計值。本發明在對受損視頻進行質量評估時,不需要無損視頻片段作為參考;更多地保留了視頻片段的時空信息,符合HVS視覺感知的多通道特性。

權利要求書

1.一種基于時空聯合信息的無參考視頻質量評估方法,其特征在于在離線訓練階段建立基于聯合時空特性的視頻質量估計器,采用視頻質量估計器對待評估質量的視頻進行在線評估,具體步驟如下:第一步,離線訓練過程為:(1)局部三維塊LTDB劃分:將當前視頻片段劃分為以局部三維塊LTDB為單位的特征提取單元;(2)空間特征提取:計算LTDB每幀的對比度敏感函數CSF系數,計算LTDB內所有空間局部塊的CSF系數的算術平均和方差,作為LTDB空間質量特征;(3)空時特征提取:以LTDB為單位進行3D DCT變換,對完成變換的系數分為直流信息和非直流信息;對直流信息直接作為LTDB的平均亮度特征;對非直流信息按不同頻率分類,對每類系數進行高斯分布參數擬合;獲取不同頻率分類的均值和方差,把每類系數的擬合參數進行級聯,構成當前LTDB的空時質量特征;(4)分別將LTDB空間質量特征、空時質量特征進行級聯,匯聚形成LTDB特征向量;(5)把視頻片段按時間順序和空間相鄰進行分割,依次計算LTDB特征向量,形成LTDB特征向量序列;所有LTDB特征向量進行算術平均,構成時空均值向量;將相鄰的LTDB特征向量相減并取絕對值,形成絕對差值向量;把所有絕對差值向量進行算術平均,構成視頻片段的時空差值向量;視頻片段的時空均值向量與視頻片段的時空差值向量進行級聯,匯聚形成當前視頻片段的全局特征向量;(6)把多個視頻片段的全局特征向量及其對應的視頻質量主觀差異評分值,輸入到支持向量回歸器中,訓練形成基于聯合時空特性的視頻質量估計器;第二步,在線評估過程為:首先按與離線訓練相同的方法,計算形成未知質量的視頻片段的全局特征向量,然后把該全局特征向量輸入基于聯合時空特性的視頻質量估計器,輸出值即為該段未知質量視頻片段的客觀質量估計值。2.根據權利要求1所述的基于時空聯合信息的無參考視頻質量評估方法,其特征在于局部三維塊LTDB劃分的方法為:在當前視頻片段中,從t時刻開始的幀,在空間上取b×b的局部正方形區域、在時間上取t幀到t+τ幀構成時空立方體,取該時空立方體內的視頻數據,構成 局部三維塊LTDB,每個時空圖像塊中共有b×b×τ個像素,用fm,n,t表示;其中m是空間維的橫向分量,取值范圍0到b-1;n是空間維的縱向分量,取值范圍0到b-1;t是時間維分量,取值范圍0到τ-1,這樣時間上連續的τ個幀可以構成 個時空立方體,其中M和N分別是用像素數量度量的幀的寬度和高度,表示下取整,用Pk,t表示視頻從t幀到t+τ幀視頻的第k個LTDB。3.根據權利要求1所述的基于時空聯合信息的無參考視頻質量評估方法,其特征在于空間特征提取是以CSF系數特征的提取為前提,而CSF系數的求取是建立在空間頻率的基礎上,對空間頻率進行感知加權濾波:1)空間頻率的計算空間頻率劃分為水平空間頻率、垂直空間頻率、對角空間頻率,對于尺度為H×W的視頻幀,H為該幀垂直方向的尺度,W為該幀水平方向的尺度,單位為像素,在位置h×w處的像素值為fh,w,其中w是像素的水平位置,h是像素的垂直位置,當前幀空間頻率定義如下:其中hf為水平空間頻率,vf為垂直空間頻率,df為對角空間頻率:2)CSF系數特征提取CSF(f)函數是模擬人眼的感知特征,對空間頻率進行帶通濾波,CSF(f)與空間頻率系數滿足:其中,fi表示時空三維塊LTDB第i幀的空間頻率;對于LTDB所有幀的CSF值求取均值Cmean和方差Cstd作為該時段的空間特征,其中Cmean和Cstd求取公式如下:4.根據權利要求1所述的基于時空聯合信息的無參考視頻質量評估方法,其特征在于空時特征提取是以每一個LTDB的3D DCT變換后的系數信息為參考,進行特征提取:1)3D DCT變換對每個LTDB時空立方體進行3D DCT變換,形成的3D DCT變換的系數集合,3D DCT變換表示為:其中:變換后,形成的3D DCT系數為C(u,v,w)b×b×τ,u,v,w是表示頻率的下標;2)LTDB頻率系數特征提取3D DCT變換后的頻率系數包含視頻的空時質量特征信息,用于構建反映視頻空時受損情況的質量特征,對3D DCT系數按照頻率的大小可分割為直流信息、低頻信息、中頻信息和高頻信息四種類型,其中直流信息反映該LTDB的平均亮度,低頻信息、中頻信息和高頻信息反映該LTDB的空時質量特征;將除直流外的頻率信息從低頻至高頻共分為Q段,32≥Q≥1,以Q=9、LTDB尺度采用17×17×17說明提取過程;單個LTDB大小為17×17×17,所以,水平頻率系數u∈[0,1,2......16],垂直頻率系數v∈[0,1,2......16],時間頻率系數w∈[0,1,2......16],由此可得直流系數fdc fdc={u,v,w|u+v+w=0},直流系數fdc作為單個LTDB圖像組的平均亮度信息特征;將低頻至高頻頻率系數總共劃分為9類,即{f1,f2,f3......,f8,f9},低頻至高頻頻率系數的劃分按照步長2進行劃分,詳細劃分方法為:fi={u,v,w|2i-1≤u+v+w≤2i,1≤i≤9} (9)所以,有f1={u,v,w|1≤u+v+w≤2} (10)f2={u,v,w|3≤u+v+w≤4} (11)f3={u,v,w|5≤u+v+w≤6} (12)f4={u,v,w|7≤u+v+w≤8} (13)f5={u,v,w|9≤u+v+w≤10} (14)f6={u,v,w|11≤u+v+w≤12} (15)f7={u,v,w|13≤u+v+w≤14} (16)f8={u,v,w|15≤u+v+w≤16} (17)f9={u,v,w|17≤u+v+w≤18} (18)對從t到t+τ的幀視頻形成的第k個LTDB做3D DCT變換后,把LTDB的變換系數按上述方法從低頻至高頻進行分類和匯總,得到9個頻率系數集合,每個系數集合用高斯分布對其進行參數擬合,使其服從:λ=σ2 (20)其中μ表示均值,σ表示標準差,λ表示方差;每個系數集合擬合形成兩個分布參數,包括均值μ和方差λ,9個系數集合總共形成18個分布參數,把這18個分布參數級聯,形成的18維向量:[λ1,μ1,λ2,μ2,...,λ8,μ8,λ9,μ9] (21) 。5.根據權利要求1所述的基于時空聯合信息的無參考視頻質量評估方法,其特征在于LTDB特征向量匯聚方法為:將對比度敏感系數CSF擬合參數信息、直流 信息、頻率系數擬合參數信息進行級聯得到時間從t開始第k個LTDB特征向量:ft,k=[Cmean,Cstd,fdc,λ1,μ1,λ2,μ2,...,λ8,μ8,λ9,μ9]。 (22)6.根據權利要求1所述的基于時空聯合信息的無參考視頻質量評估方法,其特征在于視頻片段的特征向量匯聚方法為:對于視頻片段,按時間順序依次形成LTDB特征向量,所有LTDB特征向量的集合表示為{Fi,i=1,2,...,K},K表示視頻片段的LTDB個數,計算公式如下:以LTDB特征向量為基礎,構造視頻片段的特征表示,假設視頻片段足夠長,分割形成足夠多的LTDB特征向量,以LTDB特征向量為對象,計算整個視頻片段的LTDB特征向量的均值:其中每個Fi是集合{Fi}中第i個特征向量,按公式(24)形成的向量MF,被稱為視頻片段的空時平均向量;構造相鄰LTDB特征向量的差值向量,其中差值向量需要進行逐個元素取絕對值,然后把所有差值向量取均值:其中每個Fi是集合{Fi}中第i個特征向量,按公式(25)形成的向量DF,被稱為視頻片段的空時差值向量,把空時平均向量和空時差值向量進行級聯,形成視頻片段的特征向量:VF=[MFT,DFT]T (26) 。7.根據權利要求1所述的基于時空聯合信息的無參考視頻質量評估方法,其特征在于基于聯合時空特性的視頻質量估計器的訓練方法為:利用帶主觀視頻質量評分值的訓練視頻庫,完成客觀視頻質量估計器的訓練,即對訓練視頻庫中的每段視頻計算它的視頻片段特征向量VFl,其對應的主觀質量評分MOSl值已知,把視頻片段特征向量集合{VFl,l=1,……L}和對應的主觀質量評分集合{MOSl,l=1,..,L}送入支持向量回歸器,完成視頻質量估計器的訓練,其中L是 訓練視頻的數量。

說明書

基于時空聯合信息的無參考視頻質量評估方法

技術領域

本發明屬于視頻分析技術領域,特別是一種基于時空聯合信息的無參考視頻
質量評估方法。

背景技術

客觀視頻質量評估是模擬人的主觀視頻質量評價過程,對任意視頻的質量進
行算法評分的過程。由于主觀質量平均過程耗費大量時間、人力物力資源,使用
范圍非常受限。而客觀視頻質量評估由計算機自動完成,具有很好的使用效能。
通常人對視頻質量的評分用主觀平均分(Mean Opinion Score,MOS)值表示,
是取值在0到5的實數,0表示最低質量,5表示最高質量。一般也可使用主觀
差異評分DMOS來表示視頻質量。視頻質量評估對多媒體應用具有重要的意義,
可以用于評價視頻編碼算法性能、視頻傳輸網絡性能、視頻顯示設備性能等。

以VSSIM[文獻1:Farenzena M,Bazzani L,Perina A,et al.Video Quality
Assessment Based on StructuralDistortion Measurement.Signal Processing:Image
Communication,Vol.19,No.1,Jan 2004,pp:1-9]為代表的視頻質量評估方法,用單
幀的全局速度計算加權系數,完成從幀到視頻的質量指標匯聚。這類方法把空間
和時間作為兩個不同的因素進行處理,缺乏明顯的視覺心理學支持。以VIS3[文
獻2:PhongV.Vu,Chandler D.M,ViS3:an Agorithm for VdeoQalityAssessment via
Analysis of Spatial and Spatiotemporal Slices.Journal of Electronic Imaging,Vol23,
No.1,Jan,2014,PP:1-24]為代表的方法,構造了空間平均指標和時空平均指標,
把最終的視頻指標設計為空間平均指標和時空平均指標的幾何平均。VIS3更多
考慮了時間和空間的聯合作用,具有較高的評估相關性。以MOVIE[文獻3:
Seshadrinathan.K,Bovik A.C,Motion Tuned Spatio-Temporal QualityAssessment of
Natural Videos,IEEE Transation on image processing,Vo119,No.2,Feb,2010,
pp:335-350]為代表的視頻質量評估方法計算單個像素的時空Gabor變換,分解出
像素相關的空間紋理和時間運動信息,完成像素區域的視覺質量評估,最后算術
平均形成視頻片段的質量指標。但是VIS3和MOVIE都是一種全參考的方法,
在實際使用時受限。Video BLIINDS[文獻4:Saad M.A,Bovik A.C,Charrier C,
Blind Prediction of Natural Video Quality,IEEE Transation on image processing,
Vol23,No.3,Mar,2014,pp:423-438]方法計算幀差信息的空間統計測度,以此作為
時間信息,與單幀圖像質量進行加權后,再完成整段視頻的質量指標匯聚。Video
BLIINDS是一種無參考算法。但是Video BLIINDS形成的視頻特征向量是多個
不同視頻特性參數時間平均值的級聯,掩蓋了視頻特征隨時間波動對視頻質量的
影響。

陳耀武等人的國家發明授權專利[文獻5:MOTION JPEG2000視頻客觀質量
的無參考評估方法,CN200810163592]雖然是無參考方法,但是以梯度特征訓練
的線性視頻質量擬合函數無法得到合適的判決性能。曹修平的國家發明授權專利
[文獻6:一種無參考視頻質量客觀評估方法,CN201110166241]雖然是無參考方
法,但是只選取邊緣視頻特征,對人眼視頻感知效應也局限于紋理掩蔽,對多幀
質量的合成只采用簡單算術平均。楊友慶等人的國家發明授權專利[文獻7:一種
視頻質量評估的方法和網絡節點,CN201180001103]不是像素級的視頻質量評
估,它面向視頻編碼器的輸出參數,獲得的評估效果欠佳。宋好好等人提交的國
家發明專利[文獻8:視頻質量的無參評估方法,CN201210171226]通過對視頻編
碼DCT系數進行拉普拉斯分布參數擬合,構建了未知質量視頻與訓練視頻的函
數關系,但是該方法沒有考慮人眼的各種視頻感知效應,與實際的差異較大。

發明內容

本發明提出了一種基于時空聯合信息的無參考視頻質量評估方法,可在沒有
無損視頻作為參考的情況下對受損視頻進行質量評估。

實現本發明目的的技術解決方案為:一種基于時空聯合信息的無參考視頻質
量評估方法,在離線訓練階段建立基于聯合時空特性的視頻質量估計器,采用視
頻質量估計器對待評估質量的視頻進行在線評估,具體步驟如下:

第一步,離線訓練過程為:

(1)局部三維塊LTDB劃分:將當前視頻片段劃分為以局部三維塊LTDB
為單位的特征提取單元;

(2)空間特征提取:計算LTDB每幀的對比度敏感函數CSF系數,計算LTDB
內所有空間局部塊的CSF系數的算術平均和方差,作為LTDB空間質量特征;

(3)空時特征提取:以LTDB為單位進行3D DCT變換,對完成變換的系
數分為直流信息和非直流信息;對直流信息直接作為LTDB的平均亮度特征;對
非直流信息按不同頻率分類,對每類系數進行高斯分布參數擬合;獲取不同頻率
分類的均值和方差,把每類系數的擬合參數進行級聯,構成當前LTDB的空時質
量特征;

(4)分別將LTDB空間質量特征、空時質量特征進行級聯,匯聚形成LTDB
特征向量;

(5)把視頻片段按時間順序和空間相鄰進行分割,依次計算LTDB特征向
量,形成LTDB特征向量序列;所有LTDB特征向量進行算術平均,構成時空均
值向量;將相鄰的LTDB特征向量相減并取絕對值,形成絕對差值向量;把所有
絕對差值向量進行算術平均,構成視頻片段的時空差值向量;視頻片段的時空均
值(平均)向量與視頻片段的時空差值向量進行級聯,匯聚形成當前視頻片段的
全局特征向量;

(6)把多個視頻片段的全局特征向量及其對應的視頻質量主觀差異評分值,
輸入到支持向量回歸器(SVR)中,訓練形成基于聯合時空特性的視頻質量估計
器;

第二步,在線評估過程為:首先按與離線訓練相同的方法,計算形成未知質
量的視頻片段的全局特征向量,然后把該全局特征向量輸入基于聯合時空特性的
視頻質量估計器,輸出值即為該段未知質量視頻片段的客觀質量估計值。

本發明與現有技術相比,其顯著優點:(1)本發明是一種無參考方法,在對
受損視頻進行質量評估時,不需要無損視頻片段作為參考。(2)本發明以視頻的
全局特征向量為視頻質量評估的基礎,特別是結合了視頻的空間域信息和空時聯
合信息,更多地保留了視頻片段的時空信息,符合HVS視覺感知的多通道特性。
(3)本發明以空間頻率和3D DCT變換系數的統計規律建立特征向量,更符合
無損傷圖像的自然統計規律。通過使用本發明對視頻片段進行測試,它的測試結
果與目前最好的無參考視頻質量評估算法Video BLIINDS相比,皮爾遜相關系數
比Video BLIINDS高5%,斯皮爾曼相關系數與Video BLIINDS相當,見表1。

表1 對本發明與Video-BLIINDS算法的評估性能比較


下面結合附圖對本發明作進一步詳細描述。

附圖說明

圖1是基于時空聯合信息的無參考視頻質量評估方法流程圖。

圖2是時空圖像塊的形成方法示意圖。

圖3是是采用視頻質量估計器對構造估計器的訓練視頻進行預測的質量得
分與其對應DMOS的比較。

圖4是采用視頻質量估計器對測試視頻進行預測的質量得分與其對應
DMOS的比較。

具體實施方式

結合圖1,本發明基于時空聯合信息的無參考視頻質量評估方法,在離線訓
練階段建立基于聯合時空特性的視頻質量估計器,采用視頻質量估計器對待評估
質量的視頻進行在線評估,具體步驟如下:

一、訓練基于聯合時空特性的視頻質量估計器

1.局部三維塊LTDB劃分:將當前視頻片段劃分為以局部三維塊LTDB為單
位的特征提取單元。

在視頻片段中,從t時刻開始的幀,在空間上取b×b的局部正方形區域、在
時間上取t幀到t+τ幀構成時空立方體。取該時空立方體內的視頻數據,構成
LTDB(Local Three-dimensional Block,局部三維塊)。每個時空圖像塊中共有
b×b×τ個像素,可以用fm,n,t表示。其中m是空間維的橫向分量,取值范圍0到
b-1;n是空間維的縱向分量,取值范圍0到b-1;t是時間維分量,取值范圍0
到τ-1。這樣,時間上連續的τ個幀可以構成個時空立方體,
其中M和N分別是用像素數量度量的幀的寬度和高度,表示下取整。用Pk,t表
示視頻從t幀到t+τ幀視頻的第k個LTDB。人們觀看視頻時,在沒有特意的強
調的情況下,注意力一般都放在視頻的中間區域附近,而不會把注意力集中在視
頻的邊緣區域,尤其是視頻的下邊緣。所以剩余的幀邊緣參與像素信息不在特征
抽取使用。

2.空間特征提取:計算LTDB每幀的對比度敏感函數CSF系數,計算LTDB
內所有空間局部塊的CSF系數的算術平均和方差,作為LTDB空間質量特征。

空間特征的提取主要是以CSF系數特征的提取為前提。而CSF系數的求取
是建立在空間頻率的基礎上,對空間頻率進行感知加權濾波。

1)空間頻率

空間頻率是指視覺上的每度視角內圖像或刺激圖形的亮暗做正弦調制的柵
條周數,單位是周期/度。圖像中不同的成分具有不同的空間頻率:短距離的突
變、劇烈起伏變化、圖像細節等,其空間頻率較高;長距離大范圍的緩慢變化、
圖像背景平坦或均勻等,其空間頻率低。

空間頻率可以劃分為水平空間頻率、垂直空間頻率、對角空間頻率。對于尺
度為H×W的視頻幀,H為該幀垂直方向的尺度,W為該幀水平方向的尺度,單
位為像素,在位置h×w處的像素值為fh,w,其中w是像素的水平位置,h是像素
的垂直位置。由于是同一個時間幀,所以時間下標沒有標出。當前幀空間頻率定
義如下:

<mrow> <mi>f</mi> <mo>=</mo> <msqrt> <msup> <mi>hf</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>vf</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>df</mi> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msqrt> </mrow>

其中hf為水平空間頻率,vf為垂直空間頻率,df為對角空間頻率。

<mrow> <mi>hf</mi> <mo>=</mo> <msqrt> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>w</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>W</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>h</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>H</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mrow> <mi>w</mi> <mo>,</mo> <mi>h</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>f</mi> <mrow> <mi>w</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>h</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mrow> <mo>(</mo> <mi>W</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>H</mi> </mrow> </mfrac> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>vf</mi> <mo>=</mo> <msqrt> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>w</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>W</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>h</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>H</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mrow> <mi>w</mi> <mo>,</mo> <mi>h</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>f</mi> <mrow> <mi>w</mi> <mo>,</mo> <mi>h</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mi>W</mi> <mrow> <mo>(</mo> <mi>H</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>df</mi> <mo>=</mo> <msqrt> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>w</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>W</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>h</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>H</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mrow> <mi>w</mi> <mo>,</mo> <mi>h</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>f</mi> <mrow> <mi>w</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>h</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mrow> <mo>(</mo> <mi>W</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mi>H</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> </msqrt> <mo>+</mo> <msqrt> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>w</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>W</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>h</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>H</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mrow> <mi>w</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>h</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>f</mi> <mrow> <mi>w</mi> <mo>,</mo> <mi>h</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mrow> <mo>(</mo> <mi>W</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mi>H</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

2)CSF系數特征

人眼對視頻質量的空間對比度感知效應,可以通過對局部塊的空間頻率系數
的加權濾波得到模擬,建立視頻CSF(Contrast Sensitive Function,對比度敏感
函數)模型。CSF(f)函數是模擬人眼的感知特征,對空間頻率進行帶通濾波。
CSF(f)與空間頻率系數滿足:

CSF(fi)=2.6×(0.0192+0.114fi)exp[-(0.114fi)1.1] (5)

其中,fi表示時空三維塊LTDB第i幀的空間頻率。

對于LTDB所有幀的CSF值求取均值Cmean和方差Cstd作為該時段的空間特

征,其中Cmean和Cstd求取公式如下:

<mrow> <msub> <mi>C</mi> <mi>mean</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>&tau;</mi> </munderover> <mi>CSF</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mi>&tau;</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>C</mi> <mi>std</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>&tau;</mi> </munderover> <msup> <mrow> <mo>[</mo> <mi>CSF</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>C</mi> <mi>mean</mi> </msub> <mo>]</mo> </mrow> <mn>2</mn> </msup> </mrow> <mi>&tau;</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

3、空時特征提取:以LTDB為單位進行3D DCT變換,對完成變換的系數
分為直流信息和非直流信息;對直流信息直接作為LTDB的平均亮度特征;對非
直流信息按不同頻率分類,對每類系數進行高斯分布參數擬合;獲取不同頻率分
類的均值和方差,把每類系數的擬合參數進行級聯,構成當前LTDB的空時質量
特征。

空時特征提取是以每一個LTDB的3D DCT變換后的系數信息為參考,以進
行特征提取。

1)3D DCT變換

對每個LTDB時空立方體進行3D DCT變換,形成的3D DCT變換的系數集
合。3D DCT變換表示為:

<mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>a</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <msub> <mi>a</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> <msub> <mi>a</mi> <mn>3</mn> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mover> <munder> <mi>&Sigma;</mi> <mrow> <mi>x</mi> <mo>=</mo> <mn>0</mn> </mrow> </munder> <mrow> <mi>b</mi> <mo>-</mo> <mn>1</mn> </mrow> </mover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>y</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>b</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>z</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>&tau;</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>z</mi> <mo>)</mo> </mrow> <mi>cos</mi> <mo>[</mo> <mfrac> <mrow> <mi>&pi;</mi> <mrow> <mo>(</mo> <mn>2</mn> <mi>x</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>u</mi> </mrow> <mrow> <mn>2</mn> <mi>b</mi> </mrow> </mfrac> <mo>]</mo> <mi>cos</mi> <mo>[</mo> <mfrac> <mrow> <mi>&pi;</mi> <mrow> <mo>(</mo> <mn>2</mn> <mi>y</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>v</mi> </mrow> <mrow> <mn>2</mn> <mi>b</mi> </mrow> </mfrac> <mo>]</mo> <mi>cos</mi> <mo>[</mo> <mfrac> <mrow> <mi>&pi;</mi> <mrow> <mo>(</mo> <mn>2</mn> <mi>z</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>w</mi> </mrow> <mrow> <mn>2</mn> <mi>&tau;</mi> </mrow> </mfrac> <mo>]</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

其中:

<mrow> <msub> <mi>a</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>a</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <msqrt> <mfrac> <mn>1</mn> <mi>b</mi> </mfrac> </msqrt> <mo>,</mo> </mtd> <mtd> <mi>if</mi> <mn></mn> <mi>b</mi> <mo>=</mo> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <msqrt> <mfrac> <mn>2</mn> <mi>b</mi> </mfrac> </msqrt> <mo>,</mo> </mtd> <mtd> <mi>otherwise</mi> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>a</mi> <mn>3</mn> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <msqrt> <mfrac> <mn>1</mn> <mi>&tau;</mi> </mfrac> </msqrt> <mo>,</mo> </mtd> <mtd> <mi>if&tau;</mi> <mo>=</mo> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <msqrt> <mfrac> <mn>2</mn> <mi>&tau;</mi> </mfrac> </msqrt> <mo>,</mo> </mtd> <mtd> <mi>otherwise</mi> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

變換后,形成的3D DCT系數為C(u,v,w)b×b×τ。u,v,w是表示頻率的下標。

在本發明中,LTDB可以在視頻庫選擇,下面以在空間域尺度中采用17×17像
素的LTDB為例進行說明,主要考慮避免視頻編碼中宏塊劃分的4、8、16等像
素邊界,能保留更多的視頻損傷信息;在時間域尺度上與視頻編碼時的GOP大
小相當,可以采用時間上連續的8到20幀圖像,并且結合人眼視頻感知的連續
性,時間域的持續時長不超過400毫秒。考慮到3D DCT變換的實時性和視頻損
傷信息的完整性,本發明中時間域尺度與空間域尺度一樣,均采用17,即使用
時間上相鄰的17幀局部圖像塊。所以本發明選取b=τ=17。

2)LTDB頻率系數特征

3D DCT變換后的頻率系數包含視頻的空時質量特征信息,可以用于構建反
映視頻空時受損情況的質量特征。對3D DCT系數按照頻率的大小可分割為直流
信息、低頻信息、中頻信息和高頻信息四種類型,其中直流信息反映該LTDB的
平均亮度,低頻信息、中頻信息和高頻信息反映該LTDB的空時質量特征;將除
直流外的頻率信息從低頻至高頻共分為Q段,32≥Q≥1,下面以Q=9、LTDB
尺度采用17×17×17為例進行說明。其中,由于人眼對極高頻信息并不敏感,其
損傷對主觀感受的視頻質量影響極小,所以本發明并沒有使用極高頻信息。

單個LTDB大小為17×17×17,所以,水平頻率系數u∈[0,1,2......16],垂直
頻率系數v∈[0,1,2......16],時間頻率系數w∈[0,1,2......16]。由此可得直流系數
fdc fdc={u,v,w|u+v+w=0}。直流系數fdc可作為單個LTDB圖像組的平均亮
度信息特征。

本發明將低頻至高頻頻率系數總共劃分為9類,即{f1,f2,f3......,f8,f9}。低
頻至高頻頻率系數的劃分按照步長2進行劃分,詳細劃分方法為:

fi={u,v,w|2i-1≤u+v+w≤2i,1≤i≤9} (9)

所以,有

f1={u,v,w|1≤u+v+w≤2} (10)

f2={u,v,w|3≤u+v+w≤4} (11)

f3={u,v,w|5≤u+v+w≤6} (12)

f4={u,v,w|7≤u+v+w≤8} (13)

f5={u,v,w|9≤u+v+w≤10} (14)

f6={u,v,w|11≤u+v+w≤12} (15)

f7={u,v,w|13≤u+v+w≤14} (16)

f8={u,v,w|15≤u+v+w≤16} (17)

f9={u,v,w|17≤u+v+w≤18} (18)

對從t到t+τ的幀視頻形成的第k個LTDB做3D DCT變換后,把LTDB的
變換系數按上述規則,從低頻至高頻進行分類和匯總,得到9個頻率系數集合。
每個系數集合用高斯分布對其進行參數擬合,使其服從:

<mrow> <mi>g</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msqrt> <mn>2</mn> <mi>&pi;</mi> </msqrt> <mi>&sigma;</mi> </mrow> </mfrac> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mi>&mu;</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msup> <mrow> <mn>2</mn> <mi>&sigma;</mi> </mrow> <mn>2</mn> </msup> </mfrac> </mrow> </msup> <mo>,</mo> <mi>&sigma;</mi> <mo>></mo> <mn>0</mn> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>19</mn> <mo>)</mo> </mrow> </mrow>

λ=σ2 (20)

其中μ表示均值,σ表示標準差,λ表示方差。

每個系數集合擬合形成兩個分布參數,包括均值μ和方差λ。9個系數集合
總共形成18個分布參數。把這18個分布參數級聯,形成的18維向量:

[λ1,μ1,λ2,μ2,…,λ8,μ8,λ9,μ9] (21)

4、分別將LTDB空間質量特征、空時質量特征進行級聯,匯聚形成LTDB
特征向量。

將對比度敏感系數CSF擬合參數信息、直流信息DC、頻率系數擬合參數信
息進行級聯得到時間從t開始第k個LTDB特征向量:

Ft,k=[Cmean,Cstd,fdc,λ1,μ1,λ2,μ2,...,λ8,μ8,λ9,μ9] (22)

5、視頻片段的特征匯聚:把視頻片段按時間順序和空間相鄰進行分割,依
次計算LTDB特征向量,形成LTDB特征向量序列;所有LTDB特征向量進行算
術平均,構成時空均值向量;將相鄰的LTDB特征向量相減并取絕對值,形成絕
對差值向量;把所有絕對差值向量進行算術平均,構成視頻片段的時空差值向量;
視頻片段的時空均值(平均)向量與視頻片段的時空差值向量進行級聯,匯聚形
成當前視頻片段的全局特征向量。

對于視頻片段,按時間順序依次形成LTDB特征向量。所有LTDB特征向量
的集合可以表示為{Fi,i=1,2,...,K}。K表示視頻片段的LTDB個數,計算公式如
下:


T表示該視頻片段總幀數。

以LTDB特征向量為基礎,構造視頻片段的特征表示。假設視頻片段足夠長,
可以分割形成足夠多的LTDB特征向量。通常需要評估質量的視頻片段都滿足這
個條件。

以LTDB特征向量為對象,計算整個視頻片段的LTDB特征向量的均值:

<mrow> <mi>MF</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>K</mi> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>24</mn> <mo>)</mo> </mrow> </mrow>

其中每個Fi是集合{Fi}中第i個特征向量。按公式(24)形成的向量MF,
被稱為視頻片段的空時平均向量。

構造相鄰LTDB特征向量的差值向量,其中差值向量需要進行逐個元素取絕
對值,然后把所有差值向量取均值:

<mrow> <mi>DF</mi> <mo>=</mo> <mfrac> <mi>K</mi> <mrow> <mi>K</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>2</mn> </mrow> <mi>K</mi> </munderover> <mo>|</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>25</mn> <mo>)</mo> </mrow> </mrow>

其中每個Fi是集合{Fi}中第i個特征向量。按公式(25)形成的向量DF,
被稱為視頻片段的空時差值向量。把空時平均向量和空時差值向量進行級聯,形
成視頻片段的特征向量:

VF=[MFT,DFT]T (26)

6、基于聯合時空特性的視頻質量估計器的訓練:把多個視頻片段的全局特
征向量及其對應的視頻質量主觀差異評分值(DMOS:由訓練視頻庫Live Data
Base提供),輸入到支持向量回歸器(SVR)中,訓練形成基于聯合時空特性的
視頻質量估計器。

視頻質量估計器的訓練以支持向量回歸器SVR的分類、回歸、預測特性來
構造。而SVR是以VC維理論和結構風險最小化原理為基礎的一個機器學習模
型。利用帶主觀視頻質量評分值的訓練視頻庫,完成客觀視頻質量估計器的訓練。
對訓練視頻庫中的每段視頻計算它的視頻片段特征向量VFl,其對應的主觀質量
評分MOSl值已知。把視頻片段特征向量集合{VFl,l=1,……L}和對應的主觀質
量評分集合{MOSl,l=1,..,L}送入支持向量回歸器(SVR),完成視頻質量估計器
的訓練。其中,L是訓練視頻的數量。

二、視頻質量在線評估

首先按與離線訓練相同的方法,計算形成未知質量的視頻片段的全局特征向
量,然后把該全局特征向量輸入基于聯合時空特性的視頻質量估計器,輸出值即
為該段未知質量視頻片段的客觀質量估計值(得分)。在對未知質量評分的視頻
片段進行客觀視頻質量判斷時,首先按與訓練階段相同的方法,即按照局部三維
塊劃分、空間特征提取、空時特征提取、LTDB特征向量級聯、視頻片段特征匯
聚的順序,計算形成未知質量的視頻片段的全局特征向量;然后把視頻片段全局
特征向量輸入已完成訓練的視頻質量估計器,估計器的輸出值就是該視頻片段的
客觀視頻質量。

關 鍵 詞:
基于 時空 聯合 信息 參考 視頻 質量 評估 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:基于時空聯合信息的無參考視頻質量評估方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100535.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图