• / 13
  • 下載費用:30 金幣  

用于為單變量時間序列信號實時檢測離群值的系統和方法.pdf

關 鍵 詞:
用于 變量 時間 序列 信號 實時 檢測 離群 系統 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
摘要
申請專利號:

CN201610439707.1

申請日:

2016.06.17

公開號:

CN106257438A

公開日:

2016.12.28

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/18申請日:20160617|||公開
IPC分類號: G06F17/18 主分類號: G06F17/18
申請人: 塔塔咨詢服務公司
發明人: A·烏基爾; S·班德亞帕德耶; A·帕爾
地址: 印度馬哈拉施特拉邦
優先權: 2015.06.17 IN 2324/MUM/2015
專利代理機構: 隆天知識產權代理有限公司 72003 代理人: 張浴月;石海霞
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201610439707.1

授權公告號:

||||||

法律狀態公告日:

2019.03.29|||2017.01.25|||2016.12.28

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

公開了一種用于為單變量時間序列信號實時檢測離群值的方法和系統。所述系統可以從數據源接收單變量時間序列信號,該單變量時間序列信號包括多個數據集。所述系統可以計算多個數據集的數據集的標準差。隨后,所述系統可以計算數據集的最優樣本塊大小和臨界樣本大小。此外,所述系統可確定數據集的最優操作塊大小。所述系統可基于最優操作塊大小將多個數據集分割成多個塊。所述系統可以通過對多個塊執行離群值檢測技術來檢測離群值,從而確保改進執行時間,同時最低限度地影響離群值檢測方法的結果的精確度和準確度。

權利要求書

1.一種用于為單變量時間序列信號實時檢測離群值的方法,所述方法包括:
由處理器(210)從數據源接收單變量時間序列信號,其中所述單變量時間序列信號包
括多個數據集,并且其中所述多個數據集的每個數據集包括個單變量時間序列數據元
素;
由所述處理器(210)計算所述多個數據集的數據集的標準差(σ);
由所述處理器(210)通過使用所述標準差(σ)計算所述數據集的最優樣本塊大小
由所述處理器(210)基于所述標準差(σ)、所述個單變量時間序列數據元素、預定的準
確度(δ)和結果的精確度(1-∈)計算臨界樣本大小
由所述處理器(210)確定所述數據集的最優操作塊大小
由所述處理器(210)基于所述最優操作塊大小將所述多個數據集分割成多個
塊,其中每個塊包括所述個單變量時間序列數據元素的個數據元素;以及
由所述處理器(210)通過對所述多個塊實施離群值檢測技術來實時檢測離群值。
2.根據權利要求1所述的方法,其中使用來計算所述最優樣本塊大小

3.根據權利要求1所述的方法,其中使用來計算所述
臨界樣本大小
4.根據權利要求1所述的方法,其中使用來確定所述
最優操作塊大小
5.根據權利要求1所述的方法,其中所述離群值檢測技術包括如Rosner濾波技術和
Hampel濾波技術的無監管技術。
6.一種用于為單變量時間序列信號實時檢測離群值的系統,所述系統包括:
處理器(210);
存儲器(212),耦接到所述處理器(210),其中所述處理器能夠執行存儲在所述存儲器
(212)中的編程指令,以:
從數據源接收單變量時間序列信號,其中所述單變量時間序列信號包括多個數據集,
并且其中所述多個數據集的每個數據集包括個單變量時間序列數據元素;
計算所述多個數據集的數據集的標準差(σ);
通過使用所述標準差(σ)計算所述數據集的最優樣本塊大小
基于所述標準差(σ)、所述個單變量時間序列數據元素、預定的準確度(δ)和結果的精
確度(1-∈)計算臨界樣本大小
確定所述數據集的最優操作塊大小
基于所述最優操作塊大小將所述多個數據集分割成多個塊,其中每個塊包括所
述個單變量時間序列數據元素的個數據元素;以及
通過對所述多個塊實施離群值檢測技術來實時檢測離群值。
7.根據權利要求6所述的系統,其中使用來計算所述最優樣本塊大小

8.根據權利要求6所述的系統,其中使用來計算所述臨界
樣本大小
9.根據權利要求6所述的系統,其中使用來確定所述
最優操作塊大小
10.根據權利要求6所述的系統,其中所述離群值檢測技術包括如Rosner濾波技術和
Hampel濾波技術的無監管技術。
11.一種非暫時性計算機可讀介質,其實現在計算設備中可執行的程序,用于為單變量
時間序列信號實時檢測離群值,所述程序包括:
用于從數據源接收單變量時間序列信號的代碼,其中所述單變量時間序列信號包括多
個數據集,并且其中所述多個數據集的每個數據集包括個單變量時間序列數據元素;
用于計算所述多個數據集的數據集的標準差(σ)的代碼;
用于通過使用所述標準差(σ)計算所述數據集的最優樣本塊大小的代碼;
用于基于所述標準差(σ)、所述個單變量時間序列數據元素、預定的準確度(δ)和結果
的精確度(1-∈)計算臨界樣本大小的代碼;
用于確定所述數據集的最優操作塊大小的代碼;
用于基于所述最優操作塊大小將所述多個數據集分割成多個塊的代碼,其中每
個塊包括所述個單變量時間序列數據元素的個數據元素;以及
用于通過對所述多個塊實施離群值檢測技術來實時檢測離群值的代碼。

說明書

用于為單變量時間序列信號實時檢測離群值的系統和方法

相關申請的交叉引用

本專利申請要求提交于2015年6月17日的印度專利申請2324/MUM/2015的優先權,
其全部內容通過引用并入本文。

技術領域

本文所描述的主題,一般性地涉及離群值的實時檢測,即,時間序列信號中的虛假
數據點。

背景技術

由用于監測物理參數的傳感器產生大量數據。然后,數據可以被用于識別與傳感
器的部署區域相關的顯著事件。例如,傳感器可以部署在監測灌溉參數的領域,并且可以因
此形成無線傳感器網絡(WSN)或通用傳感器網絡。傳感器可以被標識為WSN中的節點。WSN的
節點可以將數據即灌溉參數連續地傳送到中央節點或服務器。因此,由服務器接收到的數
據的量是巨大的,并且可能需要大量的處理用于確定顯著事件。在另一個示例中,傳感器可
用于監聽人的心臟活動。然后,對應于心臟活動的數據可用于識別心臟異常和進一步的醫
療診斷。因此,大量數據需要進行處理用于推導出結果。

待用于處理的大量數據可以在識別離群值后得以減少。離群值有助于識別存在于
大量數據中的顯著事件。準確的離群值檢測技術需要大量用于處理的數據的樣本。因此,處
理大量的樣本可能需要大量的執行計算量,從而使用很多的執行時間。為了減少計算的次
數,可以使用較少數量的用于處理的樣本。但是,在檢測離群值時減少樣本數量可能導致誤
報警,即對指示顯著事件的離群值的假識別。誤報警的數量的增加意味著準確度的降低。

參考圖1,其示出準確度與執行時間之間的關系的圖形表示。用于檢測離群值的方
法的中樣本大小(即樣本數量)影響與方法相關的準確度和執行時間。執行時間,即分析樣
本的數量所需要的時間量隨樣本大小的增加而升高。同時,準確度,即產生誤報警的比率隨
樣本大小增加而減少。圖1還示出最優操作點,其中樣本大小為誤報警率最低同時執行時間
具有最優值。

發明內容

提供本發明內容以介紹與用于為單變量時間序列信號實時檢測離群值的系統和
方法的相關的各個方案,并且在下面的詳細描述中進一步描述這些描述。本發明內容不旨
在標識所要求保護的主題的必要特征,也不旨在用于確定或限制所要求保護的主題的范
圍。

在一個實現中,公開了一種用于為單變量時間序列信號實時檢測離群值的方法。
所述方法可以包括從數據源接收單變量時間序列信號。所述單變量時間序列信號可以包括
多個數據集。所述多個數據集的每個數據集可以包括個單變量時間序列數據元素。所述
方法還可以包括計算所述多個數據集的數據集的標準差(σ)。所述方法還可以包括通過使
用所述標準差(σ)計算最優樣本塊大小所述方法還可以包括基于所述標準差(σ)、所
述個單變量時間序列數據元素、預定的準確度(δ)和結果的精確度(1-∈)計算臨界樣本
大小所述方法還可以包括確定數據集的最優操作塊大小所述方法還
可以包括基于所述最優操作塊大小將所述多個數據集分割成多個塊。每個塊可以
包括個單變量時間序列數據元素的個數據元素。所述方法還可以包括通過對多個
塊實施離群值檢測技術來實時檢測離群值。

在一個實現中,公開了一種用于為單變量時間序列信號實時檢測離群值的系統。
所述系統包括處理器和耦接到所述處理器的存儲器,所述處理器用于執行存儲在所述存儲
器編程指令。所述處理器可以從數據源接收單變量時間序列信號。所述單變量時間序列信
號可以包括多個數據集。所述多個數據集的每個數據集可以包括個單變量時間序列數據
元素。所述處理器還可以計算所述多個數據集的數據集的標準差(σ)。所述處理器還可以通
過使用所述標準差(σ)計算所述數據集的最優樣本塊大小所述處理器還可以基于所
述標準差(σ)、所述個單變量時間序列數據元素、預定的準確度(δ)和結果的精確度(1-
∈)計算臨界樣本大小所述處理器還可以確定數據集的最優操作塊大小
所述處理器還可以基于所述最優操作塊大小將所述多個數據集分割成多
個塊。每個塊可以包括個單變量時間序列數據元素的個數據元素。所述處理器還
可以通過對多個塊實施離群值檢測技術來實時檢測離群值。

在一個實現中,公開了一種非暫時性計算機可讀介質,實現在計算設備中可執行
的程序,用于為單變量時間序列信號實時檢測離群值。所述程序可以包括用于從數據源接
收單變量時間序列信號的代碼。所述單變量時間序列信號可以包括多個數據集。所述多個
數據集的每個數據集可以包括個單變量時間序列數據元素。所述程序還可以包括用于計
算所述多個數據集的數據集的標準差(σ)的代碼。所述程序還可以包括用于通過使用所述
標準差(σ)計算數據集的最優樣本塊大小的代碼。所述程序還可以包括用于基于所述
標準差(σ)、所述個單變量時間序列數據元素、預定的準確度(δ)和結果的精確度(1-∈)
計算臨界樣本大小的代碼。所述程序還可以包括用于確定數據集的最優操作塊大
小的代碼。所述程序還可以包括用于基于所述最優操作塊大小將所述多
個數據集分割成多個塊。每個塊包括個單變量時間序列數據元素的個數據元素
的代碼。每個塊可以包括個單變量時間序列數據元素的個數據元素。所述程序還
可以包括用于通過對多個塊實施離群值檢測技術來實時檢測離群值的代碼。

附圖說明

參考附圖描述詳細描述。在附圖中,附圖標記的最左邊數字(多個)標識首次出現
該標記的附圖。在整個附圖中相同的標記用于指代相似的特征和部件。

圖1示出現有技術中已知的、相對于樣本大小的準確度和執行時間之間的關系的
圖形表示。

圖2示出根據本主題的一個實施例的用于為單變量時間序列信號實時檢測離群值
的系統的網絡實現。

圖3a示出根據本主題的一個實施例的計算延遲與塊大小之間的關系的示例性圖
形表示。

圖3b示出根據本主題的一個實施例的精確度與塊大小之間的關系的示例性圖形
表示。

圖4示出根據本主題的一個實施例的用于為單變量時間序列信號實時檢測離群值
的方法。

具體實施方式

在本主題中描述了用于為單變量時間序列信號實時檢測離群值的系統和方法。所
述系統可以接收來自數據源的單變量時間序列信號。該單變量時間序列信號可以包括多個
數據集。所述多個數據集中的每個數據集可以包括個單變量時間序列數據元素。所述系
統可以計算多個數據集的數據集的標準差(σ)。通過使用標準差(σ),所述系統還可以計算
最優樣本塊大小和數據集的臨界樣本大小此外,所述系統可以確定數據集
的最優操作塊大小此外,所述系統可以基于最優操作塊大小將多個數據集分割
成多個塊。每個塊可以包括個單變量時間序列數據元素的個數據元素。隨后,所
述系統可以通過對每個塊實施離群值檢測技術來檢測離群值。因此,所述系統可以使用上
述方法為單變量時間序列信號實時檢測離群值。

雖然所描述的用于為單變量時間序列信號實時檢測離群值的系統和方法的各個
方案可以實現為任何數量的不同的計算系統、環境和/或配置,但是在下面的示例性系統的
背景中描述各個實施例。

現在參考圖2,其示出根據本主題的實施例的用于為單變量時間序列信號實時檢
測離群值的系統202。雖然本主題被說明為考慮系統202在計算機上實現,但可以理解的是,
系統202還可以在各種計算系統上實現,包括但不限于智能電話、平板電腦、筆記本平板電
腦、個人數字助理、手持式設備、膝上型計算機、筆記本電腦、工作站、大型計算機、服務器和
網絡服務器。在一個實施例中,系統202可以在基于云的環境中實現。應當理解的是,系統
202可以通過一個或多個用戶設備204-1、204-2...204-N(下文統稱為用戶設備204)或者駐
留在用戶設備204上的應用程序而被多個用戶訪問。用戶設備204的示例可以包括但不限
于:帶有網絡攝像頭的便攜式計算機、帶有攝像頭的個人數字助理、帶有攝像頭的手持式設
備以及數碼相機。用戶設備204可通過網絡206通信地耦接到系統202。

在一個實現中,網絡206可以是無線網絡、有線網絡或其組合。網絡206可以被實現
為不同類型的網絡之一,諸如內聯網、局域網(LAN)、廣域網(WAN)、互聯網等。網絡206可以
是專用網絡或共享網絡。共享網絡表示使用各種協議(例如超文本傳輸協議(HTTP)、傳輸控
制協議/互聯網協議(TCP/IP)、無線應用協議(WAP)等)的不同類型的網絡的聯合,以彼此通
信。另外的網絡106可以包括各種網絡設備,包括路由器、網橋、服務器、計算設備、存儲設備
等。

在一個實施例中,如圖1所示,系統202可以包括至少一個處理器210、存儲器212和
輸入/輸出(I/O)接口214。另外,至少一個處理器210可以被實現為一個或多個微處理器、微
型計算機、微控制器、數字信號處理器、中央處理單元、狀態機、邏輯電路系統和/或基于操
作指令操縱信號的任何設備。至少一個處理器210被配置為讀取并執行存儲在存儲器212中
的計算機可讀指令,以及其他功能。

I/O接口214可以包括各種軟件和硬件接口,例如,網絡接口、圖形用戶界面等。I/O
接口214可允許系統202與直接用戶交互。此外,I/O接口214可以使得系統202能夠與其他計
算設備(諸如網絡服務器和外部數據服務器(未示出))進行通信。I/O接口214可以有助于各
種各樣的網絡和協議類型(包括例如局域網、電纜等有線網絡和諸如WLAN、蜂窩或衛星等無
線網絡)內的多個通信。

存儲器212可以包括本領域已知的任何計算機可讀介質,包括例如諸如靜態隨機
存取存儲器(SRAM)和動態隨機存取存儲器(DRAM)等易失性存儲器和/或諸如只讀存儲器
(ROM)、可擦可編程ROM、閃速存儲器、硬盤、光盤以及磁帶等非易失性存儲器。

在一個實施例中,系統202可能需要大的樣本大小,用于去除存在于待分析的樣本
分布中的偏差。使用大的樣本大小可能導致執行時間的增加,并因此導致效率降低。在一種
情況下,系統202可確定數據塊的峰度以便準備峰度模式。在尖峰模式的情況下,系統202可
以使用Rosner濾波技術否則所述系統可以使用Hampel濾波技術。此外,為了提高準確度,系
統202可能需要最小化誤報。誤報可以包括掩蔽效應和淹沒效應。在一種情況下,系統202可
以使用Hampel濾波技術以減少掩蔽效應,以及使用Rosner濾波技術以最小化淹沒效應。

在一種情況下,可以指示存在于單變量時間序列信號的每個數據集中的單變量
時間序列數據元素的數量,并且可以指示最優樣本塊大小。掩蔽效應衰減器的執行時間
可以假定為并且淹沒效果衰減器的執行時間可以假定為通常,Hampel濾波技術
比Rosner濾波技術進行更少的計算,因此Hampel濾波技術的計算復雜性可以
是而Rosner濾波技術的計算復雜性可以是

在一個實現中,系統202可以接收來自數據源的單變量時間序列信號。術語單變量
可以指具有單個變量的表達式、方程和函數。數據源可以是存儲器212,其具有由傳感器或
設備捕獲的存儲數據。所述傳感器或設備可以包括智能儀表、加速計、腦電圖(EEG)、電心動
圖(ECG)或其他設備。在一種情況下,單變量時間序列信號可以包括多個數據集。此外,多個
數據集的每個數據集可以包括個單變量時間序列數據元素。

在一個實施例中,系統202可確定與單變量時間序列信號相關聯的應用的時間臨
界性。在一種情況下,時間臨界性可能是實時或偽實時。在這樣的情況下,系統202可以計算
多個數據集的數據集的標準差(σ)。所述系統可以通過使用已知的統計技術來計算標準差
(σ)。

在計算出標準差(σ)后,系統202可以計算數據集的最優樣本塊大小在一種
情況下,系統202可以使用等式(1)計算最優樣本塊大小如下所述。


在上述等式(1)中,∈表示精確度損失而δ表示準確度。此外,∈和δ可以是取決于
應用的。

在計算樣本塊大小后,系統202可以基于標準差(σ)、個單變量時間序列數
據元素、預定的準確度(δ)和結果的精確度((1-∈))來計算數據集的臨界樣本大小
在一種情況下,系統202可以使用等式2計算臨界樣本大小如下所述。


在計算臨界樣本大小后,系統202可確定數據集的最優操作塊大小
在一種情況下,系統202可使用等式3確定最優操作塊大小如下所述。


在確定最優塊大小后,系統202可以基于最優操作塊大小將多個數
據集分割成多個塊。每個塊可以包括個單變量時間序列數據元素的個數據元素。
隨后,系統202可以通過對包括個數據元素的每個塊實施離群值檢測技術來檢測離
群值。在一種情況下,系統202可以使用如Rosner濾波技術和Hampel濾波技術的無監督技
術,用于離群值檢測。

為了進一步說明以上提供的描述,提供了一個示例。在一種情況下,可以分析智能
儀表的數據用于離群值檢測。精確度(1-∈)的值可以被假定為0.8。準確度(δ)的值可以被
假定為0.2。在一種情況下,12*103個樣本,即單變量時間序列數據元素的數量。由系統
202計算的標準差(σ)可以是300。系統202可以基于精確度(1-∈)、準確度(δ)、個單變量
時間序列數據元素和標準差(σ)使用上述等式2來確定臨界樣本大小在當前的情
況下,系統202所確定的臨界樣本大小可以是100。因此,系統202可能需要對120個
大小為100個的單變量時間序列數據塊進行分析用于檢測離群值。在一種情況下,離群值檢
測技術可以使用Rosner濾波,并且所需的總時間可以計算為120*O(104)。在另一種情況下,
雖然在整個樣本上使用Rosner濾波,但是計算時間為O(144*106)。因此,相比于常規的時間
性能(O(144*106)),系統202提供了更好的執行時間性能(120*O(104))。

參考圖3a,其示出計算延遲與塊大小之間的關系的示例性圖形表示。圖3a示出實
驗數據顯示在樣本大小為40000時計算延遲為最優值。在當前的情況下,40000的樣本大小
被確定為最優操作點。參考圖3b,其示出精確度與塊大小之間的關系的示例性圖形表示。圖
3b示出的實驗數據顯示在樣本大小為40000時精確度為最高值。因此,系統202在樣本大小
為40000時實現精確度的最大值,即,最優操作點。

在一個實施例中,系統202可以通過在最優操作點操作來同時實現效率和有效性。
系統202還可以使用離群值,用于識別單變量時間序列信號的敏感內容。所述系統還可以使
用敏感內容來測量隱私、欺詐檢測和其他應用。

現在參考圖4,其描述了根據本主題的一個實施例的用于為單變量時間序列信號
實時檢測離群值的方法400。該方法400可以在計算機可執行指令的一般上下文中描述。通
常,計算機可執行指令可以包括例程、程序、對象、組件、數據結構、過程、模塊、函數等,它們
執行特定功能或實現特定抽象數據類型。方法400還可以在分布式計算環境中實施,其中可
以由通過通信網絡鏈接的遠程處理設備執行功能。在分布式計算環境中,計算機可執行指
令可以位于本地和遠程計算機存儲介質中,包括存儲器存儲設備。

描述方法400的次序并不旨在被解釋為限制性的,并且任何數量的所述方法框可
以以任何次序組合實現方法400或替代方法。此外,各個框可以從方法400中刪除而不脫離
本文所描述的主題的精神和范圍。此外,所述方法可以在任何合適的硬件、軟件、固件或其
組合中實現。然而,為了便于說明,在以下描述的實施例中,方法400可以被認為是在上述系
統202中實現的。

在框402,可以從數據源接收單變量時間序列信號。該單變量時間序列信號可以包
括多個數據集。在一個實現中,單變量時間序列信號可以由處理器210接收。

在框404,可以計算多個數據集的數據集的標準差。在一個實現中,標準差可以由
處理器210來計算。

在框406,多個數據集的最優樣本塊大小可以通過使用標準差來計算。在一個實現
中,最優樣本塊大小可以由處理器210來計算。

在框408,可以計算數據集的臨界樣本大小。臨界樣本大小可以基于標準差,單變
量時間序列數據元素的數量、預定的準確度和精確度來計算。在一個實現中,臨界樣本大小
可以由處理器210來計算。

在框410,可以確定數據集的最優操作塊大小。在一個實現中,數據集的最優操作
塊大小可以由處理器210來確定。

在框412,可以基于最優操作塊大小將多個數據集分割成多個塊。在一個實現中,
多個數據集可以由處理器210分割成多個塊。

在框414,可以通過對多個塊執行離群值檢測技術來檢測離群值。在一個實現中,
離群值可以由處理器210來檢測。

雖然已經用特定于結構特征和/或方法的語言描述了用于為單變量時間序列信號
檢測離群值的方法和系統的實現,但應當理解的是,所附權利要求不一定限于所描述的具
體特征或方法。相反,這些具體特征和方法被公開為用于在單變量時間序列信號中檢測離
群值的實現的例子。

上面所討論的示例性實施例可提供某些優點。雖然對于實施本公開的各個方案不
是必需的,但這些優點可以包括由以下特征提供的優點。

一些實施例可以使得所述系統和方法能夠檢測單變量時間序列信號中的離群值,
用于識別單變量時間序列信號的敏感內容。

一些實施例還可以使得所述系統和方法能夠使用單變量時間序列信號的敏感內
容,用于測量隱私和欺詐檢測。

一些實施例可以使得所述系統和方法能夠推導出最優操作點,用于在單變量時間
序列信號中檢測離群值。

一些實施例可以使得所述系統和方法能夠基于最優操作點同時實現效率和有效
性。

一些實施例可以使得所述系統和方法能夠提高無監督離群值檢測方法的計算性
能而幾乎不降低結果的準確度。

關于本文
本文標題:用于為單變量時間序列信號實時檢測離群值的系統和方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100784.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图