• / 7
  • 下載費用:30 金幣  

一種ETL數據血統查詢系統及查詢方法.pdf

摘要
申請專利號:

CN201510272289.7

申請日:

2015.05.25

公開號:

CN104915390A

公開日:

2015.09.16

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20150525|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 廣州精點計算機科技有限公司
發明人: 許飛月; 李青海; 簡宋全; 侯大勇; 鄒立斌
地址: 510630廣東省廣州市天河北路906高科大廈A-701
優先權:
專利代理機構: 北京隆源天恒知識產權代理事務所(普通合伙)11473 代理人: 閆冬
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510272289.7

授權公告號:

|||

法律狀態公告日:

2015.10.14|||2015.09.16

法律狀態類型:

實質審查的生效|||公開

摘要

本發明涉及一種ETL數據血統查詢系統,其特征在于,包括一運行模塊與一數據血統管理模塊,所述運行模塊能夠運行任務腳本、并且能夠劃分任務形成帶有操作信息的任務腳本文件,并將所述帶有操作信息的任務劃分文件傳送至所述數據血統管理模塊;所述數據血統管理模塊能夠接受用戶配置文件,收集源數據文件、帶有操作信息的任務腳本文件,對數據血統信息進行存儲。

權利要求書

權利要求書
1.  一種ETL數據血統查詢系統,其特征在于,包括一運行模塊與一數據血統管理模塊,
所述運行模塊能夠運行任務腳本、并且能夠劃分任務形成帶有操作信息的任務腳本文件,并將所述帶有操作信息的任務劃分文件傳送至所述數據血統管理模塊;
所述數據血統管理模塊能夠接受用戶配置文件,收集源數據文件、帶有操作信息的任務腳本文件,對數據血統信息進行存儲。

2.  如權利要求1所述的ETL數據血統查詢系統,其特征在于,所述運行模塊包括:
一操作劃分單元,用于對任務腳本進行劃分、形成帶有操作信息的任務腳本文件;
一腳本運行單元:獲取源數據與運行帶有操作信息的任務劃分文件,運行任務;

3.  如權利要求1所述的ETL數據血統查詢系統,其特征在于,所述數據血統管理模塊包括:
一數據血統獲取單元,能夠發送和接受用戶配置文件、獲取操作信息的任務腳本文件,將數據血統寫入數據血統表與數據血統附屬表;
一數據血統存儲單元,用于存儲所述數據血統表與數據血統附屬表。

4.  如權利要求3所述的ETL數據血統查詢系統,其特征在于,所述數據血統獲取單元包括:
一操作信息獲取子單元,用于獲取用戶配置文件、帶有操作信息的任務腳本文件與任務源文件;
一字段信息獲取子單元,用于獲取一次操作的字段信息;
一控制子單元,用于根據所述操作信息獲取子單元與所述字段信息獲取子單元獲取的數據進行判斷,確定對應操作對每個字段的行為結果。

5.  如權利要求4所述的ETL數據血統查詢系統,其特征在于,所述控制子單元能夠對當前運行任務進行監控。

6.  如權利要求4所述的ETL數據血統查詢系統,其特征在于,所述行為結果包括:增行,減行,添加,刪除,更新,修改元數據,查詢。

7.  一種應用權利要求1至6中任一項所述系統的ETL數據血統查詢方法,其特征在于,包括步驟:
S1:用戶填寫配置文件,所述配置文件由數據血統獲取單元獲取;
S2:操作劃分單元獲取ETL任務腳本并對其處理,生成帶有操作信息的任務腳本文件;
S3:所述腳本運行單元獲取帶有操作信息的任務腳本文件進行處理,生成腳本運行文件;
S4:數據血統獲取單元獲取腳本運行文件、源數據文件進行分析,獲取數據血統;
S5:所述數據血統獲取單元將數據血統寫入數據血統表與數據血統附屬表;
S6:所述數據血統獲取單元將數據血統表與數據血統附屬表存入數據血統存儲單元。

8.  如權利要求7所述的ETL數據血統查詢方法,其特征在于,所述步驟S4具體為:
操作信息獲取子單元根據配置文件獲取一些列的操作的操作號與SQL語言,字段信息獲取子單元獲取一次操作所得到的字段。

說明書

說明書一種ETL數據血統查詢系統及查詢方法
技術領域
本發明涉及數據管理領域,特別涉及一種ETL數據血統查詢系統及查詢方法。
技術背景
隨著企業業務范圍的擴大,企業需要對各個區域的不同業務的數據進行集成并分析。可以認為,商業智能是對商業信息的搜集、管理和分析過程,目的是使企業的各級決策者獲得知識或洞察力,促使他們做出對企業更有利的決策。商業智能一般由數據倉庫、聯機分析處理、數據挖掘、數據備份和恢復等部分組成。數據倉庫是為企業所有級別的決策制定過程提供支持的所有類型數據的戰略集合。它是單個數據存儲,出于分析性報告和決策支持的目的而創建。為企業提供需要業務智能來指導業務流程改進和監視時間、成本、質量和控制。ETL過程就是構建數據倉庫的重要過程。ETL是Extraction Transformation Loading的縮寫,中文名稱為數據抽取、轉換和加載。ETL負責將來自不同系統的,屬于同主題的且具有不同數據結構的數據抽取到中間層后進行數據格式的轉換和數據內容的清洗,最后加載到數據倉庫中,是構建數據倉庫非常重要的一環。目前ETL主要過程為轉換,我們需要對ETL過程進行監督。目前的ETL過程監督只能單獨監督某個中間過程的輸出字段和輸出預覽,不能有效給出整個ETL過程的數據修改情況。這將使得在ETL過程創建完成后非常不易于修改,因為一旦修改其中某個環節,該環節之后的環節都必須單獨檢查和修正,ETL過程不易于改進。
鑒于上述缺陷,本發明創作者經過長時間的研究和實踐終于獲得了本發明。
發明內容
為解決上述技術缺陷,本發明采用的技術方案在于,提供一種ETL數據血統查詢系統,其特征在于,包括一運行模塊與一數據血統管理模塊,
所述運行模塊能夠運行任務腳本、并且能夠劃分任務形成帶有操作信息的任務腳本文件,并將所述帶有操作信息的任務劃分文件傳送至所述數據血統管理模塊;
所述數據血統管理模塊能夠接受用戶配置文件,收集源數據文件、帶有操作信息的任務腳本文件,對數據血統信息進行存儲。
較佳的,所述運行模塊包括:
一操作劃分單元,用于對任務腳本進行劃分、形成帶有操作信息的任務腳本文件;
一腳本運行單元:獲取源數據與運行帶有操作信息的任務劃分文件,運行任務;
較佳的,所述數據血統管理模塊包括:
一數據血統獲取單元,能夠發送和接受用戶配置文件、獲取操作信息的任務腳本文件,將數據血統寫入數據血統表與數據血統附屬表;
一數據血統存儲單元,用于存儲所述數據血統表與數據血統附屬表。
較佳的,所述數據血統獲取單元包括:
一操作信息獲取子單元,用于獲取用戶配置文件、帶有操作信息的任務腳本文件與任務源文件;
一字段信息獲取子單元,用于獲取一次操作的字段信息;
一控制子單元,用于根據所述操作信息獲取子單元與所述字段信息獲取子單元獲取的數據進行判斷,確定對應操作對每個字段的行為結果。
較佳的,所述控制子單元能夠對當前運行任務進行監控。
較佳的,所述行為結果包括:增行,減行,添加,刪除,更新,修改元數據,查詢。
較佳的,包括步驟:
S1:用戶填寫配置文件,所述配置文件由數據血統獲取單元獲取;
S2:操作劃分單元獲取ETL任務腳本并對其處理,生成帶有操作信息的任務腳本文件;
S3:所述腳本運行單元獲取帶有操作信息的任務腳本文件進行處理,生成腳本運行文件;
S4:數據血統獲取單元獲取腳本運行文件、源數據文件進行分析,獲取數據血統;
S5:所述數據血統獲取單元將數據血統寫入數據血統表與數據血統附屬表;
S6:所述數據血統獲取單元將數據血統表與數據血統附屬表存入數據血統存儲單元。
較佳的,所述步驟S4具體為:
操作信息獲取子單元根據配置文件獲取一些列的操作的操作號與SQL語言,字段信息獲取子單元獲取一次操作所得到的字段。
與現有技術相比較,本發明的有益效果在于:開發人員可以自行設置參數,選擇需要查看的數據血統,此裝置可以把用戶需要的數據血統以圖表的方式展示出來。該圖表包含了操作的順序和每個操作對數據的行為。該方法及裝置還有出錯檢測功能,操作出錯情況可以顯示在上述圖表中。此外,用戶還可以任意選擇任務斷點以及查看該斷點的數據輸出情況及數據血統。
附圖說明
圖1為本發明中所述ETL數據血統查詢系統結構示意圖;
圖2為本發明中所述數據血統獲取單元結構示意圖。
具體實施方式
為便于本領域技術人員對本發明的技術方案和有益效果進行理解,特結合附圖對具體實施方式進行如下描述。
請參見圖1所示,圖1為本發明所述ETL數據血統查詢系統結構 圖。一種ETL數據血統查詢系統,包括運行模塊1與數據血統管理模塊2。所述運行模塊1將數據處理任務進行劃分、運行,所述數據血統管理模塊2能夠對系統運行中所涉及到的數據、數據血統進行管理,形成數據血統表和數據血統附屬表。
所述運行模塊1包括一操作劃分單元11與一腳本運行單元12。
操作劃分單元11,將輸入到操作劃分單元11的ETL任務腳本文件中的ETL任務劃分成操作并且輸出帶有操作信息的任務腳本文件。
所述操作劃分單元11將ETL任務劃分成操作的規則是以處理后的數據行全部輸出到緩存為一次操作。將任務分成一系列的操作后為操作編號。將操作開始、操作結束和操作序號統稱為操作信息,將操作信息寫入ETL任務腳本文件生成帶有操作信息的ETL任務腳本文件。帶有操作信息的ETL任務腳本文件是帶有操作開始、操作結束和操作序號的ETL任務腳本文件。
腳本運行單元12與所述操作劃分單元11相連,接收操作號、行數和源數據文件,執行所述操作劃分單元11輸入到腳本運行單元12的帶有操作信息的任務腳本文件,輸出所述操作號對應的操作輸出的所述行數的緩存行集。所述源數據文件包括各種關系型數據文件和關系型數據庫表。腳本運行單元102根據操作號確定要運行到的操作,根據行數確定運行結束后需要輸出到緩存行集的數據行的行數。
所述數據血統管理模塊2包括一數據血統獲取單元21與一數據血統存儲單元22。
所述數據血統獲取單元與所述操作劃分單元11相連,并且獲取所述操作劃分單元11生成的帶有操作信息的任務腳本文件,其還能夠獲取用戶配置文件與源數據文件,繼而形成數據血統附屬表。所述配置文件是指系統在運行之初用戶設置的信息文件,其中包含用戶希望對數據進行哪些血統管理和查詢,其用于自定義數據血統表,可以減少和裝置的運作時間。
請參見圖2所示,其為本發明所示數據血統獲取單元結構圖。
所述數據血統獲取單元21包括一操作信息獲取子單元211、一字段信息獲取子單元212、一控制子單元213;
其中,所述操作信息獲取子單元211、所述字段信息獲取子單元212、所述控制子單元213順序相連,所述操作信息獲取子單元211能夠獲取一系列操作的操作號和相應的SQL語言(Structured Query Language語言,即結構式查詢語言),其能夠檢驗腳本段中的腳本,篩選其中的SQL語言,并將其記錄下來。字段信息獲取子單元212,能夠通過所述操作信息獲取子單元211獲取一次操作得到的字段。
控制子單元213能夠讀取所述操作信息獲取子單元211所獲取的操作號與SQL語言與所述字段信息獲取子單元212獲取的一次操作所得到的字段,根據一次操作的SQL語言和所述操作得到的字段判斷所述操作對每個字段的行為結果。所述具體行為包括增行,減行,添加,刪除,更新,修改元數據,查詢。增行,該字段插入行;減行;該字段刪除行;添加,添加該字段;刪除,刪除該字段;更新,更新該字段;修改元數據;修改該字段元數據。
所述控制子單元213,能夠對當前操作信息進行實時監控,若當前操作出錯中止,則在表中對應的位置寫“操作出錯”并結束寫表。
本發明所述ETL數據血統查詢系統通過下述方法進行運行:
S1:用戶填寫配置文件,所述配置文件由數據血統獲取單元獲取;
本系統可以實現訂制化數據血統查詢,在數據血統查詢之前,用戶可以填寫配置文件,包括用戶想看哪些字段的信息、哪一種處理信息等,通過訂制化配置文件,可以減少系統給的運算時間。
S2:操作劃分單元獲取ETL任務腳本并對其處理,生成帶有操作信息的任務腳本文件;
S3:所述腳本運行單元獲取帶有操作信息的任務腳本文件進行處理,生成腳本運行文件;
S4:數據血統獲取單元獲取腳本運行文件、源數據文件進行分析,獲取數據血統;
操作信息獲取子單元211根據配置文件獲取一些列的操作的操作號與SQL語言,字段信息獲取子單元212獲取一次操作所得到的字段,所屬字段信息獲取子單元所獲取的字段長度根據所述配置文件決 定,不會超過源數據長度。
S5:所述數據血統獲取單元將數據血統寫入數據血統表與數據血統附屬表;
所述數據血統表為一關系表,表征字段名與操作號之間的聯系,表述上述的操作對上述實例字段的行為結果;數據血統附屬表為一關系表,記錄操作號與其對應的SQL語言。
S6:所述數據血統獲取單元將數據血統表與數據血統附屬表存入數據血統存儲單元。
所述數據血統表與數據血統附屬表存入數據血統存儲單元,供用戶隨時查詢、調用、查看。
以上所述僅為本發明的較佳實施例,對本發明而言僅僅是說明性的,而非限制性的。本專業技術人員理解,在本發明權利要求所限定的精神和范圍內可對其進行許多改變和修改,甚至等效,但都將落入本發明的保護范圍內。

關 鍵 詞:
一種 ETL 數據 血統 查詢 系統 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種ETL數據血統查詢系統及查詢方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6373507.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图