當前位置:首頁 » 網路資訊 » 數據處理階段怎樣進行質量控制
擴展閱讀
實習時間不夠可以補嗎 2025-05-14 15:47:49
怎麼可以改文件啊 2025-05-14 15:42:43

數據處理階段怎樣進行質量控制

發布時間: 2023-02-27 12:43:07

⑴ 資料庫的質量控制

一、質量保證控制體系

在資料庫建設過程中,各工作單位和計劃項目綜合組均制定了相應的質量保證體系和措施,從資料的來源、整理錄入、檢查匯總層層嚴格控制。質量保證控制體系內容包括:質量保證組織體系和質量保證制度體系,組織體系和制度體系又由承擔單位和計劃單位綜合項目組兩套體系組成。承擔單位按照本單位全面質量管理制度和辦法建立了以全面質量管理辦公室、項目組和工作組為核心的質量保證組織體系以及完整的質量管理制度體系。以計劃單位為核心的綜合項目組的質量保證組織體系是由計劃項目負責人、工作項目負責人和工作組構成。建立了三級質量檢查監控體系:一是資料庫工作人員的自檢和互檢;二是承擔單位項目組組織的質量抽檢;三是計劃項目綜合組組織的階段性質量抽檢和驗收。在各級檢查過程中,對發現的問題都做了詳細的記錄,並進行了認真修改,保證了錄入資料的准確性。

二、質量保證措施

(一)屬性數據的質量保證措施

屬性數據就是要真實地反映原始資料,質量保證措施最主要的就是質量檢查、核對,形成錄入→檢查→修改→補充→匯總五個步驟的工作流程。每一項內容錄入完成以後,錄入人員必須將錄入數據與原始數據進行校對,自檢率為100%,發現問題及時解決之後,再開始下一項數據的錄入。工作每告一段落,要進行互檢,互檢率也是100%;同時承擔單位項目組進行質量抽檢,抽檢率為30%~50%;計劃項目綜合組的階段性質量抽檢和驗收,抽檢率為20%~30%。資料庫工作人員平時工作有記錄,每次檢查有記載,發現的問題修改情況也有記錄,做到出問題有據可查,責任有人承擔,確保數據錄入的准確和可靠。同時,還制定了安全防範措施,即防計算機病毒破壞、防資料庫數據誤刪除、防蓄意破壞。

(二)圖形數據的質量保證措施

1.地理底圖質量保證措施

本次使用的數字地理底圖是國家測繪局1∶25萬地理要素圖,利用Map GIS的裁剪功能以松嫩平原界線為范圍邊界裁剪而成,圖層要素有外圖廓、經緯網、境界線、水系、公路、鐵路、等高線、高程點等,並依據2005年11月中國地質調查局頒發的《1∶25萬地理底圖編輯要求》和水環所提供的圖庫進行了修編。原地理底圖自帶圖庫與水環所提供的圖庫有很大差別,都按圖層及圖元參數一一替換圖案號及更改參數,保證了更換圖庫前後地理底圖所示內容的一致性。

2.成果圖件數字化質量保證措施

成果圖件均由編圖人員在噴繪的地理底圖上繪制,然後採用300 dpi以上的解析度進行掃描,提高了柵格文件的清晰度,減小了誤差;制圖人員利用Map GIS將圖像配准到已矢量、修編好的地理底圖上,所有經緯網交叉點都作為控制點採集對象,保證了圖像配準的精度;矢量過程中窗口放大到40倍,滑鼠跟蹤輸入;各類成果圖件中松嫩平原邊界在空間上嚴格重合,在面元建立拓撲時,不能作結點平差,分區線元與邊界相交處分區線元用延長靠近母線、母線加點功能,在此基礎上建立拓撲關系形成面元,保證了公共邊界線元空間拓撲的一致性;對不同成果圖件有相同要素的,要將其單獨提取圖層,根據圖件要求予以增加,保證了不同圖件中相同內容的一致性。通過上述工作方法,使圖件數字化質量得到有效的控制。

矢量化後,噴出彩圖檢查圖元信息,圖元信息檢查是保證圖形數據質量的關鍵,這項檢查工作以自檢為主,檢查都在兩遍以上。圖形屬性數據通過MAPGIS屬性管理系統輸入完成,其屬性欄位按照《地下水資源調查評價資料庫標准》要求填寫。

3.提高資料庫工作人員的質量意識

人是保證質量的主動因素,提高資料庫工作人員的質量意識是保證資料庫質量的重要措施,因此在資料庫建設過程中,無論是承擔單位,還是綜合項目綜合組都開展了提高質量意識的重要性教育,使每一個工作人員在思想上重視資料庫質量,在行動上保證資料庫質量。

⑵ 淺談如何保證統計數據的質量

統計數據的質量管理也稱統計數據質量控制,是指為了保證數據達到應有的質量標准,從組織、方法、技術等方面對統計數據的誤差,進行預防、控制、檢查和校正的活動。統計數據的質量主要指統計數據的准確性。數據數據的質量管理貫穿於統計活動的全過程,統計數據質量的高低,直接影響統計分析的科學性和決策性。一、影響數據質量的多元因素數據數據的取得是通過向調查單位搜集大量的原始資料,同時也包括搜集經過加工整理過的次級資料,在規定的時間內,綜合運用不同的調查組織方式進行全面或不全面的調查,取得的統計數據數量龐大,匯總整理可能需要大量的人員參與,對數據進行採集、存儲,經過加工、傳輸等環節整理匯總而獲得。統計數據形成過程中,造成統計數據誤差的因素很多。比如統計基礎工作不規范,原始記錄混亂,統計台賬不健全;核算手續不嚴,計量檢測工具不全;在手工整理、電腦過錄、統計調查數據處理軟體使用過程中統計人員業務能力參差不齊;現行統計方法制度中某些指

⑶ 數據入庫質量控制的方法實現

資料庫數據質量是資料庫的生命,再好的入庫數據質量控制的方法,如果得不能貫徹和執行,也不能保證入庫數據的正確性。所以,基於上述入庫數據質量控制思想,研發了航空物探資料庫數據採集軟體(圖5-3),強制數據入庫工作按規范化的流程執行,保證資料庫數據質量。

數據採集軟體包括數據導入錄入、數據檢查、數據編輯、數據歸檔入庫等功能,為了方便數據採集人員工作,把本系統應用軟體中的數據查詢統計和數據制圖功能也集成到該軟體中。各部分功能分述如下。

圖5-3 資料庫數據採集軟體結構

一、創建項目樹

航空物探勘查項目工作一般分為航空物探生產測量、數據處理和地質解釋3個階段,野外生產測量和數據處理完成之後分別編寫航空物探生產報告和數據處理報告,通過評審後須上交測量資料和處理後的數據。此時,地質解釋工作正進行。

航空物探科研項目工作一般是分課題(二級項目)、課題分子課題(三級項目)等進行的。級別低的項目總是最先完成,然後評審和上交資料;級別較高的項目較後完成,一級項目最後完成,最後上交資料。

如果把勘查項目的3個階段當成3個課題(事實上的確如此,只是習慣上不這樣叫),勘查項目和科研項目不僅在工作形式上是一致的,資料上交的次序也是相同的(圖5-5)。這種按項目完成的先後次序進行項目資料歸檔方式,在資料人工管理人工服務時代,人們並沒有覺得有什麼問題。只是,資料管理方式的變革,人們對資料服務提出了更高的要求,希望資料信息化管理不要再忽視不同級別項目間的關系信息。

這種關系與計算機磁碟文件管理的目錄間關系是相似的,目錄等同於項目,子目錄等同於子項目。目錄、子目錄間的關系似樹形結構,稱為目錄樹;項目、子項目間的關系也似樹形結構,稱之為項目樹。有計算機常識的人都知道,按照一定的方式建立目錄樹,把文件存在相應目錄下,不僅文件管理更有條理,用戶查找文件的速度也成倍提高。因此,本系統採用項目樹方式來管理項目資料。該管理方式符合人們的思維習慣,資料查詢更方便。

圖5-4 資料庫數據採集軟體主界面

圖5-5 不同級別項目資料歸檔次序圖

在新項目數據導入或錄入資料庫之前,須先創建項目樹。建項目樹與在磁碟上創建文件目錄相似,按項目(目錄)、子項目(子目錄)順序創建,不能倒行逆施。然後,按項目導入或錄入數據。圖5-6為創建項目樹界面。用戶在父項目的下拉框中選擇新建項目的父項目(一級項目為null),再填寫項目的檔案號等信息後,按「確定」創建項目樹的根項目(一級項目),或項目樹的一個節點(子項目),並自動為項目分配一個項目標識號,作為識別項目和項目資料的唯一標志。

圖5-6 創建項目樹功能界面

二、數據錄入和導入

項目數據進入資料庫有數據錄入和數據導入兩種方式。數據錄入方式是使用系統的數據錄入界面將數據直接錄入到數據採集庫中。若用戶已按入庫數據介面標准要求整理好入庫數據,可採用導入方式將數據導入到數據採集庫中。其實,這兩種方式沒有本質上的差別。例如,項目概況數據、空間要素類(岩石物性、異常、解釋評價)屬性數據等都必須是人工錄入的,區別是誰來錄入?資料整理人員,還是數據採集人員?這不屬本系統的研究范疇,系統支持這兩種數據入庫方式。

因資料庫的每張表所包含的信息不同,所以每張表都應有獨立的數據錄入界面(錄入、瀏覽、編輯數據)。加之用戶查詢界面、數據統計界面,1張資料庫表需要3個用戶界面。本系統共有地球物理資料庫表31張,按照常規做法需要開發93個用戶界面。隨著航空物探技術發展,可能在資料庫表中增加新的信息,或新增資料庫表,都需要通過修改軟體代碼來滿足新的需求。該方法不僅軟體研發和測試工作量大,後期軟體維護工作量也很大。

為此,本系統研究出根據資料庫表的描述信息動態生成用戶界面的方法,此方法具有很好的通用性,對資料庫的所有表均適用,有效地降低了軟體開發工作量,方便了後期軟體維護。圖5-7是使用該方法動態生成的項目概況數據錄入界面,用於項目概況數據的錄入和編輯。

圖5-7 項目概況數據的錄入定製界面

該方法是將資料庫表的描述信息存儲在資料庫中的庫表屬性清單表中,在運行時系統根據資料庫表名稱從庫表屬性清單表和其相關的數據字典表中提取該表對應的欄位信息,然後調用界面定製函數,根據界面類型(錄入、瀏覽、修改、簡單查詢)動態生成相應的界面。

由於資料庫表包含的欄位數相差較大(多的近30個欄位,少的不到10個欄位)、同一表的欄位類型不同(有字元串、數字、時間、大欄位)、欄位數據類型長度不一(有的欄位長度為200個字元,有的只有1個字元),同時庫表的相關欄位在界面上相鄰擺放較合適,針對這些問題在界面定製時採取以下策略:

1)對庫表欄位分組,並為每組取一個合適的名字。在定製界面上,同組的欄位擺放在同一張卡片中,組名作為卡片名。

2)欄位值來源於數據字典表的數字型欄位,用組合框顯示其值,組合框中內容從數據字典表提取。用文本框顯示其他數字型欄位、字元串型欄位值。

3)根據定製界面上父控制項的尺寸、欄位名稱、欄位數據類型長度確定其對應控制項的位置和大小,控制項的布局遵循一行最多顯示兩欄位的原則。

不同類型界面的定製方法大同小異,因此採用了同界面定製代碼,只是在個別地方根據需要相關處理。例如,對於大欄位型的欄位,如果界面定製類型為「錄入」,則其對應文本框後的命令按鈕為打開文件。如果界面定製類型為「瀏覽」,則其對應文本框後的命令按鈕為瀏覽大欄位值。

三、入庫前系統檢查

入庫數據進入採集數據前,系統對其進行唯一性檢查、缺項檢查和數據類型檢查,即入庫前系統檢查。

唯一性檢查:航空物探資料庫是航空物探數據的最終目的地,但可能會有部分項目數據因沒有通過質量檢查而滯留在採集庫中。在進行新的項目數據採集過程時,為了避免項目數據2次入庫,在其進入採集庫前需要進行唯一性檢查。方法是用入庫數據每條記錄主鍵作為查詢條件,查找資料庫和採集庫中相對應的庫表是否存在有相同的記錄。例如,黃海北部海域航空磁測普查(項目標識號AGS011978000251),在項目概況數據導入採集庫時,根據項目概況資料庫表的項目標識號(主鍵)在採集庫和資料庫的相應表中查找是否有相同的項目標識號存在:若資料庫中存在,說明該項目數據已歸檔;若採集庫中存在,該項目數據已被導入採集庫中待檢,不需再次導入。

缺項檢查:入庫數據的欄位數必須等於相應資料庫表的欄位數,比資料庫表欄位數多或少都不能通過缺項檢查。

數據類型檢查:對入庫數據所有欄位數據進行類型檢查。若是日期型數據,則檢查數據格式(YYYY-MM-DD),YYYY、MM、DD是否為數字。若數字型數據,檢查整數位和小數位的位數是否超過范圍,整數位和小數位是否為數字。字元型數據,則檢查字元串長度是否超限。

入庫數據通過入庫前系統檢查後被存入採集庫中,否則軟體給出錯誤提示信息(圖5-8)。採集人員根據提示信息糾正數據中存在錯誤,再新導入數據。

圖5-8 入庫前系統檢查的錯誤提示

四、入庫後系統檢查

系統對進入採集庫中的數據進行非空和可空檢查、前後數據檢查、相關數據檢查、值域范圍檢查、選擇范圍檢查,即入庫後系統檢查(圖5-9)。

非空檢查:入庫數據指定欄位的值不能為空,如所有資料庫表的項目標識不能為空,項目名稱、項目參加單位名稱、參加人員名稱都不能為空。

可空缺項檢查:入庫數據指定欄位的值在有一定條件下可以為空,例如當勘查項目概況表記錄方式欄位的值為打點記錄或紙卷模擬記錄時,航磁數據的采樣率為空。若為數字收錄,航磁數據的采樣率不能為空。

前後數據檢查:檢查入庫數據指定欄位與其父表中相同欄位數據的一致性,如項目參加人員表中的項目標識必須與項目概況信息中的項目標識相同。

圖5-9 入庫後系統檢查

相關數據檢查:檢查相關表中相關欄位數據對入庫數據指定欄位的約束,如項目概況信息中有項目的起始日期和完成日期兩個欄位,那麼項目人員參加項目工作的起止日期都必須在項目的起始日期和完成日期之間。

值域范圍檢查:入庫數據指定欄位的數值必須是在設定的值域范圍內,如勘查項目概況中的調機小時設定在0和100 h范圍,若超過此范圍,調機小時數據有錯誤。

選擇范圍檢查:入庫數據指定欄位的數值必須是一個已知數據集合的元素之一,如項目成果評價只能在優秀、良好、通過和不合格4個選項中擇其一。

根據選定的庫表名提取該庫表各個欄位的檢查規則,逐條記錄進行前後數據檢查、相關檢查、值域范圍檢查、選擇范圍檢查。發現錯誤,把錯誤記錄暫存在內存中,繼續進行下條記錄檢查,至所有記錄檢查完。把錯誤寫入檢查日誌表(若有相同檢查日誌記錄,則先備份到檢查日誌備份表後再刪除,以便查看數據入庫不通過的歷史軌跡);否則,寫入一條系統檢查通過的日誌記錄。再進行另一張表的系統檢查,所有庫表全部檢查後,若有錯誤,系統給出錯誤提示信息。

五、拓撲檢查

航空物探解釋數據和評價數據為空間要素類數據,入庫時要進行拓撲檢查(表5-6,圖5-10)。檢查各要素類之間相互位置關系的正確性。

以油氣遠景評價數據集為例說明拓撲檢查。檢查規則是局部構造異常位置應位於油氣遠景評價區的某一分布區內,油氣遠景評價區之間不以有重疊。若發現錯誤,把檢查的錯誤日誌暫存在內存中,繼續進行拓撲檢查;檢查完成後,把錯誤寫入檢查日誌表。沒有發現拓撲錯誤寫入一條通過拓撲檢查的日誌記錄。

表5-7 解釋數據和評價數據拓撲檢查規則表

圖5-10 拓撲檢查空間數據源列表界面

六、文件比較檢查

通過入庫後系統檢查和拓撲檢查的入庫數據,系統將對其進行與原數據文件比較檢查,保證數據的一致性。所有的入庫數據均須與原數據文件進行比較檢查。

根據項目標識號和庫表名從採集庫中提取相應的數據,若存在數據字典代碼,則將其替換文字字元,存放在Oracle臨時表中;打開本地路徑下原數據文件,逐條記錄對比。若有不匹配的記錄,顯示提示信息,並在日誌庫中寫一條檢查日誌。

七、人工檢查與復核

經過系統檢查、空間拓撲檢查,以及文件比較檢查後,還必須進行人工檢查和人工復核檢查。人工檢查是用原表格數據、空間屬性數據、解釋評價數據、圖件、文字報告(含軟體源代碼)與採集庫中相應的各類數據進行人工比對。若有原始紙質圖件,則需從採集庫中提取相應的數據使用相同軟體相同繪圖參數繪圖,並加以比較。若人工檢查發現錯誤,寫明錯誤原因(圖5-11),保存日誌。

圖5-11 填寫人工檢查結果界面

人工復核檢查與人工檢查過程完成一樣,只是人員不同。

八、系統歸檔檢查

在入庫數據歸檔到資料庫之前,系統對歸檔項目數據的完整性進行檢查,即歸檔檢查。系統根據歸檔項目的類別、工作性質、測量方法及歸檔階段,定義了項目資料歸檔對照表,該表記錄每類項目各個歸檔階段的項目資料清單和資料的歸檔標識。在資料歸檔時,系統檢查項目資料的歸檔標識。若為非空,說明該資料必須歸檔;若為空,說明該資料可歸檔,從而保證了資料庫中的項目資料完整性。

如區域航空磁力勘查項目資料歸檔分為3個階段(圖5-12),第一階段是生產測量資料歸檔,航空磁力勘查項目概況(項目概況、勘查項目概況、航磁概況)信息、測區信息生產報告必須歸檔。第二階段是數據處理資料歸檔,航跡線數據、航磁數據、數據處理報告必須歸檔。第三階段是地質解釋資料歸檔,項目概況信息、岩石磁性數據、圖件數據、文字數據、斷裂構造和區域構造單元必須歸檔。

科研項目資料歸檔時,根據項目標識號及項目級次,確定該項目是否有子項目,以及子項目資料是否已全部歸檔。在所有子項目資料全部歸檔後,使用項目資料歸檔向導(圖5-13)進行該級次的項目資料歸檔。如果項目屬保密項目,系統同時對歸檔數據進行加密。數據成功歸檔後,系統刪除採集庫中已歸檔數據,並把各種檢查日誌存放到備份日誌表中,以備檢查。

圖5-12 勘查項目資料歸檔示意圖

圖5-13 項目資料歸檔向導

⑷ 如何提高數據質量

如何提高數據質量
大數據時代帶來了海量、多樣、非結構化的數據,我們得以進行更加廣泛且深入的分析,但這必須建立在高質量的數據上才有意義。本期以企業級的視角,介紹數據質量的評價、提升與監控。
大數據的時代,數據資產及其價值利用能力逐漸成為構成企業核心競爭力的關鍵要素;然而,大數據應用必須建立在質量可靠的數據之上才有意義,建立在低質量甚至錯誤數據之上的應用有可能與其初心南轅北轍背道而馳。因此,數據質量正是企業應用數據的瓶頸,高質量的數據可以決定數據應用的上限,而低質量的數據則必然拉低數據應用的下限。
數據質量一般指數據能夠真實、完整反映經營管理實際情況的程度,通常可在以下幾個方面衡量和評價:
准確性:數據在系統中的值與真實值相比的符合情況,數據應符合業務規則和統計口徑。常見數據准確性問題如:
與實際情況不符:數據來源存在錯誤,難以通過規范進行判斷與約束;
與業務規范不符:在數據的採集、使用、管理、維護過程中,業務規范缺乏或執行不力,導致數據缺乏准確性。
完整性:數據的完備程度。常見數據完整性問題如:
系統已設定欄位,但在實際業務操作中並未完整採集該欄位數據,導致數據缺失或不完整;
系統未設定欄位:存在數據需求,但未在系統中設定對應的取數欄位。
一致性:系統內外部數據源之間的數據一致程度,數據是否遵循了統一的規范,數據集合是否保持了統一的格式。常見一致性問題如:
缺乏系統聯動或聯動出錯:系統間應該相同的數據卻不一致,缺乏必要的聯動和核對。
及時性:數據在採集、傳送、處理等環節快速支持應用的程度,考察數據的時間特性對應用的滿足程度。及時性關繫到系統能否在規定的時間內獲取到系統需要的特定時間產生的數據,以完成系統功能。常見及時性問題如:
缺乏時效性:未按照規定的數據更新時間要求對數據進行更新。
可用性:用來衡量數據項整合和應用的可用程度。常見可用性問題如:
缺乏應用功能,沒有相關的數據處理、加工規則或數據模型的應用功能,獲取目標數據;
缺乏整合共享,數據分散,不易有效整合和共享。
其他衡量標准再如有效性可考慮對數據格式、類型、標準的遵從程度,合理性可考慮數據符合邏輯約束的程度。此前一項對某企業數據質量問題進行的調研顯示常見數據質量問題中准確性問題佔33%,完整性問題佔28%,可用性問題佔24%,一致性問題佔8%,在一定程度上代表了國內企業面臨的數據問題。
提高數據質量的首要任務是定義一套標准化的數據規范,對具體數據項的定義、口徑、格式、取值、單位等進行規范說明,形成對該數據項的具體質量要求。依託這套規范作為衡量和提高數據質量的標尺,可在數據採集、加工和應用的各環節對關鍵數據項進行預防性或監測性的核檢。廣義的企業級數據字典可以作為數據標准化規范的載體,對企業運營過程中涉及的數據項名稱、業務定義和規則等要素進行收錄、規范和編制,對數據項描述信息進行標准化處理,統一定義對安全性和數據質量的要求,進而為業務運營提供可靠的數據服務、提高整體數據質量奠定基礎。理想情況下廣義的企業級數據字典是完備的,企業各系統全部數據項都被數據字典收錄,不存在同名不同義或同義不同名的情況。與此相對,狹義的數據字典通常是針對單一系統的技術屬性標准,為單一系統的開發和應用服務。
企業級數據字典通常分為三層:數據項、值域和域取值。數據項層面的規范主要包括名稱、業務規則定義、數據安全要求和數據質量要求等。
數據項名稱:包括數據項的中文名稱、英文名稱和英文簡稱,含義不同的數據項名稱不同,物理資料庫應沿用數據字典定義的全局唯一的英文簡稱對欄位命名
業務規則定義:包括數據的業務含義、轉換規則、加工規則等安全元數據:包含數據來源、所有者和訪問許可權等安全要求的定義
數據質量要求:在數據規范定義基礎之上,提出滿足業務需要的數據長度、格式、取值、數據處理、勾稽關系等要求,以此作為數據質量管理的落腳點
值域可細分為代碼域、編碼域、文本域、金額域、數值域、時間域等。例如「出生地」數據項對應值域為「行政區劃」代碼域,引用國家標准GB-T2260-2016《中華人民共和國行政區劃代碼》,對應的域取值為該國標定義的代碼表。再如「借記卡號」數據項對應值域為「19位卡號」編碼域,定義16位卡號和19位卡號兩種編碼方式,不需列舉對應具體的域取值。
數據質量管理是指在數據創建、加工、使用和遷移等過程中,通過開展數據質量定義、過程式控制制、監測、問題分析和整改、評估與考核等一系列管理活動,提高數據質量以滿足業務要求。數據質量管理工作遵循業務引領的原則,確定重點質量管控范圍,並動態調整階段性管控重點,持續優化。可按照「誰創建、誰負責;誰加工、誰負責;誰提供、誰負責」的原則界定數據質量管理責任,由數據流轉環節的各責任方對管轄范圍內的數據質量負責。對數據質量規則優先採取系統程序的自動化控制措施,並盡可能前移管控點,從源頭上控制數據質量。
數據質量監控點通常針對關鍵數據項設置實施,定義數據質量監控規則,生成監控報警,按嚴重性等級分級報告,由相應層級進行處理和響應。關鍵數據項根據經驗判斷,一般影響較廣如涉及多業務條線,或應用於關鍵業務環節如合約簽訂、會計核算、績效分析、產品定價、資金收付等,或應用於內部經營管理、對外信息披露和行業監管要求,例如財務報告數據和新資本協議實施中明確提出的重要指標項。
數據質量監控點的控制手段分為預防型和監測型:
預防性控制防止錯誤數據的產生,一般部署在數據採集點,用於控制手工輸入的源數據,以及批量導入的源數據校驗:
數據輸入校驗:例如貸款利率的輸入校驗;
數據閾值:例如數據非空,數據取值超出值域定義合理范圍,數據格式不符合標准等;
質量控制方式:系統自動校驗/雙人手工復核;
系統校驗方式:強制,如不符合規則無法通過。
監測型控制監測錯誤數據,發現數據質量問題進行報警。一般部署在數據加工和應用環節,驗證數據完整性、一致性和准確性等:
數據輸出校驗:例如貸款余額總分核對
數據一致性:例如交易頭寸與總帳系統記錄的交易頭寸一致
質量控制方式:系統自動校驗
系統校驗方式:非強制,錯誤及差異提示
對選定的關鍵數據項,需定義數據質量規則以及數據質量等級。數據質量等級可利用「閾值」和「容忍度」進行分級:
良好:數據項質量評分高於「閾值」
可容忍:數據項質量評分低於「閾值」,但高於「容忍度」
報警:數據項質量評分低於「容忍度」
嚴重報警:數據項的質量問題將帶來非常嚴重的影響,人工經驗判斷
關鍵數據項監控點的詳細信息應在企業級數據字典中維護更新,與其開發、實施和測試情況保持同步。
在進行數據質量分等級報告及響應糾錯時應遵守如下原則:
及時性。對導致數據質量等級進入「可容忍」、「報警」和「嚴重報警」狀態的數據質量事件能夠及時發現、報告和處理;
規范性:針對分級別的數據質量問題,匯報至利益相關方,配置相應資源;
高效性:數據質量問題,在分級別規定時間內被解決。應按照「可容忍」、「報警」和「嚴重報警」酌情規定響應時間;
有序性。在開展數據質量分等級報告工作時,應有序上報、統一領導、分級負責。
部署在UDP層面的數據質量監控程序實時或定期監測關鍵數據項的質量,對其數據質量進行評分,通過比較該監控點的「閾值」和「容忍度」,將數據質量進行分級,對於非「良好」的評價結果,數據質量監控程序將發送報警消息通知數據質量管理人員。報警消息內容包括問題定位頭文件和具體描述。數據質量管理人員根據報警信息調查問題數據項,驗證報警內容,生成預警信息通知下游用戶,同時填制糾錯工單通知相關責任人員。相關責任人員依據糾錯通知提示的具體內容,開展數據質量問題調查,提出數據質量改進需求和解決方案,由實施運維團隊在數據應用層面修正,或在數據採集和集成層面修正。若糾錯告警問題由數據質量要求過於嚴苛或控制規則錯誤引起,應修改關鍵數據項清單及其相關監控規則,並由實施運維團隊修改或取消已部署的對應監控點。