當前位置:首頁 » 網路資訊 » 數據質量怎樣落實到各部門
擴展閱讀
圖片是否可以局部鏡像 2025-06-07 06:12:00
honor6x怎樣連接u盤 2025-06-07 06:11:58

數據質量怎樣落實到各部門

發布時間: 2023-05-30 04:48:41

① 提高數據質量的步驟和措施

由於大多數系統和應用程序會持續不斷接收到新數據,數據量也在不斷增加,因此確保數據質量並不是一次就能完成的。所有企業都應該使用一種反復進行的階段性過程來管理數據質量,此過程包括數據質量評估、規劃以及策略的選擇和實施。

第一步對數據質量進行評估。評估當前的數據質量狀態是第一步。對數據質量進行評估能幫助企業准確地了解數據的內容、質量和結構。主管人員參與數據質量評估以及分析在數據檢查過程中發現的問題對於數據質量評估來說都很重要。在最有效的數據質量評估中,所有問題都將按照對業務影響從大到小的順序列出,這將幫助IT機構節省項目成本。

第二步,制訂數據質量計劃。徹底了解企業數據的內容和質量後,接下來的步驟是制訂一個計劃,來修改當前的錯誤並避免未來錯誤的發生。有效的計劃不但可以提高企業當前所有應用程序中數據的質量,還將制定一些方式以確保新應用程序從一開始就遵循數據質量規則。

第三步,選擇和實施數據質量策略。選擇改善企業數據質量的策略,要求決策者權衡每個數據質量計劃的成本以及該策略產生的影響。目前的策略類型有兩種: 在企業輸入數據時提高數據質量的方法稱為“上游”方法,而從運營系統提取數據的應用程序(如數據倉庫)中改善數據質量的方法是“下游”方法。

上游策略研究當前應用程序的邏輯、數據和流程,解決檢查過程中發現的異常情況。此策略可能涉及到更改應用程序邏輯、添加更好的表驗證、改善與數據輸入相關的流程,它致力於企業數據的高准確性。另外,此策略還要求使用應用程序本身附帶的數據質量功能。

下游策略解決目標應用程序或數據倉庫(而非數據源)中的數據質量問題。由於數據可以根據需要隨時進行修改,所以企業能夠在流程(尤其是數據轉換、名稱和地址清洗以及查找驗證)中改善數據質量。下游策略僅為目標應用程序或數據倉庫改善數據質量,但與上游策略相比,它的實施過程更簡單,成本更低。

1. 建立數據的標准,明確數據的定義。

通常,獨立的應用系統會有一個比較模糊的、有時也會有比較清晰的數據標准和數據定義。為了保證系統的正常運行,這些系統的用戶必須在數據的標准和數據的定義上達成一致。不過,這些標准和定義大多數時候與企業中其他系統中的數據標准和定義並不一致。因此,需要從整個企業的角度出發,建立統一的數據標准和數據定義,同時,整個企業必須就這個數據標准和數據定義達成共識。這一句話說起來容易做起來難。因為人通常本能地會拒絕改變,改變數據標准和定義並不是輕而易舉的。為此,強烈建立在企業中除了設立一個高管級別的數據質量管理委員會外,還需要選定一個執行能力強的項目負責人,需要他推動相關人員接受新的`數據標准和定義。

在具體建立新的數據標准和數據定義時,需要仔細權衡,哪些定義和標準是出於企業內部的原因(比如出於方便、習慣等)制訂的,哪些定義和標準是因為要有效反映外部的真實世界而制訂的。相對而言,前者更容易執行一些。

2. 建立一個可重復的數據收集、數據修改和數據維護流程。

數據管理面臨的兩個主要挑戰是企業本身的復雜性和身份信息不斷變化。這兩個客觀原因的存在意味著企業的數據質量保證行動永遠沒有結束之日,因此,企業在制訂數據質量的保證措施和數據質量指標時,必須保證這些措施和指標能夠不斷重復。

3. 在數據轉化流程中設立多個性能監控點。

數據的質量高低可以根據最終用戶的需求來評價,也可以通過與同類數據源的比較來評價,還可以通過與前一階段的數據質量進行比較來評價。但在制訂數據質量的戰略時,比較理想的辦法還是根據最終用戶的需求來進行。不過這里存在一個問題是,等到最終用戶拿到數據時再針對數據的問題進行修正已經太遲了。一個有效的數據質量保證辦法是在每當數據發生轉換後就與前一時期進行比較,從而對數據質量進行評估。如果此前所採用的數據質量改進方法有助於提高最終用戶的滿意度,那麼,這些中間指標的達標也預示著項目的最終成功。

4. 對流程不斷進行改善和優化。

我們常常聽到有人說,他們制訂了很多辦法來迅速而且大幅度提升數據的質量,但很少聽說最後他們能真正得到滿意的結果。其原因就在於數據的質量改進絕非一朝一夕的事情,而是一個持續的過程。正確的辦法是通過一個不斷改進的流程,持續不斷地排除錯誤、對數據進行整合和標准化,最後達到流程的自動化,從而降低數據質量保證計劃的總體開銷。實際上,排除錯誤、數據整合和數據標准化從來就不是一件容易的事情。數據質量管理計劃的負責人將配合公司高管組成的數據質量管理委員會來保證這個流程的順利執行。要注意的是,作為該項目的負責人,不能墨守成規,僅僅因為自己以前一向採用某種方法,就要求別人也必須採用這一方法,特別是當發現這些方法成本高昂的時候,就應該考慮換一種方式了。

5. 把責任落實到人。

通常,我們認為那些與數據的產生、維護相關的人員是負責任的,但是,很有可能,他們有很多其他的工作要做,因此作為數據質量的負責人光有善良的想法是難以提高數據的質量,很有可能一輩子也達不到目標。對於那些負責數據的產生、數據的合理化以及對數據進行清理和維護的人,應該給他們的活動制訂明確的指標,這樣他們才能真正理解人們到底希望他們達到什麼目標。更重要的,他們還需要針對這些指標細化對他們自己的要求,當然,他們會因為達到或者超過這些指標而得到獎勵。其中,一個執行力強的負責人的價值體現出來,他會針對具體情況適時調整數據質量的目標。

最後,再次強調考慮與數據管理和數據質量的改進項目有關的人的因素,他們的行為是非常重要的。從某種程度上說,要比具體選擇什麼軟體要重要得多。上述5點有助於幫助組織規范數據質量管理中與人有關的流程。

② 如何提高數據質量

如何提高數據質量
大數據時代帶來了海量、多樣、非結構化的數據,我們得以進行更加廣泛且深入的分析,但這必須建立在高質量的數據上才有意義。本期以企業級的視角,介紹數據質量的評價、提升與監控。
大數據的時代,數據資產及其價值利用能力逐漸成為構成企業核心競爭力的關鍵要素;然而,大數據應用必須建立在質量可靠的數據之上才有意義,建立在低質量甚至錯誤數據之上的應用有可能與其初心南轅北轍背道而馳。因此,數據質量正是企業應用數據的瓶頸,高質量的數據可以決定數據應用的上限,而低質量的數據則必然拉低數據應用的下限。
數據質量一般指數據能夠真實、完整反映經營管理實際情況的程度,通常可在以下幾個方面衡量和評價:
准確性:數據在系統中的值與真實值相比的符合情況,數據應符合業務規則和統計口徑。常見數據准確性問題如:
與實際情況不符:數據來源存在錯誤,難以通過規范進行判斷與約束;
與業務規范不符:在數據的採集、使用、管理、維護過程中,業務規范缺乏或執行不力,導致數據缺乏准確性。
完整性:數據的完備程度。常見數據完整性問題如:
系統已設定欄位,但在實際業務操作中並未完整採集該欄位數據,導致數據缺失或不完整;
系統未設定欄位:存在數據需求,但未在系統中設定對應的取數欄位。
一致性:系統內外部數據源之間的數據一致程度,數據是否遵循了統一的規范,數據集合是否保持了統一的格式。常見一致性問題如:
缺乏系統聯動或聯動出錯:系統間應該相同的數據卻不一致,缺乏必要的聯動和核對。
及時性:數據在採集、傳送、處理等環節快速支持應用的程度,考察數據的時間特性對應用的滿足程度。及時性關繫到系統能否在規定的時間內獲取到系統需要的特定時間產生的數據,以完成系統功能。常見及時性問題如:
缺乏時效性:未按照規定的數據更新時間要求對數據進行更新。
可用性:用來衡量數據項整合和應用的可用程度。常見可用性問題如:
缺乏應用功能,沒有相關的數據處理、加工規則或數據模型的應用功能,獲取目標數據;
缺乏整合共享,數據分散,不易有效整合和共享。
其他衡量標准再如有效性可考慮對數據格式、類型、標準的遵從程度,合理性可考慮數據符合邏輯約束的程度。此前一項對某企業數據質量問題進行的調研顯示常見數據質量問題中准確性問題佔33%,完整性問題佔28%,可用性問題佔24%,一致性問題佔8%,在一定程度上代表了國內企業面臨的數據問題。
提高數據質量的首要任務是定義一套標准化的數據規范,對具體數據項的定義、口徑、格式、取值、單位等進行規范說明,形成對該數據項的具體質量要求。依託這套規范作為衡量和提高數據質量的標尺,可在數據採集、加工和應用的各環節對關鍵數據項進行預防性或監測性的核檢。廣義的企業級數據字典可以作為數據標准化規范的載體,對企業運營過程中涉及的數據項名稱、業務定義和規則等要素進行收錄、規范和編制,對數據項描述信息進行標准化處理,統一定義對安全性和數據質量的要求,進而為業務運營提供可靠的數據服務、提高整體數據質量奠定基礎。理想情況下廣義的企業級數據字典是完備的,企業各系統全部數據項都被數據字典收錄,不存在同名不同義或同義不同名的情況。與此相對,狹義的數據字典通常是針對單一系統的技術屬性標准,為單一系統的開發和應用服務。
企業級數據字典通常分為三層:數據項、值域和域取值。數據項層面的規范主要包括名稱、業務規則定義、數據安全要求和數據質量要求等。
數據項名稱:包括數據項的中文名稱、英文名稱和英文簡稱,含義不同的數據項名稱不同,物理資料庫應沿用數據字典定義的全局唯一的英文簡稱對欄位命名
業務規則定義:包括數據的業務含義、轉換規則、加工規則等安全元數據:包含數據來源、所有者和訪問許可權等安全要求的定義
數據質量要求:在數據規范定義基礎之上,提出滿足業務需要的數據長度、格式、取值、數據處理、勾稽關系等要求,以此作為數據質量管理的落腳點
值域可細分為代碼域、編碼域、文本域、金額域、數值域、時間域等。例如「出生地」數據項對應值域為「行政區劃」代碼域,引用國家標准GB-T2260-2016《中華人民共和國行政區劃代碼》,對應的域取值為該國標定義的代碼表。再如「借記卡號」數據項對應值域為「19位卡號」編碼域,定義16位卡號和19位卡號兩種編碼方式,不需列舉對應具體的域取值。
數據質量管理是指在數據創建、加工、使用和遷移等過程中,通過開展數據質量定義、過程式控制制、監測、問題分析和整改、評估與考核等一系列管理活動,提高數據質量以滿足業務要求。數據質量管理工作遵循業務引領的原則,確定重點質量管控范圍,並動態調整階段性管控重點,持續優化。可按照「誰創建、誰負責;誰加工、誰負責;誰提供、誰負責」的原則界定數據質量管理責任,由數據流轉環節的各責任方對管轄范圍內的數據質量負責。對數據質量規則優先採取系統程序的自動化控制措施,並盡可能前移管控點,從源頭上控制數據質量。
數據質量監控點通常針對關鍵數據項設置實施,定義數據質量監控規則,生成監控報警,按嚴重性等級分級報告,由相應層級進行處理和響應。關鍵數據項根據經驗判斷,一般影響較廣如涉及多業務條線,或應用於關鍵業務環節如合約簽訂、會計核算、績效分析、產品定價、資金收付等,或應用於內部經營管理、對外信息披露和行業監管要求,例如財務報告數據和新資本協議實施中明確提出的重要指標項。
數據質量監控點的控制手段分為預防型和監測型:
預防性控制防止錯誤數據的產生,一般部署在數據採集點,用於控制手工輸入的源數據,以及批量導入的源數據校驗:
數據輸入校驗:例如貸款利率的輸入校驗;
數據閾值:例如數據非空,數據取值超出值域定義合理范圍,數據格式不符合標准等;
質量控制方式:系統自動校驗/雙人手工復核;
系統校驗方式:強制,如不符合規則無法通過。
監測型控制監測錯誤數據,發現數據質量問題進行報警。一般部署在數據加工和應用環節,驗證數據完整性、一致性和准確性等:
數據輸出校驗:例如貸款余額總分核對
數據一致性:例如交易頭寸與總帳系統記錄的交易頭寸一致
質量控制方式:系統自動校驗
系統校驗方式:非強制,錯誤及差異提示
對選定的關鍵數據項,需定義數據質量規則以及數據質量等級。數據質量等級可利用「閾值」和「容忍度」進行分級:
良好:數據項質量評分高於「閾值」
可容忍:數據項質量評分低於「閾值」,但高於「容忍度」
報警:數據項質量評分低於「容忍度」
嚴重報警:數據項的質量問題將帶來非常嚴重的影響,人工經驗判斷
關鍵數據項監控點的詳細信息應在企業級數據字典中維護更新,與其開發、實施和測試情況保持同步。
在進行數據質量分等級報告及響應糾錯時應遵守如下原則:
及時性。對導致數據質量等級進入「可容忍」、「報警」和「嚴重報警」狀態的數據質量事件能夠及時發現、報告和處理;
規范性:針對分級別的數據質量問題,匯報至利益相關方,配置相應資源;
高效性:數據質量問題,在分級別規定時間內被解決。應按照「可容忍」、「報警」和「嚴重報警」酌情規定響應時間;
有序性。在開展數據質量分等級報告工作時,應有序上報、統一領導、分級負責。
部署在UDP層面的數據質量監控程序實時或定期監測關鍵數據項的質量,對其數據質量進行評分,通過比較該監控點的「閾值」和「容忍度」,將數據質量進行分級,對於非「良好」的評價結果,數據質量監控程序將發送報警消息通知數據質量管理人員。報警消息內容包括問題定位頭文件和具體描述。數據質量管理人員根據報警信息調查問題數據項,驗證報警內容,生成預警信息通知下游用戶,同時填制糾錯工單通知相關責任人員。相關責任人員依據糾錯通知提示的具體內容,開展數據質量問題調查,提出數據質量改進需求和解決方案,由實施運維團隊在數據應用層面修正,或在數據採集和集成層面修正。若糾錯告警問題由數據質量要求過於嚴苛或控制規則錯誤引起,應修改關鍵數據項清單及其相關監控規則,並由實施運維團隊修改或取消已部署的對應監控點。

③ 數據質量控制通常做法

數據質量控制通常做法如下:
步驟一:探查數據內容、結構和異常。探查數據以發現和評估數據的內容辯差、結構和異常。通過探查,可以識別數據的優勢和弱勢,幫助企業確定項目計劃。
步驟二:建立數據質量度量並明確目標。滾灶改Informatica的數據質量解決方案為業務人員和IT人員提供了一個共同的平台建立和完善度量標准,用戶可以在數據質量記分卡中跟蹤度量標準的大判達標情況,並通過電子郵件發送URL來與相關人員隨時進行共享。
步驟三:設計和實施數據質量業務規則。明確企業的數據質量規則,即,可重復使用的業務邏輯,管理如何清洗數據和解析用於支持目標應用欄位和數據。業務部門和IT部門通過使用基於角色的功能,一同設計、測試、完善和實施數據質量業務規則,以達成最好的結果。
步驟四:將數據質量規則構建到數據集成過程中。
步驟五:檢查異常並完善規則。
步驟六:對照目標,監測數據質量。