Ⅰ 如何有效的進行數據治理和數據管控
從技術實施角度看,主要包含「理」「采」「存」「管」「用」這五個,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。
Ⅱ 如何做好數據管理
數據管理是信息化建設工作中的重點之一,通過健全組織、規范管理、比對分析、綜合運用,把數據管理與企業生產有機結合,從而使企業利益進一步提高。
(一)提高認識,科學管理
對數據進行科學的管理,只有上升到戰略的高度上去認識和重視才行。數據是主體軟體應用的基礎。所有的企業資料最終都匯集成數據,保存在計算機系統的資料庫中,工作人員通過信息交互系統從後台資料庫獲取所需數據,經中間層信息系統處理後得到結果,所有的查詢、分析都需要真實、全面、准確、一致的數據。企業信息化建設中存在的一些問題,主要不是因為沒有好的系統,而是因為已有的系統沒有得到很好的應用。因此,數據的准確性、完整性、科學性,將直接決定結果的正確性。也必將影響信息化應用的成效。同時,只有科學的管理,才能保證數據的准確、完整。
(二)健全職能部門,完善管理制度
數據管理職能因該有專門的部門實施,因此應成立專門數據管理領導小組和數據管理(處理)部門,將數據的監管職責賦予數據管理部門,由數據管理部門集中管理監控數據,各有關職責部門配合。各單位也相應設立相應的數據處理崗。然後制發《數據管理辦法》、《數據管理責任追究暫行辦法》,明確數據管理部門的職責范圍、工作程序、監控內容、考核獎懲等,建立數據通報、培訓等制度,制定信息採集、審核、錄入、分析比對、信息傳遞等相關辦法,使數據監管與運用工作逐步規范。
(三)嚴控數據錄入環節,加強源頭控制
一是提高人員素質。對數據錄入人員進行軟體操作、數據錄入、職責規定等知識培訓,明確職責、明確各級、各崗數據管理人員工作職責及質量標准;明確綜合管理軟體的問題提交、處理、反饋程序,數據出現問題都由數據管理部門統一負責接收、研究解決並反饋,避免多頭提交、多頭請示,為數據管理工作提供人員素質保障。
二是加強信息系統提高系統本身的差錯糾錯功能,減少或避免數據錄入的錯誤。
三是創建合理高效工作流。結合實際情況制定工作流,明確職責、避免重復、方便管理為目的,細化崗位,一人多崗(單位人數少)或一崗多人(崗位工作量大),科學的`連接每個崗位,組織起高效的工作流,減少數據冗餘,最大限度地提高征管效率。
四是原則行事。按照「三不錄」原則,即不規范不錄、不安全不錄、未審核不錄,嚴把數據的採集、審核、審批、錄入、修改等環節。確保系統數據完整、准確,系統運轉優質、高效。
五是通報考核。建立通報制度。例如,堅持 「一月一通報、一月一講評、一月一考核、一月一追究」。按時將各單位征管數據質量完成情況等,在公文處理系統和網站上發布數據通報,並在每月的局務例會上,由分管局長對上月數據質量進行通報講評,分析症結,提出整改措施。建立日常考核台賬,按月考核,並將各單位得分情況張榜公布;同時,按照責任追究辦法,追究相關單位和人員的責任。對全年數據質量評比排名在後幾位的,目標管理考核中給予倒扣分。制定數據考核指標,數據質量考核中,低於平均指標的,目標管理考核一票否優。
(四)思想要重視,全員要參與
加強數據管理,全面推進企業信息化建設應用進程,離不開各級領導的重視和支持,只有領導重視,才是做好數據管理和深入分析的關鍵,信息化建設才能真正得到發展。同時,所有的工作人員,都應該把好各自工作環節的數據管理,不製造垃圾數據、錯誤數據,發現問題及時解決,追根求源,爭取將錯誤數據、垃圾數據剔除干凈,確保數據的正確完整。
(五)協作要到位
數據處理工作中,信息技術是實現手段,信息技術應用的先進性決定了系統軟體的質量水平高低,而業務的規范程度決定了信息化推進的廣度和深度。數據處理應用不僅涉及信息化技術的選擇和應用,同時還涉及到企業業務流程的規范和統一,並且直接影響企業系統信息化建設的成效。所以,每一項企業管理數據處理及其具體應用,都離不開信息部門和業務部門的緊密合作、協同工作。技術部門與業務部門需要很好的合作和相互的支持和配合,才能使數據處理應用程度深化和完善。
(六)機制要健全
在業已建立機制的基礎上,要進一步完善數據分析應用管理辦法,建立部門工作責任制,包括項目管理制度、信息發布制度等;建立與數據處理應用相適應的企業業務配套制度;建立信息技術支持、安全和運維保障制度,包括信息安全應急處置預案、運維崗責體系等,保障數據分析應用工作健康有序發展。