Ⅰ 如何有效的进行数据治理和数据管控
从技术实施角度看,主要包含“理”“采”“存”“管”“用”这五个,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapRece,HBase 等。
商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。
数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
Ⅱ 如何做好数据管理
数据管理是信息化建设工作中的重点之一,通过健全组织、规范管理、比对分析、综合运用,把数据管理与企业生产有机结合,从而使企业利益进一步提高。
(一)提高认识,科学管理
对数据进行科学的管理,只有上升到战略的高度上去认识和重视才行。数据是主体软件应用的基础。所有的企业资料最终都汇集成数据,保存在计算机系统的数据库中,工作人员通过信息交互系统从后台数据库获取所需数据,经中间层信息系统处理后得到结果,所有的查询、分析都需要真实、全面、准确、一致的数据。企业信息化建设中存在的一些问题,主要不是因为没有好的系统,而是因为已有的系统没有得到很好的应用。因此,数据的准确性、完整性、科学性,将直接决定结果的正确性。也必将影响信息化应用的成效。同时,只有科学的管理,才能保证数据的准确、完整。
(二)健全职能部门,完善管理制度
数据管理职能因该有专门的部门实施,因此应成立专门数据管理领导小组和数据管理(处理)部门,将数据的监管职责赋予数据管理部门,由数据管理部门集中管理监控数据,各有关职责部门配合。各单位也相应设立相应的数据处理岗。然后制发《数据管理办法》、《数据管理责任追究暂行办法》,明确数据管理部门的职责范围、工作程序、监控内容、考核奖惩等,建立数据通报、培训等制度,制定信息采集、审核、录入、分析比对、信息传递等相关办法,使数据监管与运用工作逐步规范。
(三)严控数据录入环节,加强源头控制
一是提高人员素质。对数据录入人员进行软件操作、数据录入、职责规定等知识培训,明确职责、明确各级、各岗数据管理人员工作职责及质量标准;明确综合管理软件的问题提交、处理、反馈程序,数据出现问题都由数据管理部门统一负责接收、研究解决并反馈,避免多头提交、多头请示,为数据管理工作提供人员素质保障。
二是加强信息系统提高系统本身的差错纠错功能,减少或避免数据录入的错误。
三是创建合理高效工作流。结合实际情况制定工作流,明确职责、避免重复、方便管理为目的,细化岗位,一人多岗(单位人数少)或一岗多人(岗位工作量大),科学的`连接每个岗位,组织起高效的工作流,减少数据冗余,最大限度地提高征管效率。
四是原则行事。按照“三不录”原则,即不规范不录、不安全不录、未审核不录,严把数据的采集、审核、审批、录入、修改等环节。确保系统数据完整、准确,系统运转优质、高效。
五是通报考核。建立通报制度。例如,坚持 “一月一通报、一月一讲评、一月一考核、一月一追究”。按时将各单位征管数据质量完成情况等,在公文处理系统和网站上发布数据通报,并在每月的局务例会上,由分管局长对上月数据质量进行通报讲评,分析症结,提出整改措施。建立日常考核台账,按月考核,并将各单位得分情况张榜公布;同时,按照责任追究办法,追究相关单位和人员的责任。对全年数据质量评比排名在后几位的,目标管理考核中给予倒扣分。制定数据考核指标,数据质量考核中,低于平均指标的,目标管理考核一票否优。
(四)思想要重视,全员要参与
加强数据管理,全面推进企业信息化建设应用进程,离不开各级领导的重视和支持,只有领导重视,才是做好数据管理和深入分析的关键,信息化建设才能真正得到发展。同时,所有的工作人员,都应该把好各自工作环节的数据管理,不制造垃圾数据、错误数据,发现问题及时解决,追根求源,争取将错误数据、垃圾数据剔除干净,确保数据的正确完整。
(五)协作要到位
数据处理工作中,信息技术是实现手段,信息技术应用的先进性决定了系统软件的质量水平高低,而业务的规范程度决定了信息化推进的广度和深度。数据处理应用不仅涉及信息化技术的选择和应用,同时还涉及到企业业务流程的规范和统一,并且直接影响企业系统信息化建设的成效。所以,每一项企业管理数据处理及其具体应用,都离不开信息部门和业务部门的紧密合作、协同工作。技术部门与业务部门需要很好的合作和相互的支持和配合,才能使数据处理应用程度深化和完善。
(六)机制要健全
在业已建立机制的基础上,要进一步完善数据分析应用管理办法,建立部门工作责任制,包括项目管理制度、信息发布制度等;建立与数据处理应用相适应的企业业务配套制度;建立信息技术支持、安全和运维保障制度,包括信息安全应急处置预案、运维岗责体系等,保障数据分析应用工作健康有序发展。