【一本书讲透数据治理】战略、方法、工具与实践
大数据时代,数据是流动的,只有让数据流动起来才能发挥出数据的价值,这对企业来说是机遇也是挑战。
更新历史
- 2022.10.09:完成初稿
读后感
本来以为是一本技术书,后来发现是一本科普书,类似白皮书,告诉大家这事儿很重要,方便后面带货。不过实话说,内容还是比较丰富,可以看作是一本简易指引
读书笔记
数据治理之道:3个战略机制。高屋建瓴地介绍了数据治理的数据战略、组织机制和数据文化。这3个机制能够帮助企业形成数据治理的自我驱动、自我进化、可持续发展和长效运营机制
数据治理之法:8项关键举措。重点讲解了数据治理的8项举措:理现状与定目标、能力成熟度评估、路线图规划、保障体系建设、技术体系建设、策略执行与监控、绩效考核、长效运营。这8项举措构成了企业数据治理的完整实施方法论。
数据治理之术:7种技术能力。重点讲解了数据治理的7种能力:数据梳理与建模、元数据管理、数据标准管理、主数据管理、数据质量管理、数据安全治理、数据集成与共享。
数据治理之器:7个治理工具从功能角度讲解了数据治理所用到的7个工具:数据模型管理工具、元数据管理工具、数据标准管理工具、主数据管理工具、数据质量管理工具、数据安全治理工具、数据集成与共享工具。
数据治理的三大要害:
- 第一,要定义数据,让抽象的数据变成可读、可理解的信息;
- 第二,要有一个完整的数据地图或数据资源目录,盘活企业的数据资产,方便用户随时找到想要的数据;
- 第三,要做好数据质量管理,提升数据质量并提升数据的使用率。
在有多年数据仓库领域工作经验的小李看来,数据治理应包含三部分:一是ETL,即数据的抽取、转换、加载,保障数据仓库内有数据可用;二是对数据的处理、转换和融合,保障数据仓库内的数据准确、可用;三是元数据管理,保障数据仓库内的数据可进行血统溯源和影响分析。
来自系统运维部的小王认为:“企业数据治理的重点是对数据源中数据的治理,也就是需要对业务系统实施治理,而数据仓库只是数据的应用端,只有业务系统的数据质量高了,数据仓库才能获得高质量的数据,进而获得高质量的洞察。”
而数据平台部小赵的观点则是:“数据治理还得看数据湖的,从源头治理虽然好,但是操作起来太复杂,周期长,成本高。而我们在数据湖中治理就不一样了,我们的数据湖已经接入企业90%以上的数据,数据统一在‘湖’中管理。所有的用数需求都需要通过数据湖调取,因此我们只需要将数据湖中的数据治理好,就什么问题都没有了。”
在笔者看来,所有为提高数据质量而展开的技术、业务和管理活动都属于数据治理范畴。数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资源管控手段,实现数据的看得见、找得到、管得住、用得好,提升数据质量和数据价值。
元数据是描述数据的数据或关于数据的结构化数据。
元数据是业界公认的数据治理中的核心要素,做好元数据管理,能够更容易地对数据进行检索、定位、管理和评估。用哲学的思维理解元数据的话,元数据其实解决的是我是谁、我在哪里、我从哪里来、我要到哪里去的问题。元数据是建设数据仓库的基础,是构建企业数据资源全景视图的基础,清晰的血缘分析、影响分析、差异分析、关联分析、指标一致性分析等是数据资产管理的重要一环。
主数据是企业内需要在多个部门、多个信息系统之间共享的数据,如客户、供应商、组织、人员、项目、物料等。与记录业务活动、波动较大的交易数据相比,主数据(也称“基准数据”)变化较慢。主数据是企业开展业务的基础,只有得到正确维护,才能保证业务系统的参照完整性。
主数据具有3大特性、4个超越。
- 3大特性:高价值性、高共享性、相对稳定性。
- 4个超越:超越业务,超越部门,超越系统,超越技术。
在数据治理中,主数据用来解决企业异构系统之间核心数据不一致、不正确、不完整等问题。主数据是信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石。
主题数据是根据数据分析的需要,按照业务主题对数据所做的一种组织和管理方式,其本质是为了进行面向主题的分析或加速主题应用的数据。主题数据是分析型数据,是按照一定的业务主题域组织的,服务于人们在决策时所关心的重点方面。一个主题数据可以由多个主数据和交易数据组成。主题数据一般是汇总的、不可更新的、用于读的数据
数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加庞大的数据集。本质上,数据仓库与数据库并没有什么区别。
数据仓库是为企业所有级别的决策制定过程提供所有类型数据支撑的战略集合,有以下三个主要作用。 数据仓库是对企业数据的汇聚和集成,数据仓库内的数据来源于不同的业务处理系统,包含主数据和业务数据。数据仓库的作用就是帮助我们利用这些宝贵的数据做出最明智的商业决策。
数据仓库支持多维分析。多维分析通过把一个实体的属性定义成维度,使用户能方便地从多个维度汇总、计算数据,增强了用户的数据分析处理能力,而通过对不同维度数据的比较和分析,用户的数据处理能力得到进一步增强。
数据仓库是数据挖掘技术的关键和基础。数据挖掘技术是在已有数据的基础上,帮助用户理解现有的信息,并对未来的企业状况做出预测。在数据仓库的基础上进行数据挖掘,可以对整个企业的发展状况和未来前景做出较为完整、合理、准确的分析和预测。
根据维基百科的定义,数据湖是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无须事先对数据进行结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
数据湖可以更方便、以更低的成本解决不同数据结构的统一存储问题,同时还能够为机器学习提供全局数据。我们可以将数据湖理解为一个融合了大数据集成、存储、处理、机器学习、数据挖掘的解决方案。
数据湖不是一个产品或工具,它是融合了数据采集、数据处理、数据存储、机器学习、数据挖掘等技术和工具的解决方案。数据湖支持处理不同类型的数据和分析方法,以获得更深层次的洞见所必需的扩展性、敏捷性和灵活性
数据湖的出现给数据治理带来了一定的挑战。数据湖将数据全部集中存储,那数据治理是在“湖中”治理还是在“湖外”治理,这是个需要企业研究和探索的问题。
数据治理的对象必须是重要的数据资源,是关乎企业商业利益的数据资源,这样的数据资源方可称为“数据资产”。
由资产的概念引申到数据资产,可以得到:“数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源,并且其价值和成本是可计量的。”
根据数据资产的定义,数据资产的利益相关方包括以下几类。
- 数据的生产者,即通过业务交易或事项产生数据的人或组织。
- 数据的拥有者或控制者。生产数据的人不一定拥有数据,例如我们上网产生的各种数据都不归我们自己所有,而是落在了各个互联网公司的数据库中。
- 数据价值和经济利益的受益者。
- 数据治理就是对数据生产者、拥有者或控制者、数据价值受益者进行规范和协调,让数据能够规范化、高质量输出。
让数据成为资产就是要让数据为企业创造价值,而做好数据治理才能更加方便、放心地使用数据,这是一个基本前提。数据治理是一个非常复杂的系统工程:
- 管理上,数据治理是企业战略层面的策略,而不是战术层面的方法;
- 业务上,通过数据治理要让数据能够管得住、看得见、找得到、用得好;
- 技术上,涉及数据建模、数据集成、数据交换、数据清洗、数据处理、数据质量管理的方方面面。
- 最后再次强调,数据治理不是对“数据”的治理,而是对“数据资产”的治理。数据治理可以有效盘活企业的数据资产。
数据治理的6个价值
- 降低业务运营成本。有效的数据治理能够降低企业IT和业务运营成本。一致性的数据环境让系统应用集成、数据清理变得更加自动化,减少过程中的人工成本;标准化的数据定义让业务部门之间的沟通保持顺畅,降低由于数据不标准、定义不明确引发的各种沟通成本。
- 提升业务处理效率。有效的数据治理可以提高企业的运营效率。高质量的数据环境和高效的数据服务让企业员工可以方便、及时地查询到所需的数据,然后即可展开自己的工作,而无须在部门与部门之间进行协调、汇报等,从而有效提高工作效率。
- 改善数据质量。有效的数据治理对企业数据质量的提升是不言而喻的,数据质量的提升本就是数据治理的核心目的之一。高质量的数据有利于提升应用集成的效率和质量,提高数据分析的可信度,改善的数据质量意味着改善的产品和服务质量。数据质量直接影响品牌声誉
- 控制数据风险。有效的数据治理有利于建立基于知识图谱的数据分析服务,例如360°客户画像、全息数据地图、企业关系图谱等,帮助企业实现供应链、投融资的风险控制。良好的数据可以帮助企业更好地管理公共领域的风险,如食品的来源风险、食品成分、制作方式等。企业拥有可靠的数据就意味着拥有了更好的风险控制和应对能力。
- 增强数据安全。有效的数据治理可以更好地保证数据的安全防护、敏感数据保护和数据的合规使用。通过数据梳理识别敏感数据,再通过实施相应的数据安全处理技术,例如数据加密/解密、数据脱敏/脱密、数据安全传输、数据访问控制、数据分级授权等手段,实现数据的安全防护和使用合规。
- 赋能管理决策。有效的数据治理有利于提升数据分析和预测的准确性,从而改善决策水平。良好的决策是基于经验和事实的,不可靠的数据就意味着不可靠的决策。通过数据治理对企业数据收集、融合、清洗、处理等过程进行管理和控制,持续输出高质量数据,从而制定出更好的决策和提供一流的客户体验,所有这些都将有助于企业的业务发展和管理创新。
数据治理的5类问题
- 黑暗数据也叫睡眠数据,是指被收集和处理但又不用于任何用途的数据。有数据而不用,甚至业务部门和领导都不知道其存在,这些数据可能永远被埋没。很多企业其实除了黑暗数据问题,还有数据尾气问题。数据尾气是指那些针对单一目标而收集的数据,通常用过之后就被归档闲置,其真正价值未能被充分挖掘。
- 很多企业在信息化建设的早期,由于缺乏信息化的整体规划,业务系统都是基于业务部门需求建设的,各业务部门都有自己的信息系统,这些系统都是各自定义、各自存储的,彼此间相互独立,数据之间没有关联,而形成了一个个数据孤岛。所谓数据孤岛,简单来说,就是企业发展到一定阶段时,各个部门各自存储数据,部门之间的数据无法共通,这导致数据像一个个孤岛一样缺乏关联性。
- 在很多企业中存在着数据“巴别塔”。不同部门、不同员工之间因为数据定义不清、口径不同、缺乏规范而无法顺畅交流和沟通。
- 数据对企业来说是一个“福音”,然而,糟糕的数据质量可能是一个大问题。数据的可信性是影响数据分析和管理决策的重要因素,然而企业数据普遍存在着不一致、不完整、不准确、不正确、不及时等问题。数据质量问题得不到有效解决,数据价值化、数据业务化就无从谈起了。
- 数据的应用与数据的安全密切相关。数据收集和提取的合法性、数据隐私的保护与数据隐私应用之间的权衡正成为当前制约大数据发展和应用的一大瓶颈。没有人不重视数据安全,但是数据缺乏有效管理,一定会产生数据安全问题。比如缺少数据的采集、存储、访问和传输的规范制度,没有设定必要的数据使用权限,这就必然会导致数据遗失、篡改与泄密
数据治理的6个挑战
- 对数据治理的业务价值认识不足
- 由于传统以技术驱动的数据治理模式没有从解决业务的实际问题出发,企业对数据治理的业务价值普遍认识不足。为了快速实现数据价值和成效,最直接的方式就是以业务价值为导向,从企业实际面临的数据应用需求和数据痛点需求出发,满足管理层和业务人员的数据需求,以实现数据的业务价值、解决具体的数据痛点和难点为驱动来推动治理工作。
- 正如前文所述,企业数据治理的业务价值主要体现在降低成本、提升效率、提高质量、控制风险、增强安全和赋能决策。不同企业所面对的业务需求、数据问题是不同的,企业数据治理的业务价值不要求在以上6个方面面面俱到(也不要局限于这6个方面)。企业应该从管理层和业务部门的痛点需求出发,将数据治理的业务价值量化,以增强管理层和业务人员对数据治理的认知和信心。想要理解数据造成的业务痛点,最好的方法是询问和观察。数据治理必须着重于业务需求,并着重于解决让业务人员感到痛苦或他们无法解决的问题。
- 缺乏企业级数据治理的顶层设计
- 高层领导对数据治理不够重视
- 数据标准不统一,数据整合困难
- 业务人员普遍认为数据治理是IT部门的事
- 缺乏数据治理组织和专业的人才
数据治理是企业数字化转型的基础,是针对企业数据的管理和使用所实施的一套完整体系。笔者将这个体系分成战略、管理、技术、工具4个层面,每家企业的数据治理都应围绕这4个层面来推进。在内容上,这4个层面涵盖了数据治理成功实施的9个要素,分别是数据战略、组织机制、数据文化、管理流程、管理制度、数据、人才、技术和工具。
金字塔的最顶层是数据治理,与治理相关。我们还会经常看到“国家治理”和“公司治理”的说法,从某种意义上讲,治理是一种自顶向下的策略或活动。
因此,数据治理应该是企业顶层设计、战略规划方面的内容,是数据管理活动的总纲和指导,它指明数据管理过程中有哪些决策要制定、由谁负责,更强调组织模式、职责分工和标准规范。
数据管理是为实现数据和信息资产价值的获取、控制、保护、交付及提升,对政策、实践和项目所做的计划、执行和监督。
笔者认为,数据管理是执行和落实数据治理策略并在过程中给予反馈,强调管理流程和制度,涵盖不同的管理领域,比如元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理、数据服务管理、数据集成等。
数据管控侧重于执行层面,是具体落地执行所涉及的各种措施,例如数据建模、数据抽取、数据处理、数据加工、数据分析等。数据管控的目的是确保数据被管理和监控,从而让数据得到更好的利用。 综上所述,数据治理强调顶层的策略,数据管理侧重于流程和机制,而数据管控侧重于具体的措施和手段,三者是相辅相成的。
在道家文化中,“道”是指天道、自然规律。“道”也指核心思想、本质规律,它是方向性的指引,也就是“做正确的事”。“法”是人定的规则、制度、流程,用来指导人们按照“天道”做事,即“正确地做事”。“术”是指技术层面上的操作方法,即“正确做事所需要的技术和方法”。“器”是指工具。“工欲善其事,必先利其器。”有了“器”,就能够“更加高效地做事”。
企业数据治理的技术有很多,常用的有数据梳理与建模、元数据管理、数据标准管理、主数据管理、数据质量管理、数据安全治理、数据集成与共享等7种核心技术能力
- 数据梳理与建模
- 数据梳理即对数据资产的梳理。数据资产梳理是企业数据治理的基础,通过对数据资产的梳理,企业可以知道自己到底有哪些数据,这些数据都存在哪里,数据的质量如何,从而摸清“数据家底”并为数据建模提供支撑。而数据模型是帮助企业梳理数据、理解数据的关键技术。
- 数据模型在数据治理中起到向上承接数据战略,向下对接数据和应用的作用。如果把企业数字化比作人体的话,那么数据模型就是骨架,数据之间的关系和流向是血管和脉络,数据是血液。数据模型的标准化是数据血液能够正常流动和运行的根本。数据建模是数据治理的开端。
- 元数据管理
- 元数据管理是指与确保正确创建、存储和控制元数据,以便在整个企业中一致地定义数据有关的活动。在元数据管理中,对业务元数据、技术元数据与操作元数据的盘点、集成和管理是企业数据治理实践中的基本活动。
- 从技术维度讲,元数据管理管理的是数据资产所涉及的源系统、数据平台、数据仓库、数据模型、数据库、表、字段及字段和字段间的数据关系。
- 从业务维度讲,元数据管理管理着企业的业务术语表、业务规则、质量规则、安全策略以及表的加工策略、表的生命周期信息等。
- 从应用维度讲,元数据管理为数据提供了完整的审计跟踪,这对于数据的合规使用越来越重要。通过数据血缘分析,可以追溯发生数据质量问题以及其他问题的根本原因,并对更改后的元数据执行影响分析。
- 主数据管理主数据被誉为企业的“黄金数据”,具有高价值性、高共享性、相对稳定性。主数据管理是企业数据治理的核心内容,包含主数据梳理与识别、主数据分类与编码、主数据清洗、主数据集成等过程。
- 有效的主数据管理是实现企业内部各信息系统之间、企业与企业之间互联互通的基石,是企业数字化转型的重要基础。
- 数据集成与共享
- 数据集成与共享是为了更好地使用数据而提供的技术能力和手段。各种类型的数据应用项目,如数据分析挖掘、数据仓库、主数据管理、应用集成、数据资产管理等,都离不开数据集成。
- 建立良好的数据集成架构,设计清晰的数据集成模式,定义明确的数据集成策略,这是企业数据治理和应用的重要保障。
具体落地
- 数据模型管理:在企业信息化建设过程中,数据模型“藏”于数据库底层,业务人员和管理人员对其是无感知的,因而往往会忽视它。然而数据模型却是企业数据治理中最核心的那把“利剑”。数据模型对上是承载业务需求的元数据,对下是数据标准管理的内容。同时,数据模型是数据质量指标和规则定义的起点,是主数据和参照数据设计的根本,是数据仓库和BI的核心,也是数据安全管控的对象。数据模型管理工具的功能主要有可视化建模、模型版本管理、数据模型管理、数据模型查询、数据模型浏览、数据模型分析等。
- 元数据管理:元数据管理统一管控分布在企业各个角落的数据资源(包括业务元数据、技术元数据和管理元数据),按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,支持企业业务系统和数据分析平台的开发和维护。元数据管理是企业数据治理的基础。元数据管理工具的功能主要有元数据采集服务、应用开发支持服务、元数据访问服务、元数据管理服务和元数据分析服务。
- 数据标准管理:从字面上理解,数据标准就是数据的既定规则,这个规则一旦定义,就必须执行。数据标准管理就是研究、制定和推广应用统一的数据分类分级、记录格式以及转换、编码等技术标准的过程。从管理的对象上来看,数据标准主要包含三个方面的标准:
- 数据模型标准,即元数据的标准化;
- 主数据和参考数据标准;
- 指标数据标准,如指标的统计维度、计算方式、分析规则等。数据标准管理工具的功能主要有数据标准的编制、审批、发布和使用。
- 主数据管理
- 主数据是企业最基础、最核心的数据,是企业最重要的数据资产,企业的一切业务基本都是基于主数据来开展的。如果说大数据是一座矿山,那么主数据就是这座矿山中的金子。通过主数据可以解决各异构系统的数据不标准、不一致的问题,保障业务连贯性以及数据的一致性、完整性和准确性,提升业务条线之间的协同能力。同时,高质量的主数据能为领导的管理决策提供支撑。
- 主数据管理工具是企业数据治理中的核心实践之一。主数据管理工具的功能主要有主数据的建模、编码、管理、清洗、集成等。
- 数据质量管理:持续提升数据质量是企业数据治理的核心目标。数据质量管理既可以是企业级的全面数据质量管理,也可以是面向某一特定业务主题的主题级数据质量管理。在不同的数据治理项目中,对数据质量管理工具的使用各不相同,有时会单独使用,有时配合元数据使用,有时又配合主数据使用。数据质量管理的范围往往需要根据业务的需求和目标进行定制。数据质量管理工具的功能主要有数据质量指标管理、数据质量规则管理、数据质量评估任务和数据质量评估报告。
- 数据安全治理:在企业数据治理中,数据安全一般作为企业数据治理的一道“红线”,任何人、任何应用都不可逾越。不过数据安全也不能随意使用,否则就会影响业务效率,因此需要在安全和效率之间找到一个平衡点。数据安全涵盖操作系统安全、网络安全、数据库安全、软件应用安全等。数据安全治理的侧重点是控制数据的使用过程,以保证数据被安全合法地使用,因此管理的重点在应用上。数据安全治理工具的主要功能一般包括身份认证、访问控制、分类分级、数据授权、安全审计、数据脱敏、数据加密等。
- 数据集成与共享:数据本身并没有价值,被合理使用的数据才会产生价值。数据的集成与共享有多种方式,比如数据集成、数据交换、数据开放等。数据集成与共享工具是用于促进数据高效集成和共享的一系列工具。主流的数据集成工具主要有企业服务总线(ESB)、ETL工具、流数据集成工具等,不同的集成场景使用的工具不同。
“数据”“组织”“软件平台”是企业数字化转型面临的“三座大山”。
- 数据:数据是企业数字化转型的根本驱动力之一,数字化转型中的企业必须做好数据治理与应用,确保数据质量,发挥数据的价值。
- 组织:企业要进行组织转型,需要有强大且高效的组织实施能力,要能动员大家开展工作,实现数据、业务和技术的完美融合。
- 软件平台:需要对传统的系统和软件进行大的整合和优化调整,并引入新的数字化工具,以提升软件平台的数字化支撑能力。
敏捷组织有如下特点。
- 架构灵活:企业组织从传统的金字塔层级结构转向灵活的扁平结构,消除了上下级结构之间的沟通壁垒,使其能够在应对前端多变的业务时聚焦于目标和行动,收放自如,柔性应对。
- 数据驱动:企业经营从上级权威指令驱动转向数字驱动,数据成为企业的核心资产,用户数据流向决定产品和业务流向,并成为决策的重要依据。
- 员工能动:在协作方式上,企业从传统绩效评价导向转变为自我驱动、团队协同模式,团队成员以专家身份参与工作,每个人都具有主人翁精神,能动性得到全面激发。
- 领导作用:领导管理模式从依靠管理层级进行控制和指导转变为方向洞察和为员工赋能,消除本位主义、官僚主义,提倡客户导向、创新文化。
- 动态资源:资源配置不再由权力来决定,而是在类似于市场机制的形势下合理调配,协调更多是通过合作而非上级指令。
打造敏捷数据治理组织的5个方面
- 以客户为中心;
- 以数据驱动;
- 重新定义IT;
- 业务与IT深度融合;
- 培养复合型人才。
敏捷组织中需要培养和引入既懂技术,又懂业务,还懂数据的复合型人才,才能满足企业数据战略落地所需。
- 懂业务:熟悉企业的业务流程和业务规则,清楚企业数字化的业务需求,能够站在企业整体层面提出业务需求和痛点问题。
- 懂数据:不仅要熟悉企业的基础数据和业务数据,还要对数据如何支撑业务、反哺业务有着清晰的认识,对“分析什么”“如何分析”“如何使用”“如何管理”这4个数据问题有明确的答案。
- 懂技术:掌握数据分析软件的使用,熟悉统计学、大数据、机器学习、人工智能等数据分析和挖掘相关的技术与工具,掌握数据分析模型的设计和开发技术,能够主动利用数据产生的洞察指导业务的开展和管理的决策。
数字化时代,我们能够接触到的信息太多、太杂,我们听到的、看到的往往并不是事物的真相。因此,我们需要数据思维。数据思维可以总结成12个字:善于简化,注重量化,追求真理。
- 抓重点,善于简化
- 我们的身边充斥着各种正面的、负面的、片面的、真实的、虚假的信息,一不小心,我们就会被纷繁复杂的信息所干扰。面对纷繁的信息,我们在思考问题时要善于简化,抓住重点,抽丝剥茧。
- 具体来说,就是聚焦核心问题,从结果或最终目标出发,收集信息,评估情况,寻找多种视角,找到高效解决方案。这是一种化繁为简的思维方式。简化是要直指问题的核心和根本,就是要追问最终目标是什么,从最终目标出发,找到解决问题的创新方法,而不要被一些枝节问题所困扰。
- 求精确,注重量化数据思维一般更注重量化,善于用定量的方式进行思考和决策。量化的思考能够帮助我们做计划,从而将工作和生活安排得井井有条。
- 数据思维是求精确、注重量化的,强调具体和准确,强调能力聚焦、问题聚焦,在一个个具体的点上解决问题。“大数据,小应用”说的就是这个道理。只有将大数据聚焦到具体的问题、具体的应用场景上,才能发挥出其真正的价值。
- 知不知,追求真理
- 拥有数据思维的人都知道:数据不是万能的,世界万物的关系复杂,而简化可能带来误差;数据都是历史数据,万物却是动态变化的,现有的知识也有真伪之分,拥有数据思维的人能够去伪存真,做数据真正的主人,而非数据的奴隶。追求真理永无止境
数据思维如何落地
- 自上而下地推动
- 要建立数据思维,不仅要改变人的行为习惯,还要改变人的思维方式。改变一个人的行为习惯比较容易,而改变一个人的思维方式则非常艰难。企业数据文化的培养,数据思维的建立,需要自上而下地推动。
- 高层领导首先需要建立数据思维。在研讨目标、商议工作、布置任务的时候,都要用数据说话,用数据决策,用数据指导行动。在开会的时候,要通过数据看问题,通过数据听汇报,通过数据定目标。
- 营造数据驱动的文化氛围:“数据驱动”是近年来IT、互联网领域使用频率很高的一个词。它是指通过数据采集和数据处理,将数据组织成信息流,并在做业务和管理决策或者进行产品、运营方案优化时,根据不同需求对信息流进行提炼与总结,从而帮助管理者做出科学决策,指导业务人员具体执行。
- 持续产生数据是数据驱动的前提
- “让数据用起来”是数据驱动的核心
- 数据思维内化于心是“数据驱动”的基础
企业数据治理应本着“大处着眼,小处入手”的原则推进。
“大处着眼”是从战略层面推进数据治理项目,“小处入手”是从操作层面启动数据治理项目,该原则是企业实施数据治理的最佳方式。数据治理项目的目标必须贴近企业的整体业务目标,要将数据视为一种战略资产,构建统一的数据架构和管控体系以满足企业经营和管理的整体要求,并制定路线图,分步实现企业的整体战略目标。
目前企业的数据问题主要存在管理、业务和技术3个方面。
- 管理方面:缺乏覆盖全企业、跨业务线条、跨部门、跨系统的统一数据管控体系;缺乏数据管理专业组织和部门及配套的管理流程,在数据的创建、传输、加工、使用过程中,各参与者的角色、职权分工不清晰;缺乏明确的信息责任人制度和有效的措施及配套的考核办法。
- 业务方面:业务需求不清晰、业务需求变更随意、缺乏管理和控制措施、业务端数据输入不规范等问题都是导致数据问题的主要原因。另外,缺乏跨部门、跨团队的流程定义,将难以高效整合相关资源、形成系统建设的合力。
- 技术方面:缺乏数据整体规划和设计,没有明确的数据管理目标;数据被动式管理,在业务提出需求后才能被动响应;存在信息孤岛问题,大量“黑暗数据”消耗资源却不能利用;数据在采集、处理、装载、存储过程中的设计和开发不合理,引发数据问题……
数据模型所描述的内容有3个要素,分别是数据结构、数据操作和数据约束
- 数据结构:数据结构用于描述系统的静态特征,包括数据的类型、内容、性质及数据之间的联系等。它是数据模型的基础,也是刻画一个数据模型性质最重要的因素
- 数据操作:数据操作用于描述系统的动态特征,包括数据的插入、修改、删除和查询等。数据模型必须确定这些操作的确切含义、操作符号、操作规则及实现操作的语言。
- 数据约束:数据的约束条件实际上是一组完整性规则的集合。完整性规则是指给定数据模型中的数据及其联系所具有的制约和存储规则,用以限定符合数据模型的数据库及其状态的变化,以保证数据的正确性、有效性和相容性
数据模型是对数据对象、不同数据对象之间的关联、规则三者的概念表示。按照不同的应用层次,数据模型主要分为以下三种类型。
- 概念模型:概念模型也叫业务模型,是对业务实体、业务操作、操作规则的整体描述,从全局上、宏观上介绍业务设计的思路、范围和内容。概念模型的目的是组织、审视和定义业务实体和规则,它通常由业务人员和数据架构师创建。
- 逻辑模型:逻辑模型是对概念模型的具体化,它根据概念模型,设计数据实体和数据属性,着重于系统的逻辑实现,不考虑物理属性。该模型的目的是开发规则和数据结构的技术地图,它通常由数据架构师和业务分析师创建。
- 物理模型:物理模型描述数据库中数据模型的具体实现,其中包括逻辑模型中各种实体表的具体化,如表的数据结构类型、索引、数据存放位置和数据存储资源分配等。该模型描述如何使用特定的数据库系统实现业务,目的是实现数据存取,它通常由DBA和开发人员创建。
按照不同应用领域或功能,元数据一般大致可分为三类:业务元数据、技术元数据和操作元数据。
- 业务元数据:业务元数据描述数据的业务含义、业务规则等。明确业务元数据可以让人们更容易解和使用业务元数据。元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”,进而为数据分析和应用提供支撑。常见的业务元数据有:
- 业务定义、业务术语解释等;
- 业务指标名称、计算口径、衍生指标等;
- 业务引擎的规则、数据质量检测规则、数据挖掘算法等;
- 数据的安全或敏感级别等。
- 技术元数据:技术元数据是结构化处理后的数据,方便计算机或数据库对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用开发和系统集成奠定基础。技术元数据也可服务于业务人员,通过元数据厘清数据关系,让业务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据有:
- 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;
- 数据存储类型、位置、数据存储文件格式或数据压缩类型等;
- 字段级血缘关系、SQL脚本信息、ETL信息、接口程序等;
- 调度依赖关系、进度和数据更新频率等。
- 操作元数据:操作元数据描述数据的操作属性,包括管理部门、管理责任人等。明确管理属性有利于将数据管理责任落实到部门和个人,是数据安全管理的基础。常见的操作元数据有:
- 数据所有者、使用者等;
- 数据的访问方式、访问时间、访问限制等;
- 数据访问权限、组和角色等;
- 数据处理作业的结果、系统执行日志等;
- 数据备份、归档人、归档时间等。
在数据治理项目中,常见的元数据有数据源的元数据、数据加工处理过程的元数据、数据仓库或数据主题库的元数据、数据应用层的元数据、数据接口服务的元数据等。
元数据采集服务提供各类适配器来满足以上各类元数据的采集需求,并将元数据整合处理后统一存储于中央元数据仓库,实现元数据的统一管理。在这个过程中,数据采集适配器十分重要,元数据采集不仅要能够适配各种数据库、各类ETL、各类数据仓库和报表产品,还需要适配各类结构化或半结构化数据源。
元数据应用
- 数据资产地图:按数据域对企业数据资源进行全面盘点和分类,并根据元数据字典自动生成企业数据资产的全景地图。该地图可以告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。数据资产地图支持以拓扑图的形式可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的图形查询和辅助分析需要
- 元数据血缘分析:元数据血缘分析会告诉你数据来自哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系追根溯源,快速定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度
- 元数据影响分析:元数据影响分析会告诉你数据去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系向下追踪,快速找到有哪些应用或数据库使用了这个数据,从而最大限度地减小数据问题带来的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用的影响分析。
- 血缘分析是向上追溯,影响分析是向下追踪,这是这两个功能的区别。
- 元数据冷热度分析:元数据冷热度分析会告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度,以便他们更好地驾驭数据,处置或激活僵死数据,从而为数据的自助式分析提供支撑。
- 元数据关联度分析:元数据关联度分析会告诉你数据与其他数据的关系,以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其他实体及其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,如表与ETL程序、表与分析应用、表与其他表的关联情况等,从而进一步了解该实体的重要程度。
“数据标准(Data Standards)是指保障数据的内外部使用与交换的一致性和准确性的规范性约束。在数字化过程中,数据是业务活动在信息系统中的真实反映,由于业务对象在信息系统中以数据的形式存在,数据标准相关管理活动均须以业务为基础,并以标准的形式规范业务对象在各信息系统中的统一定义和应用,以提升企业在业务协同、监管合规、数据共享开放、数据分析应用等各方面的能力。”以下为关于数据标准的更多解释。
- 数据标准是各部门之间关于通用业务术语的定义,以及这些术语在数据中的命名和表示方式的协议。
- 数据标准是一组数据元的组合,可以描述如何存储、交换、格式化及显示数据。
- 数据标准是一组用于定义业务规则和达成协议的政策和程序,标准的本质不仅是元数据的合并、数据的形式描述框架,甚至还是数据定义和治理的规则。
- 数据标准是企业各个利益干系人希望共同发展的一种共同语言。
- 数据标准是用于数据集成和共享的单一数据集,是数据分析和应用的基础。
主数据的3个特征:主数据具有高价值、高共享、相对稳定3个基本特征。
主数据的4个超越:主数据具备超越业务、超越部门、超越系统、超越技术四大特点。
数据质量维度就是用来测量或评估数据质量的哪些方面,也可以理解为数据治理问题分类,通过测量维度来对数据质量进行量化,通过改进数据质量维度来提高数据质量。针对不同的数据集,数据质量维度可能不同,一般包含数据的一致性、完整性、唯一性、准确性、真实性、及时性、关联性等
- 一致性
- 数据一致性主要体现在多个数据源之间:第一,多个数据源之间的元数据的一致性;第二,多个数据源之间数据记录的一致性。
- 多源数据的元数据的一致性主要包括命名一致性、数据结构一致性、约束规则一致性。数据记录的一致性主要包括数据编码的一致性、命名及含义的一致性、数据分类层次的一致性、数据生命周期的一致性等。
- 在相同的数据有多个副本的情况下,也会产生数据不一致、数据内容冲突等问题。
- 完整性
- 数据完整性主要体现在三个方面:第一,数据模型的完整性,例如唯一性约束的完整性、参照数据的完整性;第二,数据记录的完整性,例如数据记录是否丢失或数据是否不可用;第三,数据属性的完整性,例如数据属性是否存在空值等。
- 不完整的数据的价值会大大降低,数据完整性是数据质量问题中最为基础和常见的一类问题。
- 唯一性
- 数据唯一性用于识别和度量冗余数据。冗余数据是导致业务无法协同、流程无法追溯的重要因素,例如,主数据治理中的“一物多码,多物一码”问题。为每个数据实体赋予唯一的“身份ID”是数据治理需要解决的基本问题。
- 准确性
- 数据准确性也叫可靠性,用于分析、识别和度量不准确或无效的数据。数据准确性体现为数据描述是否准确,数据计算是否准确,数据的值是否准确等。不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。
- 真实性
- 数据真实性用于度量数据是否真实、是否正确地表达了所描述事物和现象的真实构造。真实可靠的原始数据是数据分析的灵魂。但事实上,数据的真实性往往难以保证,有时候数据不真实并不是因为原始的数据记录有问题,而是人为因素所致,尤其是一些需要层层上报的数据,数据失真很常见。
- 及时性
- 数据的及时性是指能否在需要的时候获得数据。统计学认为,获得数据的时间不应当超过该数据对未来经济或业务产生影响的平均时间。数据也是有时效性的,过期数据的价值将大打折扣。
- 关联性
- 数据关联性用来度量存在关系的数据,即关联关系是否缺失或错误。数据的关联关系包括函数关系、相关系数、主外键关系、索引关系等。数据之间存在关联性问题会影响数据分析的结果。
大数据时代,数据是流动的,只有让数据流动起来才能发挥出数据的价值,这对企业来说是机遇也是挑战。机遇不言而喻,挑战就是数据安全的不确定性更高了,治理更复杂了,即使我们做好了所有系统的安全防护,也无法保证数据流转过程中的数据安全。因此,数据安全治理的重心是在数据上而不是系统上。
应用集成是一种将基于各种不同平台的异构应用系统进行集成的方法和技术。典型的企业应用集成架构分为4个层面:门户集成、服务集成、流程集成和数据集成。
企业门户是一个连接企业内部和外部的网站,它为企业不同角色的用户提供一个单一的、按角色访问企业各种信息资源的统一入口。
- 门户集成
- 门户集成一般包括统一用户管理、统一身份认证、单点登录、界面集成、待办集成、关键指标集成、内容管理等。门户集成的重要思想是“统一入口,按需推送”。“门户”强调的是为不同角色的用户提供企业信息资源的统一入口,提升企业整体的信息资源查找效率。
- 统一用户管理是为了方便用户访问企业所有的授权资源和服务,简化用户管理,对企业中所有应用系统实行统一的用户信息存储、认证和管理接口。通过将用户归纳或分配到不同的角色、组织、部门、组来实现对用户的访问权限控制,通过设定角色、组织、部门、组的权限来对应用和数据的访问权限进行分类、分级管理和设置。
- 服务集成
- 这里的服务即Web服务,它提供了一项不依赖于语言,不依赖于平台,可以实现用不同语言编写的应用程序相互通信的技术。Web服务使用基于XML的协议来描述要执行的操作或者要与另一个Web服务交换的数据。
- 在企业应用集成体系中,服务集成是一项用来实现流程集成和数据集成的技术,通过标准化的XML消息传递操作,实现跨系统、跨平台的应用交互和数据共享。
- 服务集成目前有两种主流框架:一种是比较传统的面向服务的架构(SOA),另一种是微服务架构。
- 微服务架构(Microservice Architecture)是一种架构概念,旨在通过将功能分解到各个离散的服务中来实现对解决方案的解耦。与SOA类似,微服务架构的核心思想是将应用系统的共性功能抽象出来,形成可以独立运行的服务。微服务架构中的核心组件是微服务网关(API Gateway),微服务网关主要提供微服务的发现、注册、监控、熔断、限流、服务降级、安全控制等功能。
- 流程集成
- 流程集成流程集成也称业务流程集成,指通过编排各个业务应用系统中提供的功能,实现一个完整的业务流程。流程集成主要用于将分布在不同应用系统中的“片段式”业务流程,完整地整合到一起,真正实现业务流程的“端到端”。
- 流程集成能够协调及控制在多个业务系统中执行的、涉及不同角色人员参与的活动,主要管理跨系统的业务流程运行及其流程状态,涵盖工作流技术,实现自动化业务流程与人员参与流程的有机结合。流程集成的应用场景一般有以下三种。
- 数据集成
- 数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。数据集成的核心任务是将互相关联的异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。数据集成的目的是维护数据源整体上的数据一致性,解决企业信息孤岛问题,提高信息共享和利用的效率。
- 从集成场景来分,数据集成主要有数据复制、数据联邦和接口集成三种形式。
- 数据复制的目的是保持数据在不同数据库间的一致性。数据库可以是同一厂商的,也可以是不同厂商的,甚至可以是采用了不同模型和管理模式的数据库。数据复制的基本要求是必须提供一种数据转化和传输的基础结构,以屏蔽不同数据库间数据模型的差异。
- 数据联邦是将多个数据库和数据库模型集成为一种统一的数据库视图的方法。其基本原理是:在分布部署的数据库和应用之间放置一个中间件层,该层与每一个后台的数据库通过自带的接口相连,并将分布部署的数据库映射为一种统一的虚拟数据库(这种虚拟模型只存在于中间件中),然后就可以应用该虚拟数据库去访问需要的信息。
- 接口集成利用应用接口实现对应用包和客户化应用的集成,是目前应用最广泛的集成方法。其基本原理是:通过提供用以连接应用包和客户自开发应用的适配器来实现集成,适配器通过自身的开放或私有接口将信息从应用中提取出来。接口集成的优势在于,通过接口抽象提供了高效集成不同类型应用的方法。但是由于缺乏明晰的过程模型,也缺少面向服务的框架接口,该方法并不适用于那些需要复杂的过程自动化的场景。
根据笔者的经验,企业80%的应用集成是数据集成。
随着新技术的发展和企业业务需求的变化,数据集成架构也跟着发生着变迁。数据集成架构的发展可以分为4个阶段:点对点集成、EDI集成、SOA集成和微服务集成
微服务的集成主要涉及以下4个层面。
- 接口集成:接口集成是服务之间集成的最常见手段,通常基于业务逻辑的需要进行集成。RPC、REST、消息传递和服务总线都可以归为这种集成方式。微服务使用REST API和轻量级消息系统实现系统集成。其中,消息系统仅提供可靠的异步消息传输通道,既不参与消息路由、编排、转换等环节,也不包含业务逻辑。
- 数据集成:数据集成同样可以用于微服务之间的交互。可以选择用联邦数据库,也可以通过数据复制的方式实现数据集成。
- 界面集成:由于微服务是一个能够独立运行的整体,有些微服务会包含一些UI界面,这意味着微服务之间也可以通过UI界面进行集成。
- 外部集成:这里把外部集成剥离出来了,原因在于现实中很多服务之间的集成需求来自外部服务的依赖和整合,而在集成方式上可以综合采用接口集成、数据集成和界面集成。
数据湖是在数据仓库概念上发展出的新一代数据集成、管理和应用模式。数据湖的出现最初是为了弥补数据仓库的缺陷和不足,如开发周期漫长、开发成本高昂、细节数据丢失、信息孤岛无法解决、出现问题无法溯源等。
有人认为数据湖是数据仓库的加强版,增强了数据存储的能力。而实际上,数据湖不单是对数据仓库技术上的升级,更是数据管理思维的升级。数据仓库需要先定义好数据结构,然后进行报表取数。而随着大数据的发展,数据形式越发多样化,数据仓库这种定义数据结构、取数、出表的模式已经很难满足业务需求。数据湖以原始格式存储各种类型的数据,并按需进行数据结构化处理、数据清理,提供数据服务,以更加灵活的方式支持多种应用场景,因而越来越受欢迎。
数据模型是企业数据治理中最基础、最核心的组成部分,数据模型对上是承载数据业务需求的元数据,对下是数据标准管理的内容,同时,它是数据质量指标和规则定义的起点,是主数据和参考数据设计的根本,是数据仓库和BI的核心,也是数据安全管控的对象。
数据模型管理工具从功能上分为以下两部分:
- 数据模型管理功能,主要包括可视化建模、数据模型查询、数据模型管理、数据模型对比、数据模型稽查等;
- 数据模型应用功能,主要是基于数据模型管理工具的外延应用,包括应用系统开发管理、数据仓库建设、主数据管理、数据质量管理、数据安全管理等。
数据模型管理:数据模型管理工具提供了企业级数据模型设计和管理的基础能力。
- 可视化建模:数据模型管理工具提供前台可视化建模能力。
- 支持企业级数据模型的构建,站在企业全局视角,识别业务域、业务主题、数据实体及数据之间的关系,构建企业逻辑数据模型。
- 支持系统级数据模型开发,数据仓库、应用系统的数据模型均可基于企业级数据模型进行扩展,实现系统模型的正向建模。
- 支持数据模型的反向采集,可以将Oracle、MySQL、SQL Server等关系型数据库中的数据结构采集到数据模型管理工具中进行统一管理。
- 支持数据模型的导入,可以将数据建模工具中设计的数据模型导入数据模型管理工具中进行统一管理,例如PowerDesigner、erwin、ER/Studio等。
- 数据模型查询:数据模型管理工具提供数据模型查询功能。
- 支持数据模型查询,可以通过数据模型分类的逐层查找或者通过输入关键字查询到指定的数据模型。
- 支持数据模型全景视图的查询,能够直观浏览企业数据的分布地图和各数据模型之间的关联关系并支持通过模型下钻功能进行模型的逐级展开,直到查询到模型最底层的元数据。
- 数据模型管理数据模型管理工具提供数据模型管理功能。
- 支持数据模型的新增、修改、删除等数据模型基础维护功能;
- 支持数据字典的管理维护;
- 支持数据模型基准管理和发布;
- 支持数据模型变更管理,模型变更需要经过审批才能生效,每一次变更会生成一个新的版本;
- 支持数据模型的版本管理,支持版本回溯、版本明细信息查询。
- 数据模型对比与稽查:数据模型管理功能还提供数据模型的对比和稽查能力,支持系统级数据逻辑模型与企业级数据逻辑模型的对比、稽查,确保企业数据模型标准的落地
元数据管理功能
- 市场上主流的元数据管理产品基本都包括元数据查询、元模型管理、元数据维护、元数据变更管理、元数据版本管理、采集适配器管理、元数据接口等功能。
- 元数据查询:支持按关键字的全文搜索,通过元数据查询功能可以准确定位元数据。
- 元模型管理:基于元数据管理工具构建符合CWM规范的元数据仓库,实现元模型统一、集中化管理,支持元模型导入与导出,支持新增、修改、权限设置等功能。
- 元数据维护:提供对信息对象的基本信息、属性、被依赖关系、依赖关系、组合关系等元数据的新增、修改、删除、查询、发布等功能,以管理企业的数据标准。
- 元数据变更管理:元数据的变更需要经过审核才能发布,元数据管理工具提供元数据审核、元数据版本等功能,以支撑元数据的变更管理。
- 元数据版本管理:提供元数据的版本管理功能,对于元数据新增、修改、删除、发布和状态变更都有相应的流程,同时支持元数据版本的查询、对比、回滚。
- 采集适配器管理:提供元数据采集适配器的新增、修改、删除、配置等功能。
- 元数据接口:元数据管理工具提供统一的元数据访问接口服务,一般支持REST或Web Service等接口协议。通过元数据访问服务,支持企业元数据的共享。
元数据分析功能
- 元数据分析功能包括数据资源地图、血缘分析、影响分析、冷热度分析、关联度分析、对比分析等。数据资源地图:基于企业元数据生成并以拓扑图的形式展示企业数据资源的全景地图,方便用户清晰直观地查找和浏览企业数据资源。
- 血缘分析:也叫血统分析,采用向上追溯的方式查找数据来源于哪里,经过了哪些加工和处理。常用于在发现数据问题时,快速定位和找到数据问题的原因。
- 影响分析:功能与血缘分析类似,只是血缘分析是向上追溯,而影响分析是向下追踪,用来查询和定位数据去了哪里。常用于当元数据发生变更时,分析和评估变更对下游业务的影响。
- 冷热度分析:也叫活跃度分析,用于评估哪些数据是常用的,哪是数据是“沉睡”的。
- 关联度分析:分析不同数据实体之间的关联关系,从而判断数据的重要程度。
- 对比分析:对于选定的多个元数据或者一个元数据的多个版本进行比较,找出差异,再根据差异分析对业务的影响。
数据标准制定:数据标准的制定主要包括数据标准现状分析、定义数据元及其属性两个关键环节
- 数据标准现状分析:根据数据标准需求采集情况,从业务和IT两个方面进行分析、诊断并归纳数据标准现状和问题。业务方面,主要对数据标准涉及的业务和管理现状进行分析和梳理,以了解数据标准在业务方面的作用和存在的问题;IT方面,主要对各系统的数据字典、数据记录等进行分析,明确实际生产中数据的定义方式及其对业务流程、业务协同的作用和影响。
- 定义数据元及其属性:企业依据行业相关规定,借鉴同行业实践经验,并结合企业自身的数据标准需求,在各个数据标准类别下,明确相应的数据元及其属性,例如数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、值域范围等。
- 数据标准维护:提供对数据标准信息的新增、修改和删除功能,主要涉及业务术语表、数据元值域标准、数据指标标准等。业务术语表:定义企业级的公共业务词汇表,建立各部门对公共业务术语的共识,提供业务术语上下文的关联和控制,提升业务之间的协同、协作效率。
- 数据元值域标准:数据元是用一组属性描述、定义、标识或表示数据的单元,值域是指允许值的集合。数据元值域标准也被称为数据字典,包括数据元分类、数据元名称、数据元编码、数据元业务定义、数据元值域范围等。
- 数据指标标准:对业务和管理指标的标准化定义,涵盖指标的业务属性、技术属性和管理属性,例如指标名称、业务含义、统计维度、计算方式、分析规则等信息。
主数据管理工具用来整合来自不同来源的数据,使企业能够为重要数据创建单一数据源,统一数据视图,从而提供标准、准确、一致的核心数据,帮助企业做出明智的决策。在应用层面,主数据管理工具自下而上可分为业务系统层、主数据集成层、主数据管理层和主数据应用层四层架构
- 业务系统层:包括生产主数据的业务系统(数据源系统)和消费主数据的业务系统。通过主数据管理工具整合各数据源的主数据,从而形成主数据单一数据源,并为主数据消费系统提供准确、一致、权威的主数据。
- 主数据集成层:为业务系统的数据整合和同步共享提供集成能力,包括主数据的清洗、转换、装载、映射、分发等功能。
- 主数据管理层:主数据管理工具的核心层,主要提供主数据建模、主数据管理、主数据质量、主数据安全等功能。
- 主数据应用层:主要提供主数据标准、主数据目录、主数据查询、主数据订阅、主数据统计等功能。
主数据建模
- 主数据建模功能是主数据管理的基础,主数据的申请、审核、质量、安全、集成共享等功能都是围绕主数据模型展开的。主数据建模包括主数据分类、主数据编码、主数据属性模型、主数据界面模型及主数据审批模型。
- 主数据分类:按照一定的维度和特征对某主数据进行划分,以方便主数据的管理和使用,例如客户分类、供应商分类、产品分类等。
- 主数据编码:主数据的唯一识别属性。主数据管理工具提供多种编码方式,可以灵活设置码段、码位、步长,以支持不同主数据编码的业务需求。常见的编码方式有特征值编码、固定值编码、日期码、流水码、组合码、层级码、随机码等。
- 主数据属性模型:用于对主数据所有属性进行定义,包括中文名称、英文名称、字段类型、字段长度、唯一性约束、校验规则等。
- 主数据界面模型:也叫主数据管理模板,提供了主数据管理视图配置功能,在主数据模型的基础之上,为不同分类主数据分配不同的属性。
- 主数据审核模型:基于主数据管理工具提供的工作流引擎,为主数据的新增申请、变更申请提供流程配置,支持对每个审批节点进行设置,如流程ID、流程描述、操作类型、审批人、通知模式等。
主数据质量:主数据管理工具提供主数据质量规则设计、主数据质量稽核、主数据质量报告、主数据问题处理等功能,实现主数据质量从问题发现到问题处理的闭环管理。
- 主数据质量规则设计:按照主数据质量评估维度和业务规则制定主数据质量规则。主数据质量评估维度有唯一性、完整性、正确性、规范性等。
- 主数据质量稽核:主数据质量稽核任务是一组执行主数据质量规则的脚本。通过执行主数据质量稽核任务,可以实现对主数据库数据质量的检查,并自动记录检查出的数据质量问题。主数据管理工具支持快速匹配和准确识别重复数据:根据配置的规则,识别在多个系统中存在的潜在匹配对象;根据阈值定义,确定是否匹配,将疑似匹配结果通过业务流程提交人工确认,并将确认重复的数据进行合并。主数据管理工具支持可视化配置主数据质量稽核任务,支持定时自动执行、手动触发执行等多种执行模式。
- 主数据质量报告:通过执行主数据质量稽核任务,自动记录数据质量问题,并按照主数据质量评估维度形成主数据质量报告。支持对清洗前和清洗后数据的质量进行评分对比,从宏观上把握数据质量,快速定位数据问题。支持主数据质量报告的下载和发送,可将主数据质量报告以系统消息、电子邮件等方式发送给相关干系人。
- 主数据问题处理:对有问题的主数据记录进行自动或手动处理,包括自动合并、自动剔除、人工复核、人工补录等方式。
数据安全治理:在数据安全治理的四道防线中,设施层安全和存储层安全侧重于对数据所在宿主机、相关网络设备、数据存储和传输介质的安全防控,这些是传统网络安全和数据安全治理的重点,不是本书要讨论的内容。本书重点关注管控层和应用层的数据安全治理,包括5A(身份认证、访问控制、授权、安全审计和资产保护)、数据分类分级、数据脱敏/脱密等。
- 身份认证:提供统一用户身份认证功能,为每个用户赋予唯一性身份的标识,并采用PKI/CA、用户名/口令、智能卡、生物识别等身份鉴别技术对用户身份进行验证和确认,以确保用户可以访问相关应用和数据。
- 访问控制:提供一组或多组访问控制策略,以确保合法用户可以访问受保护数据资源,并防止非法用户访问。常用的访问控制策略有基于用户组的访问控制、基于角色的访问控制、基于IP的访问控制、基于属性的访问控制等。
- 授权:以最小授权为原则,为合适的用户分配合适的数据资源访问权限。授权是确定经过身份认证的用户是否可以访问特定资源的过程,它验证用户是否有权访问相关信息、数据库、文件等资源。
- 安全审计:安全审计是对异常的账户、授权、操作行为及非法攻击等异常信息进行日志记录和实时监控,以便及时发现系统存在的数据安全漏洞,制定补救措施。
- 资产保护:保护数据全生命周期的安全,包括数据采集安全、数据存储安全、数据传输安全、数据处理安全、数据交换安全、数据销毁安全等。
- 数据分类分级:数据分类和分级管理是数据安全治理的基础。分类是按照一定的原则和方法对数据进行归类,方便为不同的数据分类制定相应的数据安全策略;分级是按照数据的涉密程度高低对分类后的数据进行定级,从而确保企业数据的安全合规使用。
- 数据脱敏/脱密:利用加密技术对敏感数据进行加密,防止敏感数据泄露。数据脱敏不仅要执行数据漂白,抹去数据中的敏感内容,还要保持原有的数据特征、业务规则和数据关联性,保证开发、测试、培训等业务不受影响,确保脱敏前后的数据一致性和有效性。
数据相关的项目都是重服务项目,如果你的企业技术和业务能力都足够强大,不需要太依赖供应商的话,该环节可以忽略。对于供应商服务能力的考察,可重点考察行业内类似案例、服务团队项目经验、服务团队人员能力等。
企业的数据治理应以业务为主导,以共享协同为重点,以优化流程为关键,以技术创新为支撑,以组织制度为保障,建立起数据治理的长效运行机制。这里,以业务为主导并不等于以业务部门为主导,以业务为主导的数据治理是以企业的业务发展为主导,以业务协同、流程优化、降本增效为目标,来进行数据治理活动的组织和开展
“主数据+人工智能”将是主数据管理的升华,也是一个必然趋势。人工智能技术将应用于主数据的建模、清洗、转换、融合、共享、数据关系管理、运营管理、统计分析,以及一些我们还未触及的主数据应用领域。
- 人工智能可以帮助企业自动识别主数据。传统主数据识别是采用定义识别法、特征识别法等偏主观的主数据识别方法。人工智能技术的使用将根据数据使用的频度、热度,自动识别出哪些数据应纳入主数据管理,并能够完整构建出主数据管理视图。这将增强在数据环境越来越多样化、复杂化的条件下企业主数据管理的能力。
- 人工智能可以用来清理数据,确保必要的数据是准确和完整的。利用机器学习、自然语言处理等技术帮助建立重复识别匹配规则和匹配链接规则,在识别字段重复的主数据之后不进行自动合并,消除重复记录,确定与主数据相关的记录,建立交叉引用关系。
- 在主数据运营管理方面,利用自然语言处理从普通文本中识别和收集与主数据相关的附加信息,并自动给主数据实体打上数据标签,从而实现主数据管理的自动化,从而最大限度减少手动输入数据的需要,解决人工管理的低效问题,并降低数据不准确的可能性。
人工智能,为企业数据治理插上翅膀:实际上,很多企业很早就已经开始探索人工智能技术在数据治理中的应用了,举例如下。
- 在数据采集方面,利用图像识别、语音识别、自然语言处理等AI技术自动化采集各种半结构化和非结构化的数据,例如文本、图像、音视频等。基于知识图谱、机器学习技术,从历史数据中自动发现数据存储结构、表关系及数据与业务关系,构建包含主体、属性和客体的知识图谱数据集。
- 在数据建模方面,通过知识图谱、机器学习、图数据库等新技术,帮助企业对结构化数据、半结构化数据、非结构化数据进行文本识别、语言识别、全面梳理,将其自动转为结构化数据,自动化捕获元数据进行数据建模,通过数据解析、结构化建立数据标准和数据关系,让企业暗数据无处藏身。帮助设计出更加符合现实的业务概念模型,并将概念模型转化为数据库可识别的物理模型,进行数据的管理和存储。
- 在元数据管理方面,人工智能技术可以帮助企业更好地管理和整合元数据。将机器学习和NLP植入元数据管理工具,对以往难以检索的丰富数据类型自动创建高质量的元数据,可以提高这些数据的可发现性,如非结构化数据的元数据采集,基于语义模型、分类聚类算法、标签体系的自动化数据目录等。
- 在主数据管理方面,利用人工智能技术对数据集进行监控,可以帮助自动鉴别和筛选出主数据。监控主数据的数据质量,可以维护和确保主数据的“黄金记录”。在主数据维护管理过程中的数据校验、数据查重合并、数据审核等业务中,均可以植入人工智能技术,让主数据管理变得自动和高效。
- 在数据标准方面,通过机器学习算法可以自动识别出数据标准的使用频度和热度,找出那些没有使用或使用过程中存在问题的数据标准,以便企业对数据标准进行评估和优化。
- 在数据质量管理方面,通过将监督学习、深度学习、回归模型、知识图谱等AI技术与数据质量管理深度融合,实现对数据清洗和数据质量的评估,进而定位数据治理问题的根本原因,帮助企业不断改善和提升数据质量。例如:利用自然语言处理、分词算法从海量的数据中提取特征关键词并进行词频分析,找到重复的数据记录并自动合并或进行去重处理;利用聚类、分类、决策树等人工智能算法,找出数据集中的异常值,并进行自动替换、补全或删除处理。
- 在数据安全方面,利用人工智能、机器学习技术,可以帮助企业识别、清洗、转换、处理数据集中的敏感数据,例如通过分类、聚类神经网络等算法模型及自然语言处理、智能搜索等技术实现对敏感数据的实时、动态识别,自动化生成标注,自动化分类分级,加强敏感数据的安全防护。
- 在数据分析方面,将机器学习技术应用到数据建模、数据处理、数据质量等环节,实现数据的自动清洗与处理,减少人为干预;利用机器学习、人工智能技术将传统的分析模型(如杜邦分析)在大数据环境下进行“锤炼”,形成适合企业且更加智能、可靠的数据模型。利用人工智能技术自动执行比较耗时的手动任务,如数据分类、数据标记,识别数据集之间的关系以及相关业务术语的连接,提升对业务人员的友好度,支撑业务人员自助进行数据管理和数据分析。