【华为数据之道】学以致用
智能数据管理是数据工作的未来。
数据驱动的企业数字化转型
数据工作框架:
- 数据源:业务数字化是数据工作的前提,通过业务对象、规则与过程数字化,不断提升数据质量,建立清洁、可靠的数据源。
- 数据湖:基于“统筹推动、以用促建”的建设策略,严格按六项标准,通过物理与虚拟两种入湖方式,汇聚华为内部和外部的海量数据,形成清洁、完整、一致的数据湖。
- 数据主题联接:通过五种数据联接方式,规划和需求双驱动,建立数据主题联接,并通过服务支撑数据消费。
- 数据消费:对准数据消费场景,通过提供统一的数据分析平台,满足自助式数据消费需求。
- 数据治理:为保障各业务领域数据工作的有序开展,需建立统一的数据治理能力,如数据体系、数据分类、数据感知、数据质量、安全与隐私。
建立企业级数据综合治理体系
公司数据 Owner 的职责:
- 制定数据管理体系的愿景和路标;
- 传播数据管理理念,营造数据文化氛围;
- 建设和优化数据管理体系,包括组织与任命、授权与问责等;
- 批准公司数据管理的政策和法规;
- 裁决跨领域的数据及管理争议,解决跨领域的重大数据及管理问题
差异化的企业数据分类管理框架
主数据治理:
- 唯一性
- 联邦管控
- 单一数据源
- 数据、流程、IT 协同
- 事前的数据质量策略
报告数据治理:
- 事实表:从业务活动中或者事件中提炼出来的性能度量。其特点为:
- 每个事实表由颗粒度属性、维度属性、事务描述属性、度量属性组成;
- 事实表可以分为基于明细构建的事实表和基于明细做过汇聚的事实表。
- 维度:用于观察和分析业务数据的视角,支持对数据进行汇聚、钻取、切片分析。其特点为:
- 维度的数据一般来源于基础数据和主数据;
- 维度的数据一般用于分析视角的分类;
- 维度的数据一般有层级关系,可以向下钻取和向上聚合形成新的维度。
- 统计型函数:与指标高度相关,是对指标数量特征进一步的数学统计,例如均值、中位数、总和、方差等;
- 趋势型函数:反映指标在时间维度上变化情况的统计方式,例如同比、环比、定基比等
数据资产编码规范
- 业务元数据:主题域分组、主题域、业务对象、逻辑实体、属性、数据标准
- 数据资产编码(DAN)原则
- 统一性
- 唯一性
- 可读性
- 扩展性
面向“联接共享”的数据底座建设
数据入湖的 5 种技术手段:
- 批量集成:复杂数据清理和转喊,且数据量较大
- 数据复制同步:适用于需要高可用性和对数据源影响小的场景,如 CDC
- 消息集成:通过 API,不适合处理大量数据
- 流集成:不适合需要复杂数据清理和转换的场景
- 数据虚拟化:对于需要低数据延迟、高灵活性和临时模式
打造“清洁数据”的质量总和管理能力
什么是数据质量:
- 完整性:指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量最基础的一项,例如员工工号不能为空。
- 及时性:交付、抽取、展现都要及时。
- 准确性:真实、准确地记录原始数据,无虚假数据及信息。
- 一致性:遵循统一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范
- 唯一性:指同一数据只能有唯一标识符。
- 有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。
四类数据质量分类框架:
- 单列数据质量规则:不可为空、语法约束、格式规范、长度约束、值域约束、事实参照标准
- 跨列数据质量规则:应为空值、入库及时、单表等值一致约束、单表逻辑一致约束
- 跨行数据质量规则:记录唯一、层级结构一致约束
- 跨表数据质量规则:外关联约束、跨表等值一致约束、跨表逻辑一致约束
数据源剖析摘要:
- 数据源内容
- 数据源结构:包括技术结构和业务结构。技术结构指空值频率、相异值频率、值范围(最大值、最小值)、模式、长度、数据类型
- 数据源质量:根据数据标准分析剖析结果的数据质量
设计和配置监控规则,自动监测异常数据
数据质量指标同时参考 5 项原则进行设置:
- 重要性原则:对核心数据、痛点问题较严重的数据,需重点考虑设计度量指标;
- 成本效益原则:运作成熟且质量较高的数据,或度量成本很高但预期改进很少的数据,可以考虑简化度量指标或不度量;
- 明确性原则:指标设计清晰、可衡量;
- 分层分级原则:可根据不同层级的管理诉求,设计分层分级的指标;
- 持续度量原则:一次性就可解决问题的数量不需要度量。
未来已来:数据成为企业核心竞争力
智能数据管理是数据工作的未来。