绪论
概述
当前,企业越来越重视数据管理,包括提高数据质量、理解数据的含义、利用数据获得竞争优势以及将数据视为企业应有的资产。但要做好数据管理工作,就需要责任制,也就是说,业务职能必须对其拥有和使用的数据负责。通过适当的架构、组织和资源来管理数据,被称为数据治理。数据认责是在数据治理体系之内的。各种类型的数据专员(在本书后面详细介绍)与其他主题专家和利益相关者密切合作,以实现数据治理工作制定的目标和交付成果。数据认责工作应由数据治理办公室管理和协调,并应得到公司高级领导的支持。本书提供了关于如何在数据治理中建立和运行数据认责工作的适用且可操作的信息和说明。本书旨在为新任数据专员或数据治理经理提供在数据认责方面所需的知识,以确保其工作有效和高效。本书还提供了承担数据专员职责的人员所需的详细信息。
问题陈述
使用数据过程中一定会面临挑战,包括:
?? 数据无法解释自身。必须有人对数据进行解释,包括数据的含义、如何正确使用数据以及如何评估数据质量是否良好。
?? 数据被许多人共享和使用,用于许多不同的目的。那么,谁拥有它?当数据出现“错误”时,谁对此做出决定并负责?
?? 许多使用数据的流程都依赖于流程上游的人员对数据的“正确处理”,但谁来说什么是“正确”?当“出错”的时候,是由谁来判定?
?? 软件开发生命周期需要在需求、分析、设计、构建和数据使用之间进行多次切换。在很多场合,切换可能会破坏数据并危及数据质量。
?? 负责数据实现的技术人员不熟悉数据的含义或如何使用数据。
?? 我们这些数据圈的人在容忍歧义方面有着悠久的历史和习惯,无论是在数据含义还是在数据内容方面。
所有这些因素都会导致人们对数据的理解不足,并导致人们认为数据质量差。这些因素还导致数据管理不善。
解决这些挑战的办法是积极有效地管理数据。但许多公司用来汇集元数据的相当随意的“方法论”并不是真实或有效的数据管理。一些失败的方法包括:
?? 数据定义。这些定义通常是由项目工作人员匆忙编写的,并且定义在整个企业中没有合理化,导致同一术语的多个定义,通常使用不同的业务数据元素名称。
?? 数据质量。通常没有制定明确的数据质量规则,也很少衡量质量本身。即使明确了规则,规则的上下文背景(规则适用的数据用途)也经常被忽略。所有这些都会导致人们对所需的数据质量以及所实现的数据质量感到困惑。
?? 文档。包含元数据的文档很少被正式发布,而且经常丢失、藏在书架上或存档文件中。该文档知者甚少且不易获得,也没有一个强大的搜索引擎来让感兴趣的用户找到他们需要的东西。
?? 创建和使用业务规则。通常对可以或应该创建实体(如客户或产品)的条件以及应该如何使用数据缺乏了解。这种缺乏了解的情况导致收集到的关于该实体的信息不完整或不准确,以及数据被用于并未设想过的目的。最终的结果是,基于数据的业务决策可能会导致非最优结果。
作为数据治理工作的一部分,数据认责对于企业管理数据和实现解决方案以应对以上挑战至关重要。通过数据认责,组织可以开始将数据视为资产。与其他资产一样,数据需要被盘点、拥有、明智地使用、管理和理解。这需要使用与物理资产不同的数据技术,但需求是相同的。对于数据资产,通常结合元数据存储库,以正式发布的业务术语表的形式来盘点及理解数据。
建立所有权需要了解数据是如何收集的以及谁使用数据,然后确定谁最能对数据元素的内容和质量负责。最后,确保数据得到合理的使用意味着了解和管理数据是如何创建的,创建数据的目的是什么,以及它是否适合在可能出现的新情况下使用,甚至是否适合在当前使用的情况下使用。
数据专员在数据管理中的职责
已被正确管理的数据使企业能够在较少的失误和更少浪费人力物力的情况下获得成功。业务型数据专员在数据管理工作中发挥着重要作用,他们决定了以下内容。
(1)在数据仓库中
?? 需要什么维度以及它们的含义。
?? 需要什么事实以及它们所依赖的维度。
?? 如何定义事实以及派生规则和聚合规则。
?? 统一维度或事实提出的不同术语(实际上是相同的)。
?? 谁必须对构成维度和事实的数据元素负责。
?? 如何转换数据以及在数据仓库中使用它。
(2)在主数据管理中
?? 应管理哪些数据实体(客户、产品、供应商等),以何种优先级管理,以及这些实体的含义(例如,什么是客户?)。
?? 需要哪些特征属性(具有良好的质量)来实现实体解析。
?? 确定实体唯一性的敏感度是什么(对假阳性和假阴性的敏感度)。
?? 枚举属性的适当参考数据值是什么,以及如何从可用数据中导出这些值。
(3)在数据质量改进方面
?? 既定的目标需要什么样的数据质量等级。
?? 应该对哪些数据进行剖析以严格检查这些值。
?? 什么构成数据的“期望”值。这些期望可以包括范围、特定值、数据类型、数据分布、模式和关系。
?? 导致数据质量差的根本原因有哪些。
?? 为了解决根本原因和/或清洗数据,必须将哪些要求给到IT部门。
(4)在系统开发中,数据专员作为关键的角色来确保以下几方面
?? 系统使用的数据定义是完善的,并且业务定义和业务规则符合企业标准。如果定义或规则缺失、质量低下,业务型数据专员需协助提供较高质量的业务定义和规则。
?? 这些数据模型符合企业标准和项目要求。
?? 将数据作为资产进行管理的要求不会因为项目进度而被忽视。
(5)数据湖中的“大数据”管理
?? 数据的含义是什么。
?? 数据被摄取的优先级和顺序,以及数据必须满足的业务需求。
?? 每个区域适当级别的数据治理和数据认责。
?? 满足业务需求所需的数据转换。
本书详细讨论了这些主题以及数据专员所扮演的角色。
本书涵盖内容
本书分为11章,每章都聚焦在数据认责的一个方面。
?? 第1章 数据认责和数据治理:二者如何结合。本章讨论了数据治理项目的交付成果、项目参与者(包括数据专员)的角色和责任,以及数据专员如何融入数据治理项目。
?? 第2章 了解数据认责的类型。本章介绍了每种类型的数据专员,讨论了该角色所需的人员类型,以及如何选择和指派各种类型的数据专员。
?? 第3章 认责管理的角色和职责。本章详细列出了每种类型的数据专员的职责,描述了这些专员如何在数据认责专委会中合作,以及代表数据治理管理认责工作的企业级数据专员的角色。
?? 第4章 实施数据认责。本章介绍了如何启动数据认责工作,描述了如何获得支持,确定组织的结构,确定所需的数据专员类型,厘清信息在组织中的流动方式,确定已经拥有的文档,并决定需要什么工具和已经拥有什么工具。本章还介绍了如何确定哪些元数据已经可用,例如,有效的值列表和数据质量规则。
?? 第5章 培训业务型数据专员。本章讨论了如何培训业务型数据专员,因为大多数被选中担任该职位的人员都不知道如何履行职责,讨论了课程规划、各类培训以及数据专员需要学习的工具。本章还提供了如何充分利用培训工作的指导方针。
?? 第6章 数据认责实践。本章描述了数据认责的主要任务和职责的实践层面。其中包括识别关键业务数据元素和收集有关这些元素的元数据,确定所有权,以及使用问题日志和可重复的流程处理日常问题。还讨论了不同类型的专员如何合作,以及会议时间表和工作组等后勤问题。本章还介绍了基本工具。
?? 第7章 数据专员的重要角色。数据专员在所有数据管理活动中都发挥着极其重要的作用,在某些领域发挥着特别关键的作用。本章描述了数据专员如何为提高数据质量、提高元数据质量、管理参考数据、确定特征属性(用于实体解析)以及主数据管理的其他方面做出贡献,包括信息安全管理、元数据管理、支持质量保证、编制数据血缘、管理过程风险,以及支持数据合规管理(对于新隐私法规的合规管理已经越来越普遍)。
?? 第8章 衡量数据认责进度:指标。数据认责工程需要资源和精力。本章展示了如何在两个主要领域识别和衡量从这些努力中获得的结果:业务成效指标(衡量支持数据行动计划的有效性)和运营指标(衡量对行动计划的接受程度和数据专员的表现)。
?? 第9章 数据认责成熟度评估。数据认责工作可以随着深入开展而逐渐提高成熟度。本章描述了一个具有多个级别和维度的成熟度模型。该模型可以帮助您评估自己的成熟度,并确定一个完善的数据认责项目应该是什么样子。它还讨论了如何使用衡量成熟度的结果来弥补工作中的差距。
?? 第10章 大数据和数据湖认责。“大数据”(通常存储在数据湖中)需要在数据认责方法上有一些差异,尽管这些差异并不像许多人想象的那么大。本章解释了数据专员如何与在体量及速度上都在不断增长的数据进行交互,以及数据认责的重要性如何随着数据湖中的大量复杂转换而增加。还讨论了控制数据治理的程度,这是与数据湖灵活性之间的适当平衡。
?? 第11章 基于数据域开展数据治理和认责。越来越多的公司正在从基于业务职能的数据认责(表现为数据拥有方来自产生关键业务数据元素或受到关键业务数据元素严重影响的业务职能)迁移到基于数据域的数据认责(表现为数据被分组到由业务型数据专员小组管理的“数据域”中)。本章详细介绍了如何为数据确定正确的数据域,使用一组业务型数据专员和其他角色来一起管理数据,以及企业在转型过程中面临的挑战。
?? 附录A 定义和派生规则示例。本附录提供了一个业务数据元素的完善定义和派生规则示例。
?? 附录B 培训计划大纲范例。本附录提供了技术型数据专员和项目经理的培训计划。其他培训计划见第5章培训业务型数据专员。
?? 附录C 用于命名业务数据元素的类词。本附录提供了一个“类词”列表,这些词汇用于业务数据元素名称的末尾,以指示业务数据元素表示的数据类型。
本书未涵盖内容
尽管本书讨论了数据认责如何融入数据治理,但它并没有针对如何建立和运行更广泛的数据治理工作提供所需的所有信息。为此,本书提供了参考资料。
谁需要本书
本书是为任何对数据认责感兴趣的人设计的。对于负责组织和运行数据认责工作的人来说,本书十分有用,因为它是基于很多人的实际经验总结提炼出来的。本书对那些即将成为业务型数据专员的人也很有用,因为它描述了对这些人的期望,提供了技巧和窍门,并详细说明了这个角色如何为公司和该角色代表的业务职能增加价值。最后,本书将对那些负责支持数据认责和数据治理的人(包括高管)很有帮助,因为它描述了应该发生的事情以及如何衡量进展和成熟度。