多部委密集调研数据要素市场化改革 | 汪广盛:关于数据治理与数据质量的思考


多部委密集调研数据要素市场化改革 | 汪广盛:关于数据治理与数据质量的思考

4.25.17

导语

数据质量是数据治理的核心内容,提高数据质量也是数据治理的核心目标。数据作为生产要素是数字经济的基础,高质量的数据是数据价值的保障。对数据质量的管理是数据全生命周期的管理,需要一把手的参与和承诺,并有相应的数字化企业文化的建立和一系列工具及制度的保障。

经常有人问,数据重要还是算法重要?回答应该是肯定的:二者都重要;但如果只能选择一个的话,那么数据更重要。因为如果数据是低质量的甚至是错误的,再好的算法所得出的结论也只能是不准确甚至是错误的。所谓的“垃圾进,垃圾出”(Garbage in,Garbage out)讲的就是这个道理。按照国际数据管理协会(DAMA)的数据管理知识体系(DBMOK2),提高数据的质量是数据治理的核心内容。数据作为数字经济的基础,高质量的数据也是数字经济的必然要求。

图片

数据质量的定义

“数据质量”(Data Quality,简称DQ)一词有多重意思,既指高质量数据的相关特征,也指用于衡量或提高数据质量的过程。按照DAMA的说法,“数据质量如能达到数据使用者的期望和需求,也就是说,如果数据满足数据使用者应用需求的目的,就是高质量的;反之,如果不满足数据使用者应用需求的目的,就是低质量的。因此,数据质量取决于上下文和数据使用者的需求”。

国际标准化组织(ISO) 8000国际数据质量标准也提出了一些关于数据质量的标准。这一标准的建立是为了使复杂数据能够以与应用无关的形式进行交换。在标准的介绍中,ISO指出:“为了能够以及时和经济高效的方式创建、收集、储存、维护、转移、处理和呈现数据以支持业务流程,既需要了解决定其数据质量的特征,也需要具有能够对数据质量进行测量、管理和报告的能力。”

ISO 8000的目的是帮助组织定义什么是符合质量要求的数据,什么是不符合质量要求的数据,使它们能够使用标准去约束符合质量要求的数据,并检核它们是否已经收到了符合同一质量标准的数据。当遵循标准时,就可以通过计算机程序确认数据是否已经满足需求。

数据质量管理的内容

数据质量管理的内容包括很多,各个专业机构对它的定义也不一样。DAMA认为,数据质量管理的内容至少应该包括:一是定义什么是高质量的数据,且定义应该和业务目标紧密联系。二是定义数据质量策略,比如如何来评估和提高数据的质量。三是确定关键数据和业务规则,任何一个组织都会有大量的数据,数据质量的管理应该从对业务最关键的数据入手,并制定相应的业务规则。四是执行初始数据质量评估,在开展数据质量工作之前,应该做一次初始评估,以了解目前的状况。五是确定数据质量管理的内容,并按照优先级别来排序各项工作。这样可以在较短的时间内看到部分的效果。六是定义数据质量改进的目标。这些目标应该和业务一致,并需要能够量化。七是开发和部署数据质量的具体工作,数据质量的管理不只是一个项目,更是一个贯穿整个数据生命周期的过程,同时也需要和业务保持一致。

数据质量是数据治理的核心内容

数据治理包括许多方面的内容,比如数据战略、数据标准、数据架构、数据安全、数据建模、数据应用等。而数据质量管理是数据治理的核心内容。

同时,提高数据的质量也是数据治理的核心目标之一。因为数据治理当中的很多方面都与数据的质量问题息息相关。例如,数据战略的建立是为了提高数据的整体可用性,并实现和增大数据的价值。数据标准的建立是为了提高数据的交互和可操作性,这本身就是数据质量高低的衡量标准之一。数据建模也是为了保证数据的标准化和可用性,从而提高数据的质量。而数据的应用更有赖于高质量的数据。

有效的数据管理涉及一系列复杂的、相互关联的过程,它使组织能够利用它们的数据来实现其战略目标。数据管理能力包括为各类应用设计数据、安全存储、访问和共享数据、从数据中获得知识,以及满足业务需求的能力等。但实现数据价值的前提是,数据本身是可靠和可信的。换句话说,数据应是高质量的。因为高质量的数据可以提高数据的价值和被应用的可能,降低由于低质量数据而导致的相关风险和成本,提高组织效率和生产力,保护和提高组织的声誉。

与此相反,使用劣质的数据则会给组织带来各种风险和损失,比如损害组织的声誉,因不满足监管要求而导致的罚款、收入损失、客户流失和媒体曝光等。例如,如果“客户电话号码”字段的数据不完整,我们将无法通过电话联系这些客户,这将失去潜在的销售机会。所以需要建立一个流程来提高数据的完整性,直到比如至少有98%的客户有可用的电话号码为止。当然,高质量的数据本身并不是目的,它只是组织成功并为业务服务的一种手段。

评估数据质量的维度

数据质量的维度是数据的某个可测量的特性。术语“维度”可以类比于测量物理对象的维度,例如长度、宽度、高度等。数据质量维度提供了定义数据质量要求的一系列指数。我们可以通过这些维度来定义和评估数据的质量。

业界有很多专家对数据质量维度进行了深度研究。这里介绍三位最具影响力的人物,他们深入研究了如何拥有高质量数据,以及如何测量数据的质量。Strong-Wang框架(1996)侧重于数据使用者对数据的看法,它描述了数据质量的四个大类及15个指标,包括数据的内在质量、语境质量、表达质量和访问质量等。托马斯·瑞德曼(Thomas Redman)在《信息时代的数据质量》(Data Quality for the Information Age,1996年)中,制定了一套基于数据结构的数据质量维度,共有20多个维度。拉里·英格利什(Larry English)在《改善数据仓库和业务信息质量》(Improving Data Warehouse and Business Information Quality,1999年)中,提出了一套综合指标。他把数据质量分为两大类别:内在特征和实用特征。内在特征与数据使用无关,实用特征是动态的,与数据表示相关,其质量价值可随数据的使用而改变。

2013年,DAMA英国分会发布了一份白皮书,描述了数据质量的6个核心维度。这些维度是:完整性——存储数据量与潜在数据量的百分比;唯一性——在满足对象识别的基础上不应多次记录实体实例(事物);及时性——数据到达的时间点;有效性——数据符合其定义的语法、格式、类型、范围等;准确性——数据正确描述“真实世界”对象或事件的程度;一致性——比较事物多种表述与定义的差异。

DAMA英国分会的白皮书还描述了其他对质量有影响的特性,其中包括:可用性(Usability)——数据是否可理解、简单、相关、可访问、可维护且达到正确的精度水平;时间问题(Timing Issues)(除上述时效性外)——是否能对业务的变更请求作出及时的响应;灵活性(Flexibility)——数据是否具有可比性,是否与其他数据有很好的兼容性,是否具备可用的分组和分类,是否能被重用以及是否易于操作;置信度(Confidence)——数据治理、数据保护和数据安全等管控是否到位,数据的可信性如何,它是否是经验证的或是可验证的。价值(Value)——数据是否有良好的成本/收益案例,它是否得到了最佳应用,是否危及人们的安全、隐私或企业的法律责任,以及它是否支持或无助于建立企业形象、企业信息。

综上所述,虽然不存在唯一的、一致认可的数据质量维度标准,但它们均包含了一些常规的想法,即维度基本都包括了一些可以客观衡量(完整性、有效性、格式一致性),而且依赖于语境或主观解释(可用性、可靠性、声誉)的特征。无论使用什么名称,维度都涉及是否有足够的数据(完整性),数据是否正确(准确度、有效性),数据是否符合要求(一致性、连贯性、唯一性),数据是否为最新(及时性)以及数据的可访问性、可用性和安全性。

导致数据质量低下的原因分析

从数据的规划和产生到最后的归档或者消除,数据质量问题可能在数据生命周期的任何时间点出现。数据输入、数据处理、系统设计以及自动化流程中的手动干预等问题都有可能导致低质量的数据。

总体而言,导致数据质量低下的原因是多重的。其中包括:一是领导不重视、数字化的企业文化建立不到位。许多人认为大多数数据质量问题是由数据输入错误引起的。但实际上,业务和技术流程中的差距或执行不当所导致的数据质量问题远比输入带来的问题更多。许多数据质量问题是由于缺乏对高质量数据的组织承诺造成的,而缺乏组织承诺本身就是在治理和管理的形式上缺乏领导力。缺乏这种领导力和数字化企业文化是导致低质量数据最重要的原因。二是数据输入过程引起的问题。机采的数据往往问题较小,但也会有问题。比如设计不当的数据输入接口。如果该类接口没有编辑或控件来防止不正确的数据,则数据处理人可能会采取快捷方式处理数据,例如跳过非强制字段和不更新有默认值的字段等。而由人工手工输入的数据问题会更多,比如在疲劳、不尽责等情况下都有可能输入不正确的或者不完整的数据。三是数据处理功能引起的问题。数据处理的过程也会导致数据的质量问题。比如,过时的业务规则:随着时间的推移,业务规则会发生变化,如果没能对业务规则进行审查和更新,这些过时的业务规则就有可能带来数据错误。变更的数据结构:源系统可以在不通知下游消费者(包括人和系统)或没有足够时间让下游消费者响应变更的情况下变更结构,这可能导致无效的值或阻止数据传送和加载,或者导致无法立即检测到的更细微的改变。ETL(获取、变换、加载)的逻辑错误:ETL过程中,数据的映射、参数的选择、内容的缺损等都会导致数据的质量问题。四是系统设计引起的问题。数据输入的界面或者系统设计的缺陷会导致低质量的数据。比如缺乏数据验证,则可能会出现数据完整性和准确性的问题;处理数据的规则不准确,就有可能出现计算错误、数据被链接或分配到不匹配的字段、键或者关系等;在没有统一数据字典的情况下,多个系统可能采用不同的日期格式或时间,当不同源系统之间数据同步时,这反过来会导致数据不匹配和数据丢失;主数据和元数据管理不到位,缺乏数据标准和数据血缘关系,也会导致数据的混乱。五是解决问题而引起的问题。补丁是为了解决某些具体问题而产生的,如果没有足够的测试,就像未经测试的代码一样,这些补丁很有可能会引发新的问题,并产生更高的风险。六是相关技术还没有完全成熟。数据质量的高低也反应在数据是否能够被共享应用,以及非结构化数据是否被充分利用。鉴于各国对数据隐私的重视和保护,数据共享遇到了许多限制,以前相关技术并不能完全满足“数据可用不可见,用途可控可计量”的要求。这使得数据的共享一直是个技术难题。最近随着数据隐私计算的推出和应用,这方面应该有很大的提高。但非结构化数据的质量问题现在还没有一个比较好的解决方法。

如何提高数据的质量

笔者认为,数据质量的管理应遵循以下原则:一是重要性(Criticality),数据质量应关注对企业及客户最重要的数据。改进的优先顺序应基于数据的重要性以及低质量数据可能带来的风险水平来判定。二是生命周期管理(Lifecycle Management),数据质量管理应覆盖从创建或采购直至处置的整个数据全生命周期,包括其在系统内部和系统之间流转时的数据管理。换言之,数据链中的每个环节都应确保数据具有高质量的输出。三是预防(Prevention),数据质量管理的重点应放在预防数据错误和降低数据可用性等情形;不应放在简单地纠正记录上。四是根本原因补救(Root Cause Remediation),提高数据质量不仅是纠正错误,由于数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和相关系统进行改进,而不仅仅是从表象来理解和解决。五是制度和企业文化(Governance),数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持接受治理的数据环境。六是标准驱动(Standards—Driven),数据生命周期中的所有利益相关者都会有数据质量的要求,在可能的情况下,对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义。七是客观测量和透明度(Objective Measurement and Transparency),数据质量需要得到客观、一致的测量。测量和测量方法应该与利益相关者一同讨论与分享,因为他们是质量的裁决者。八是嵌入业务流程(Embedded in Business Processes),业务流程所有者对通过其流程生成的数据质量负责。他们必须在其流程中实施数据质量标准。九是系统执行(Systematically Enforced),系统所有者必须系统地执行数据质量要求。十是与服务级别相关(Connected to Service Levels),即数据质量报告和问题管理应纳入服务级别协议(SLA)。

高质量的数据是数字经济的必然要求

数据是数字经济的基础。没有高质量的数据不但无法为数字经济提供服务,反而还会带来各种风险和损失。高质量的数据是数据经济的必然要求。按照美国智库Experian在2019年做的一份调研,美国企业中平均有29%的数据有这样或那样的质量问题,而且问题数据的数量高居不下,严重影响了企业的数字化进程。

数字经济的发展需要高质量的数据作为支撑。第一,高质量的数据对数字经济现有业务的量化支持。这当中包括提高生产率、降低成本、规避可能的各种风险、提升组织的声誉等。第二,高质量的数据对数字经济创新业务的量化支持。这当中包括引进新的业务流程、新的产品和服务,甚至于新的商业模型。

不过,没有一个组织拥有完美的业务流程、技术流程或数据管理实践,因此所有组织都会遇到与数据质量相关的问题。但相比那些不开展数据质量管理的组织,实施正式数据质量管理的组织碰到的问题会更少。真正的数据质量管理类似于其他产品的持续质量管理。它包括在整个生命周期制定标准,在数据创建、转换和存储过程中完善质量,以及根据一定的标准来管理数据。同时数据质量还取决于所有与数据交互的人,而不仅仅是数据管理专业人员。与数据治理和整体数据管理一样,数据质量管理不是一个一次性项目,而是一个有规划的持续性的工作。它包括项目的维护工作,以及对沟通和培训的承诺。最重要的是,数据质量改进计划的长期成功取决于一个组织文化的改变及质量观念的建立。

结语

数据质量是数据治理的核心内容,提高数据质量也是数据治理的核心目标。数据作为生产要素是数字经济的基础,高质量的数据是数据价值的保障。对数据质量的管理是数据全生命周期的管理,需要一把手的参与和承诺,并有相应的数字化企业文化的建立和一系列工具及制度的保障。

 

本文刊发于《清华金融评论》(点击订阅)2021年5月刊,2021年5月5日出刊,编辑:秦婷