《国外数据质量管理研究综述.docx》由会员分享,可在线阅读,更多相关《国外数据质量管理研究综述.docx(9页珍藏版)》请在第一文库网上搜索。
1、国外数据质量管理研究综述(2008-10-16 10:39:55)1引言数据(data)是为反映客观世界而记录下来的可以鉴别的数字或符号。如数字、文字、图形、图像、声音等。随着信息技术应用的不断普及,信息系统中数据质量问题受到越来越多的关注,特别是统计、管理和计算机等领域。数据质量问题的研究,在统计领域始于I960年代末期,管理领域始于1980年代初,计算机领域始于1990年代初。本文对国外近十年管理领域的数据质量研究进行总结和评述,并提出进一步的研究方向。文章结构的第二部分是数据质量定义和质量维度,第三部分是数据产品制造过程,第四部分是数据质量的测量和评估,第五部分是数据质量管理体系,第六是
2、结束语。2数据质量的定义和维度从20世纪50年代开始,人们从不同的角度定义质量2,基本上可以分为五种:基于消费者的,基于制造的,基于产品的,基于价值的,先验的。比较流行的定义有:质量是一组固有特性满足要求的程度;质量是使用的适合性7质量意谓对要求的符合性。在许多文献中,数据质量DQ(data quality)与信息质量IQ( informationquality)两个术语通用,定义多种多样。文献7将数据质量定义为“使用的适合性”,此定义的基础是当时全面质量管理中广泛接受的质量概念,因此关于数据质量的这个定义也被广泛接受。文献8将数据质量定义为“一个信息系统表达的数据视图与客观世界同一数据的距离
3、”。有些文献将DQ直接定义为一组属性(特征),如正确性、适时性、完全性、一致性和相关性等。采用文献7的定义,数据质量判断依赖于使用数据的个体,不同环境下不同人员的“使用的适合性”不同,数据质量是相对的,不能独立于使用数据的消费者来评价数据质量。因此,识别数据质量维度成为有价值的研究工作。数据质量维度是一组表达数据质量构成或者数据质量单一方面的数据质量属性。文献7采取二阶段调查方法识别出4类共15个数据质量维度。固有质量包括:正确性(没有错误),客观性,可信性,声誉。可访问性质量包括:可访问性,访问安全。语境质量包括:相关性,增值性,及时性,全面性,数据量。表达质量包括:可解释性,易理解性,简明
4、性,一致性。文献10识别出6个Web数据数据特征共32个子特征。功能性特征包括:适宜性,正确性,互用性,灵活性,安全,可追溯性。可靠性特征包括:成熟度,可恢复性,可用性,可降解性,容错。效率特征包括:时间行为,资源行为。合用性特征包括:可理解性,可学习性,可操作性,乐趣,清晰性,帮助性,直率性,习俗化,用户友好。维护特征包括:可分析性,可改变性,稳定性,可测试性,可管理性,可复用性。可移植性特征包括:适应性,一致性,可替代性,可安装性文献11提出6个Web数据质量标准,包括:权威,正确性,客观性,流通,定位,导向。文献12在文献7的基础上,采用调查方法得到Web数据质量维度。固有质量指正确性和
5、内容错误,包括:准确性,可用性,相关超级链接。语境质量指提供作者信息。表达质量包括:组织,视觉效果,版面特点,一致性,活泼有吸引力,内容混乱。可访问性质量指提供导航工具。文献13以符号学为基础,建立4个符号学层次共11个质量维度。句法层次的维度是良好定义或者正规的句法。语义层次的维度包括:易理解,明确,有意味,恰当。语用层次的维度包括:适时,简明,易于访问,声誉好。社会层次的维度包括:获知,明白差异。每个维度都有具体的改进策略。文献14给出3类共22个评估标准。主观类包括:可信性,简明表达,可解释性,相关性,声誉,可理解性,增值。客观类包括:完全性,客户支持,文档,客观性,价格,可靠性,安全,
6、适时性,可验证性。过程类包括:精确性,数据量,可用性,表达一致性,等待时间,响应时间。对每个标准有特定的评估方法。文献15识别出5类28个数据质量维度。人类工程学质量类维度包括:易于导航,舒适性,可学习性,视觉信号,音频信号。可访问性质量类维度包括:技术访问,系统可用性,技术安全,数据可访问性,数据共享,数据可转换性。处理质量类维度包括:可控性,容错,适应性,系统反馈,效率,响应。语境质量类维度包括:增值,相关性,适时性,完全性,适当的数据。表达质量类维度包括:可解释性,一致性,简明性,结构,可读性,对照。文献16给出6个Web数据检索的质量度量,包括:流通,可用性,信噪比,权威,流行,内聚性
7、。文献17给出2种4类共16个Web数据质量维度,包括:理解,正确,清晰,适用,简明,一致,恰当,流通,方便,适时,可追溯,交互,可访问,安全,可维护,快捷。文献18对包括上述9个数据质量维度方案在内的12个方案进行了分析和评述,12个方案中有3个是引用另外两个的成果。文献19对包括文献18的12个方案在内的13个方案进行分析和评述。美国国家统计科学研究所(NISS)关于数据质量的研究表明加:(1)数据是产品。(2)作为产品,数据有质量,这个质量来自产生数据的过程。(3)数据质量原则上可以测量和改进。(4)数据质量的重要性正在增加,但不平衡。(5)在大学里,实质上不存在数据质量作为一个重要研究
8、领域的认识。(6)数据质量与环境有关。(7)数据质量是多维度的。(8)数据质量是多尺度的。(9)人的因素是核心。从上述数据质量维度方案可以看出,现有方案较多地涉及Web数据质量。尽管有些维度的重要性得到广泛认同,由于数据质量依赖使用数据的个体,无论是研究人员还是数据质量的从业人员都未对数据质量维度集形成共识。同一词汇在不同的维度方案中的语义不完全相同,这点在文献18和19对维度频次的统计差异可以看出。由于管理学强调环境和个体差异,作者认为没有必要(似乎也不可能)建立一套广泛接受的完整的数据质量维度。因此,在特定的背景中识别数据质量维度是有价值的。识别出来的数据质量维度得到认同的程度,依赖于识别
9、的方法和过程。3数据产品制造过程文献21和22利用信息系统环境和制造环境的相似性,建立起数据产品与物质产品的联系。原始数据对应原材料,数据加工对应材料加工,数据产品对应物质产品。这样,全面质量管理(TQM)的原则、方法、指南和技术就可以用于数据质量管理。在数据产品制造环境中有四种角色:数据提供者,数据生产者,数据消费者,数据管理者。过程是一组将输入转化为输出的相互关联或相互作用的活动。过程方法和过程的系统方法是质量管理的基本原则。确定数据质量相关的过程是质量管理的重要任务之一。由于数据是由信息系统加工的,计算机科学技术领域现有的信息系统建模方法可以用于数据质量相关过程的识别,如数据流图(DFD
10、)、实体-关系(E-R)图和面向对象模型等。但是这些方法缺乏系统地描述数据制造过程的能力,同时缺乏用来清楚地表达制造细节的构件。因此,人们试图设计更加适合数据质量测量和改进的数据制造系统建模方法。文献23给出的数据制造系统模型,通过建立表达数据单元和系统构件关联关系的数据制造系统分析矩阵,系统地追踪数据产品相关属性,这些属性的测量值可以用以数据制造系统的改进。文献24给出一种称为 IP-MAP (information product map)的数据制造系统建模方法。IP7IAP包括8种组装块:源(原始输入数据)块,消费者(输出)块,数据质量块,加工块,数据存储块,决策块,业务边界块,信息系统
11、边界块。采用自顶向下的设计方法得到的讦-MAP可以使数据管理者看见数据产品制造中的最重要环节,识别影响数据质量的关键环节,确认数据制造系统的瓶颈。IP-MAP不仅能帮助识别过程拥有者,还能帮助实现质量的源头控制,在数据制造过程的不同阶段用适当的质量维度进行产品质量测量。计算机科学技术领域的信息系统建模方法,主要目的是系统分析。文献23和24的模型主要针对投入运行后信息系统中数据质量管理问题。事实上,数据质量不仅依赖信息系统的运行维护,还依赖信息系统的分析、设计和实现。因此,开发适用于信息系统从分析设计到运行维护全过程的、适合数据质量管理的信息系统模型,不仅可以从整体上考虑信息系统开发的数据质量
12、和运行的数据质量,还可以降低解决系统开发和运行过程中数据质量问题的总体成本。4数据质量的测量和评估4.1数据质量要求数据质量要求是为使用户获得特定质量数据而需要附加在数据上或者在数据文档中列明的指标如,它是检验质量的标准。文献25在几个基本概念的基础上,系统地论述了建立数据质量要求的方法和步骤。数据质量参数(简称质量参数)是用户评价数据质量定性的或者主观的维度。如来源可信、适时等。数据质量指标(简称质量指标)是提供数据客观信息的数据维度。如来源、创建时间、收集方式等。建立数据质量要求的过程如图1所示,共四个步骤:第一步,建立应用视图。输入是应用需求,输出是应用视图。第二步,确定质量参数。输入是
13、应用视图、应用质量要求和侯选质量属性,输出是参数视图(附加在应用视图上的质量参数)。第三步,确定质量指标。输入是参数视图,输出是质量视图(包含质量指标的应用视图)。第四步,质量视图集成和应用视图求精。输入是质量视图,输出是集成的质量计划。集成的质量计划I图1数据质量建模过程4.2数据质量测量和评估文献26和27的数据质量评估方法称为AIMQ,它由三个部分组成。一是2X2的PSP/IQ模型(见表1)。行决定于将数据看成产品还是服务,列决定于评估是依据正规的质量规范还是消费者期望,这样将文献7的15个质量维度中除增值性以外的维度,加上易操作性维度分成四类。二是1QA工具,是一套测量数据质量的调查问
14、卷。三是质量差距分析技术。规格符合性满足或者超过消费者期望产品质量完好的信息(没有错误,简明性,全面性,一致性)有用的信息(数据量,可解释性,易理解性,相关性,客观性)服务质量可靠的信息(及时性,安全性)可用的信息(可信性,可访问性,易操作,声誉)表1 PSA/IQ模型文献28提出一种在组织内部测量数据质量的方法。首先建立数据质量标准列表,标准分为直接评估标准和间接评估标准直接评估标准的评估采用传统的软件测量方法,即问卷调查方式。而间接评估标准的分数由直接评估标准计算得到。文献29采用面向评估的方法对Web数据质量标准进行分类。根据影响数据质量的用户、数据源和查询过程这三个主要因素,对应地将文
15、献14中的22个质量维度分为主观标准、客观标准和过程标准。每个维度都有相应的评估方法。文献30给出三种数据质量客观评价的算法(简单比率,最大-最小运算,加权平均),并描述了将客观评价和主观评价结合,在实际应用中改进数据质量的步骤。文献31给出一个完整的数据质量评估体系。评估过程按照由选择模块、质量评估模块和简表(profile)模块构成的数据质量评估架构进行,将评估过程得到的数据质量值和用户类要求进行比较来判断质量是否符合要求。文献17给出由4个步骤12个方面组成的web数据质量测量方法,16个质量维度都有各自的web指标和测量工具。由于数据质量与背景和用户密切相关,现有的数据质量测量和评估都采取主观和客观相结合的方法。5数据质量管理体系当利用信息系统环境和制造环境的相似性,建立起数据产品与物质产品的联系后,全面质量管