数据质量评估和提高的方法研究外文翻译资料

 2022-09-29 10:09

英语原文共 52 页,剩余内容已隐藏,支付完成后下载完整资料


数据质量评估和提高的方法研究

本文提供了广泛的技术方法来对数据质量进行评估和提高。由于这些技术方法的多样性和复杂性,所以最近的研究已经重点集中在定义方法上,这正有助于我们实现数据质量评估和提高方法的选择、个性化以及实际应用。这篇文章的目的在于提供一种系统化的并且可比较的方法来描述这些技术。在进行各种方法的比较时,主要从以下几个方面展开:方法论的阶段和步骤、策略和技术、数据质量维度、数据类型以及每个方法相应处理的信息系统类型。本文最后还对各种方法进行了总结描述。

1数据质量的简介

随着电子数据的普遍,数据质量在商业和政务的应用上也发挥着及其重要的作用。数据质量被认为是相关操作流程、决策活动以及组织间合作要求的性能问题。现在几个相应举措已经在公共和私营部门得到了采取,并且数据质量起了主导的作用,比如美国政府在2002年所颁布的《数据质量法》和威尔士政府在2004年所颁布的《数据质量倡议框架》都是提高信息质量水平的方法。

同时信息系统已经从层次结构或者整体结构迁移到基于网络的结构,在该结构中组织可以使用的潜在数据源在规模和范围上有着显著的扩大。正是由于这样的演变,数据质量问题也变得更加的复杂和有争议。在网络化的信息系统中,过程涉及了复杂的信息交流并且操作中的输入经常需要通过从外部来源获取,而外部来源却常常具有事先未知性。因此,如果不控制好其过程及信息的输入的质量,那么随着时间的推移,流经信息系统的整体数据质量会迅速降低。另一方面,网络环境下的信息系统给数据质量管理提供了新的机遇,包括更加广泛的数据来源所提高的数据可用性以及通过选择和比较来自不同来源的数据来检测并纠正错误的能力,从而做到提高数据整体的质量。

本文提供了各种各样的方法来评估和改善数据的质量,比如有记录链接、业务规则等相似的措施。随着时间的推移,这些方法以及演化成可以应对在网络信息系统中变得日益复杂的数据质量问题。由于这些方法的复杂性与多样性,最近的研究已经重点集中在定义方法上,这正有助于我们实现数据质量评估和提高方法的选择、个性化以及实际应用。本文定义了一种可以作为参考和技术的数据质量方法,它是从信息的输入开始并意味着有一个给定的应用环境。本文的目的在于提供一个针对于现有数据质量方法的系统化且可比较的说明。

本文的组织如下:第二节主要介绍了在所有技术中常见的基本数据质量问题,这些技术也代表了本文在比较分析中使用的角度,比如有方法的阶段和步骤、策略和技术、数据质量的维度、数据类型以及信息系统的种类。第三节是本文的核心,比较了在第二节中介绍的现有方法。比较方法主要通过一览表进行,各种不同的方法通过其相似方式、深入的讨论以及定性的评估可以使读者一目了然。第四节描述了在数据质量方法领域上正在进行中及未来的研究方向。最后,本文在附录A中对各个方法给出了总结说明,主要包括有各个方法的阶段和它们之间的相互依赖关系与关键决策、一个大体的突出各个方法的重点以及数据质量评估和提高过程的原创性贡献的描述说明、详细地讨论了各个方法的适用性。

2比较视角的分析

现在有几种分析和比较数据质量方法的角度:

(1)构成方法的阶段和步骤;

(2)采用策略和技术来评估和提高数据质量的水平;

(3)选择方法论中相应的维度和度量来评估数据质量水平;

(4)与数据质量问题相关的成本类型包括有:

1)与数据质量低劣相关的成本,这主要包括错误的数据导致的处理成本以及失去和错过的收入导致的机会成本。它们也称为间接成本;

2)数据质量评估和改进的相关活动产生的成本,称为直接成本;

(5)各种方法中考虑到的数据类型;

(6)使用、修改和管理与方法相关数据的信息系统类型;

(7)在一定的结构和规范下,参与到各种方法中考虑到的数据的创建和更新过程的组织。

(8)在满足相关用户的生产服务要求的目标下,创建或更新数据的流程;

(9)与各种方法相关过程所产生的相应服务。

各种方法的不同点在于它们在考虑以上这些问题的角度。由于上述最后三个角度即组织、流程以及服务在各种方法中较少提及,所以在本文的其他部分将不会进行深入的讨论。

2.1常见的阶段和步骤

在最一般的情况下,数据质量方法的活动顺序由三个阶段组成:

(1)状态重构。这个阶段旨在组织化进程和服务的上下文相关信息的收集、数据和相关管理方法的收集以及数据质量问题和其相关的成本的采集。如果从先前分析得到的相关情境信息是可用的,那么此阶段是可以跳过的;

(2)评估或测量。本阶段是基于相关质量维度来衡量所收集到的数据质量情况的。测量这一术语是用于解决一组数据质量指标的价值问题上的,而评估这一术语则用在这些测量值与参考值进行对比的时候,可见评估是为了实现质量的诊断。本文采用评估这个术语,因为它符合大多数强调了重视导致数据质量差的原因的方法;

(3)改进和提高。改善方法就是为了达到新的数据质量目标,对相应的步骤、策略及技术进行改进。

如果评估阶段是基于现有的文件,那么状态评估阶段是可以不进行的。由于各种方法通常都会做这样的假设,因此我们将不会再进一步讨论状态构建的阶段。虽然各个方法采用不同的名字,但是它们在评估及改善的阶段中都是有一套共同的基本步骤的。评估阶段的步骤如下:

(1)数据的分析。数据分析就是通过检查数据模式和执行访问以达到对数据、相关架构以及管理规则的完整理解;

(2)数据质量需求分析。数据质量需求分析就是根据调查到的数据用户和管理员的意见,查明数据质量问题并制定新的数据质量目标;

(3)关键区域的识别。识别出关键区域就是选择出最相关的数据库和数据流来进行定量的评估;

(4)流程建模。流程建模就是对产生和更新数据的流程建立相应的数学模型;

(5)数据质量的测量。该测量过程会选择出评价数据质量的指标,而它们是受数据质量需求分析步骤中确定的质量问题所影响的。同时测量过程中还会定义出各数据质量维度相应的度量标准。当测量是基于定量化的度量标准,那么它是客观的。如果测量是基于数据管理员和用户的定性评估,那么它将会是主观的。

值得注意的是,在评估阶段的所以步骤中,元数据也发挥了相关的作用。因为元数据在数据中存储了互补的信息用于各种目的,其中就包括有数据质量。元数据通常还提供必要的信息来理解或评估数据。

改进阶段主要的步骤如下:

(1)成本的评估。对数据质量的直接和间接成本进行估计;

(2)流程职责的分配。确定流程管理者以及他们在数据产生和管理工作中的职责;

(3)数据职责的分配。确定数据所有者以及他们在数据管理工作中的职责;

(4)识别产生错误原因。确定数据质量问题;

(5)策略和技术的选择。确定所有数据改进策略和相应的技术,并且是符合情境知识、质量目标和预算约束的;

(6)数据改进解决方案的设计。选择出最有效且最高效率的策略以及相关的技术和工具来提高数据质量;

(7)过程控制。定义了在数据产生过程中的检查点,以在流程执行时监测数据的质量;

(8)流程再设计。定义了流程改进的操作,从而对数据质量的有了相应的改进;

(9)改进管理方法。定义了数据质量新的组织规则;

(10)改进监测方法。建立定时的监测活动以提供改进过程结果的及时反馈并保证其动态的调整。

在3.1节中,将会对各种方法的评估和改进能力进行比较,也即通过本章节所介绍的阶段和步骤的完整性来进行对比。需要提出的是,通常情况下,每种方法是通过使用不同术语来指定一个具体的评估或者改进功能的。在附录中,虽然我们是采用原始的术语描述各种方法的,但是我们提供了这些术语和这里给出的分类的对应关系。

2.2策略和技术

在改进的步骤中,各种方法采用了两种常规类型的策略,即数据驱动和流程驱动。数据驱动策略是直接通过修改数据值来提高数据质量的。例如,过时的数据是通过刷新基于当前数据库来更新的。流程驱动策略是通过重新设计创建或修改数据的流程来提高数据的质量。打个比方,重设流程包括了在存储前控制数据格式的活动。数据驱动和流程驱动两种策略都应用了多种技术,如算法、启发法和其他知识型活动,它们都是以提高数据质量为目标的。

数据驱动策略相关改进技术的开放式一览表如下:

(1)获得新数据,即通过得到更高质量的数据来替换产生质量问题的数据值从而改善数据;

(2)标准化,即利用相应符合标准的数据值来替换或者补充非标准的数据值,例如别称可以由相应的名称所代替,像鲍勃和罗伯特。还有缩写也可以和相应的全称替换,如在国外街道常缩写为Str,当时其全称则是Street;

(3)记录链接,即数据在两个或多个表格中的表示可以指代同一个真实世界的对象;

(4)数据和模式集成,定义了一个统一的由异构数据源提供的数据视图。集成的主要目的是使用户可以通过统一的数据视图来访问异构数据源存储的数据。在分布式、协作式以及对等式信息系统中,数据源表征为不同的类型异构问题,具体分为技术异构、模式异构以及实例异构。技术的异构性是由于不同的供应商在信息和通信基础设施的不同层次上来使用相应的产品。模式的异构性产生主要有两方面的原因。一方面是因为不同数据模型的使用,比如像有的数据源是采用的是关系数据模型,另一个不同数据源则采用XML数据模型的情况。另一方面是由于对同一对象的不同表现形式造成的,例如两个关系数据源是代表同一对象的,但是它们一个是用作表格的形式,另一个则只是属性的形式。实例的异构性是由于同一对象的不同数据源产生了不同的并且相互矛盾的数据值所造成的,例如这种异构性可能是因为相互独立并且欠协调的流程供给到了不同的数据源中。数据的集成必须面对上述所说的异构性问题的种类;

(5)数据源的可信度,这是基于数据的质量进行数据源的选择;

(6)误差定位和校正,这是通过检测不满足给的数据质量规则集的记录来识别和评估数据质量误差的。这些技术主要是在统计领域中研究的。和基础数据对比,统计数据如平均值、求和值、最大值等等对数值定位和校正的犯错概率不敏感。现在相关误差定位和校正技术已经开始用在具有不一致性或不完整性的数据以及异常值中;

(7)成本优化,定义了一系列基于最小成本维度的提高数据质量操作。

两种表征流程驱动策略的主要技术如下:

(1)过程控制技术会在数据生成过程中插入检查和控制程序,其中包括新数据产生的时候,数据集更新的时候或者新数据集被进程访问的时候。通过这种方式,反应策略可以应用到数据修改事件中,以避免数据退化和误差传播。

(2)流程再设计技术将重新设计流程,从而消除数据质量差的原因,并且引入产生高质量数据的新活动。如果流程再设计是彻底的,那么这种技术就被称为业务流程再造。

在数据驱动和流程驱动策略中,根据各数据质量改进情况即所实现的不同质量维度以及各种技术的实施成本的讨论,对几种典型的技术进行了比较。这样的比较兼顾了短期和长远的角度的。各种技术间的比较主要看重新数据的获得性、记录链接、误差定位和校正、过程控制以及流程再设计技术。一般而言,从长远来看,流程驱动技术是比数据驱动技术更胜一筹的,因为其消除了数据质量问题的根本原因。然而,站在短期的角度来看,流程再设计成本极高。相反而言,数据驱动策略在短期是经济有效的,但是长期看来却耗费过大。数据驱动策略是适合于一次性应用的,因此建议将它使用在静态数据中。

2.3数据质量维度

在所有方法中,对数据质量、维度以及度量标准进行定义是评估数据质量的关键活动。通常情况下,每个数据质量维度可以有多种度量标准。但在某些情况下,度量标准是唯一的,并且一个数据质量维度的理论定义与相应度量标准的可操作性定义是相吻合的。出于这个原因,接下来我们只在有多个度量标准的情况下才区分数据质量维度的理论和可操作性定义。

数据质量维度要么指的是数据的扩展即从数据值的角度,要么指的是维度的内涵即从其模式的角度。虽然概念数据模式和逻辑数据模式的质量被认为是相关的研究领域,但是绝大多数数据质量维度和度量标准的定义都指向数据值而不是数据模式。本文主要关注的是数据值层面的数据质量维度和度量标准。

数据质量的相关文献对数据质量维度提出了全面的分类,然而由于在具体使用环境中数据质量有不同要求,因此对于大多数数据质量维度的定义之间还存在各种各样的差异。有的学者提出了最重要的六种数据质量维度分类。通过分析这些分类,我们可以定义出一组基本的数据质量维度,包括有准确性、完整性、一致性以及及时性,这也是大多数学者关注的焦点。

不过,目前无论是数据质量的维度定义还是各个维度的确切含义都没有普遍一致的意见。因此,在接下来的讨论中,本文会提供相关各个维度的不同定义。

准确性。准确性这个术语有几种这样的定义。Wang和Strong把准确度定义为数据准确、可靠以及认证的程度。Ballou和Paze指出当数据库中的数据值对应于真实世界的数据值时,认为数据是准确的。Redman认为准确性可以被定义为测量到真实数据值的近似范围内,比如v和另一个被认为是正确的值vrsquo;。一般来说,两种类型的准确性可以区分为语法和语义。数据质量方法只考虑准确性的语法,并且定义它的近似值为v,相应元素的定义域为D。在语法上的准确性,我们对v和它的真实值vrsquo;的比较不感兴趣,但是我们关注的是v是不是定义域D中的值或者它有多接近定义域D中的值。比如说即使vrsquo;=lsquo;Johnrsquo;,但是v = lsquo;Jeanrsquo;也被认为在语法层面上是准确的。

完整性。完整性就是指给定的数据集包含描述相应真实对象数据的满足程度。表2.1陈述了关于完整性定义的研究贡献。通过比较这些定义,可以看出完整性的抽象定义大体

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[150334],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。