数据库中的知识发现和数据挖掘外文翻译资料

 2022-07-30 02:07

英语原文共 24 页,剩余内容已隐藏,支付完成后下载完整资料


数据库中的知识发现和数据挖掘

Vladan Devedzic

数据库中的知识发现(KDD)是自动发现以前未知的模式,规则和隐含存在于大量数据中的其他常规内容的过程。 数据挖掘(DM)表示以特定方式准备的数据集中的模式的发现。 DM经常用作KDD的同义词。 然而,严格来说,DM只是KDD整个过程的核心阶段。

本章的目的是逐步介绍KDD的过程和典型的DM任务。首先通过描述现代数据库系统用户的一些实际需求,非正式地提出了大型数据库中自动知识发现的思想。然后正式定义了几个重要概念,并讨论了KDD的典型上下文和资源。然后,KDD和DM的范围简要介绍了KDD / DM问题的分类和KDD与其他科学技术学科之间的共同点,KDD和DM在KDD领域使用了很好的方法和技术。之后,本章将介绍典型的KDD过程,DM任务和一些最常用于执行此类任务的算法。覆盖了KDD的其他一些重要方面,例如在KDD过程中使用领域知识并评估发现的模式。最后,本章简要介绍了一些重要的KDD应用领域和实用的KDD / DM系统,并讨论了软件行业感兴趣的领域中的几个热门话题和研究问题。

介绍

由于业务需求不断增加,当前数据库系统中的数据量增长非常快。 由于数据存储的成本不断下降,用户将所有需要的信息存储在数据库中。 此外,人们认为,通过将数据存储在数据库中,它们可能会保存一些可能会在未来潜在有用的信息,尽管它不是目前的直接价值。

KDD和DM的关键思想

存储在数据库中的原始数据很少直接使用。 在实际应用中,数据通常以修改形式呈现给用户,以满足特定的业务需求。 即使这样,人们也必须手动分析数据,作为复杂的“查询处理器”,如果被分析的数据总量相对较小,但对于大量的数据是不可接受的,这可能是令人满意的。 这种情况是数据分析任务的自动化,这正是KDD和DM提供的,它们可以帮助人们提高他们所执行的数据分析的效率,同时也使人们意识到一些有用的事实和关系, 他们分析的数据,不能以其他方式知道,仅仅是因为数据堆叠造成的超载,一旦知道这些事实和关系,人们可以在节约,效率,质量和简单性方面大大改善业务。

通常,KDD / DM系统不是通用软件系统。 它们是针对特定用户开发的,以帮助他们在精确定义的特定应用程序域中自动进行数据分析。

定义

知识发现是从数据中显着提取信息的过程,该数据中隐含的信息,以前未知且对用户可能有用[13]。 信息必须以用户可理解的模式的形式(例如,If-Then规则)。

对于以语言L表示的数据集F,如果FS是F的子集,并且c表示确定性度量,则模式是语言L中的表达式S,其中确定性c关于数据中的某些关系FS。 为了使表达式S真正成为一种模式,它必须比只计算F中的所有数据更简单。

知识是对用户非常有趣的一种模式,并且足够确定。 用户指定感兴趣的度量(见下文)和确定性标准。 发现的知识是分析数据集并生成模式的程序的输出。 模式的确定性是衡量由模式所代表的发现知识的信心。 发现的知识对于所考虑的数据集中的所有数据很少有效。 如果考虑的数据集中的数据是数据库中数据的良好代表,如果它们包含很少或没有噪声,如果它们是有效的,可靠的,完整的,准确的并且不包含任何矛盾,则模式的确定性更高。

模式的兴趣度量是模式评估中使用的一种量化指标。 只有有趣的模式才是知识。 如果它是新的,非平凡的,有用的,那么模式是有趣的。

数据挖掘是一种数据集中的模式发现过程,从此数据集中已经消除了噪声,并且已将数据集已经被转换为使得能够进行模式发现过程。 数据挖掘总是基于数据挖掘算法。

KDD的背景和资源

图1说明了执行KDD所需的上下文和计算资源[20]。必要的假设是存在具有其数据字典的数据库,并且用户想要发现其中的一些模式。还必须有一个应用程序,用户可以通过该应用程序从数据库中选择并准备KDD的数据集,调整DM参数,启动和运行KDD进程,以及访问和操作发现的模式。 KDD / DM系统通常让用户选择多种KDD方法。每种方法都可以准备一个数据集,用于自动分析,搜索该集合以发现/生成模式(即,在该集合上应用某种类型的DM),以及在确定性和趣味性方面进行模式评估。 KDD方法通常可以使用领域知识来指导和控制过程并帮助评估模式。在这种情况下,域知识必须使用适当的知识表示技术(如规则,框架,决策树等)来表示。发现的知识可以直接用于来自应用的数据库查询,或者可以被包括在另一个基于知识的程序(例如,该领域中的专家系统)中,或者用户可以将其保存为期望的形式。发现的模式主要代表一些以前从领域知识中未知的事实。因此,它们可以与先前存在和表示的领域知识相结合,以便更好地支持KDD过程的后续运行。

图1 KDD的背景和资源

案例

一些航空公司使用他们的乘客数据库,以他们飞行的方式(登乘和目的地港口,返程航班,路线,飞往特定目的地的频率等)发现模式。 卓越的乘客获得促销奖品,吸引更多客户到公司的常旅客计划。

另一个例子是许多银行使用KDD / DM系统来探索他们的贷款和贷款数据库。 根据他们从这些数据库中发现的模式,模式的确定性和所发现的模式的兴趣的措施,银行可以更成功地预测向某些客户批准贷款的结果和可能的后果,从而提高他们的质量 业务决策。

营销机构使用KDD / DM系统来发现客户购买零售产品的方式。 一旦他们发现许多人与产品B同时购买产品A,他们可以轻松创建适当且潜在的商业或营销宣传。

KDD / DM的范围和典型问题

KDD和DM的领域逐渐发展,过去使用了不同的名称(如数据考古学,知识提取,信息发现,信息收集和模式处理)。 在数据库专业人员开始开发和使用KDD之前,DM的概念在统计领域中已经是众所周知的。 只有在20世纪80年代末和90年代初,数据库社区已经表现出对KDD和DM的兴趣。 但是,由于软件行业的特别支持和关注,自20世纪90年代中期以来,两个领域都在迅速扩张。

KDD / DM问题分类

作为KDD的中心活动,DM肯定是KDD最具挑战性的问题。 然而,KDD不仅涵盖DM,还涵盖了许多其他问题和相关概念,主题,活动和过程]。 它们包括(但不限于)以下内容。

整合机器学习和知识发现的不同方法。 机器学习提供了许多用于从具体示例学习一般概念的算法,通过类比学习,学习分类规则等,这些都在KDD过程中用于模式发现。

整合基于知识的系统和统计数据。 基于知识的系统提供丰富的知识表示技术,其中一些用于表示通过应用KDD过程发现的模式。 例如,发现的模式通常以规则或决策树的形式表示。 此外,现在许多KDD / DM系统是基于神经网络的,因为神经网络也可以用于识别模式并消除数据中的噪声。 由于KDD帮助选择和准备KDD的数据,并且量化了发现模式的重要性,确定性,相互依赖性和其他特征,因此KDD中总是需要统计学措施。

发现数据之间的依赖关系。 大型数据库中的数据项的更改有时也会导致其他数据更改,并且能够预测它们通常是有用的。

在KDD过程中使用领域知识。 领域知识可以显着提高KDD过程的效率(参见下面的专用部分)。

解读和评估发现的知识。 一旦使用适当的DM算法发现某些模式,重要的是确定它们对用户是否具有重要意义,或仅仅表示数据之间无用的关系。

将发现的知识纳入以前所代表的领域知识。 这里的想法是使用KDD过程中发现的知识以及来自域的其他事实和规则来帮助指导过程,从而进一步提高过程的效率。

查询转换和优化。 发现数据中的有用模式可以帮助相应地修改数据库查询,从而提高数据访问效率。

发现数据进化。 数据分析师往往会受益于了解过去某些数据变化的可能模式。

发现结构化数据中的不精确概念。高度结构化的数据(例如关系数据库中的数据记录)有时会隐藏一些以前未知的概念,这对于域专家来说是有意义的,尽管它们通常无法准确定义这些概念的含义;可以通过数据记录中的字段的适当组合,较大数据集中的数据子集的分组等来发现这些概念。

过程,数据和知识可视化。在一些应用中,KDD过程中的模式和活动最好通过各种图形,阴影,数据和动画集来描述。选择最合适的可视化技术是KDD中的一个重要问题。

数据库中的错误处理不幸的是,真实世界的数据库充满了不一致,数据错误,不精确和其他种类的噪音。正确处理这些数据可能是整个KDD流程成功的关键。

代表和处理不确定性。发现的模式从来不是绝对确定的,有各种方式来表达自己的确定性;

集成面向对象和多媒体技术。目前,大多数KDD系统都使用关系数据库。从最近才开始,KDD和DM扩展到面向对象和多媒体数据库。

各种伦理,社会,心理和法律方面。虽然KDD应用程序是有用的,但并不是所有这些都是100%的道德标准。例如,挖掘各种种族依赖数据,一些医疗记录以及一些纳税数据库,有时可能会引起不必要的解释,例如隐私隐私。还有一些例子,由于可能的法律后果而放弃KDD项目。

还有另外一种分类,常用于描述KDD / DM系统。它基于DM过程挖掘的典型种类的知识,以及相应类型的DM活动(如集群标识,挖掘关联规则或偏差检测 - 参见DM任务专用部分)。

KDD / DM和其他科学和技术学科

从KDD / DM问题的上述分类可以看出,许多其他科学技术学科与KDD和DM有一些共同点。 KDD / DM专家应用(可能有一些适应)许多有用的算法,技术和方法最初在其他领域开发和使用。总结上述列表和关于其他领域对KDD / DM [11],[14],[21]的影响的一些讨论,可以注意到与KDD和DM有很多关系的其他领域是数据库技术本身,统计,模式识别,知识获取和表征,智能推理,专家系统和机器学习。除数据库技术和统计数据之外,所有这些领域还涉及识别,表示和处理知识,因此难以与KDD共同合作。

计算机科学与工程的另一个领域需要一个特别的说明,因为它是最可能与KDD / DM重叠的一个。它是数据仓库,因为数据仓库也提供了KDD流程中使用的大量数据预处理(参见KDD作为一个过程的部分,本章稍后)。

关于KDD / DM与统计数据之间的关系,还需要进一步的评论。虽然KDD和DM严重依赖于统计学和概率论的技术,但重要的是要强调统计数据本身不足以进行KDD。它肯定能够进行一些数据分析,但它必然要求用户参与其中。 KDD / DM的目标是自动化数据分析。统计数据经常给出难以解释的结果,不能处理非数值结构化数据。它也不能在数据分析中使用领域知识。

KDD过程

知识发现是一个过程,而不是KDD系统对用户行为的一次性回应。作为任何其他过程,它具有其环境,其阶段,并在某些假设和约束条件下运行。

图2显示了KDD过程中的典型数据集,活动和阶段。它的主要资源是一个包含大量数据的数据库,以搜索可能的模式。 KDD从未在整个数据库中完成,而是从大型数据库生成的代表性目标数据集。在大多数实际情况下,数据库和目标数据集中的数据都包含噪音,即错误,不精确,不精确,冲突,异常和缺失的值以及歧义。通过从目标数据集中消除这种噪声,可以得到一组预处理数据。从预处理数据集生成的变换数据集直接用于DM。 DM的输出通常是一组模式,其中一些可能代表发现的知识。

图2 KDD过程中的相位

该过程的阶段如下。选择是从数据库生成目标数据集的适当过程。其主要目标是从数据库中选择典型数据,以使目标数据集尽可能具有代表性。预处理阶段消除了目标数据集中的噪声,并可能在预处理数据集中产生特定的数据序列。某些DM任务需要这样的序列(例如,序列分析;更详细的说明参见下一部分)。下一阶段是将预处理的数据转换成用于执行期望的DM任务的合适形式。 DM任务是在通过应该发现的知识类型的指导下,针对搜索模式的一组经过转换的数据进行的特定类型的活动。预处理数据的变换种类取决于DM任务。通常,转换包括数据记录中的字段数量的一些合适的减少,因为每个DM任务只关注数据记录字段的子集。此外,可以进行剩余数据记录字段的一些进一步的修改和组合,以便将原始数据映射到更适合将在下一阶段(DM)中执行的DM任务的数据空间。

在DM阶段,运行执行所需DM任务并生成一组模式的过程。然而,并不是所有的模式都是有用的。解释和评估发现的所有模式的目的是只保留对用户有趣和有用的模式,并丢弃其余的模式。那些仍然代表已知知识的模式。

实际上,KDD过程从未顺利进行。相反,它是一个耗时,渐进和迭代的过程,因为它的本质,因此图2中的许多重复和反馈循环。单个阶段可以单独重复,并且整个过程通常针对不同的数据集重复。

发现的模式通常使用某种众所周知的知识表示技术来表示,包括推理规则(If-Then规则),决策树,表格,图表,图像,解析表达式等[1],[24]。如果 - 然后规则是最常用的技术[12],[21]。以下示例是通过应用[3]中描述的MKS系统发现的金融领域的模式:

如果Home_Loan =是的

那么Post_Code = POST_RURAL和

性别=男性和

Marital_Status = MARRIED和

Access_Card =是和

Credit_Turnover = 4000_GTR和

Account_Type = CURRENT和

Credit_Amount = 4500_GTR

有确定性= 23.75%,支持= 23.75%,有趣= 0.806

决策树是If-Then规则的合适替代方案,因为通过许多机器学习算法,程序学习的概念以决策树的

全文共6380字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[143269],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。