数据挖掘技术综述外文翻译资料

 2022-05-14 07:05

Summary of Data Mining Technology

Abstract: With the development of computer and network technology, it is very easy to obtain relevant information. But for the large number of large-scale data, the traditional statistical methods can not complete the analysis of such data. Therefore, an intelligent, comprehensive application of a variety of statistical analysis, database, intelligent language to analyze large data data 'data mining' (Date Mining) technology came into being. This paper mainly introduces the basic concept of data mining and the method of data mining. The application of data mining and its development prospect are also described in this paper.

Keywords: data mining; method; application; foreground

1 Introduction

With the rapid development of information technology, the scale of the database has been expanding, resulting in a lot of data. The surge of data is hidden behind a lot of important information, people want to be able to conduct a higher level of analysis in order to make better use of these data. In order to provide decision makers with a unified global perspective, data warehouses are established in many areas. But a lot of data often makes it impossible to identify hidden in which can provide support for decision-making information, and the traditional query, reporting tools can not meet the needs of mining this information. Therefore, the need for a new data analysis technology to deal with large amounts of data, and from the extraction of valuable potential knowledge, data mining (Data Mining) technology came into being. Data mining technology is also accompanied by the development of data warehouse technology and gradually improved.

2 Data Mining Technology

2.1 Definition of data mining

Data mining refers to the non-trivial process of automatically extracting useful information hidden in the data from the data set. The information is represented by rules, concepts, rules and patterns. It helps decision makers analyze historical data and current data and discover hidden relationships and patterns to predict future behaviors that may occur. The process of data mining is also called the process of knowledge discovery. It is a kind of interdisciplinary and interdisciplinary subject, which involves the fields of database, artificial intelligence, mathematical statistics, visualization and parallel computing. Data mining is a new information processing technology, its main feature is the database of large amounts of data extraction, conversion, analysis and other model processing, and extract the auxiliary decision-making key data. Data mining is an important technology in KDD (Knowledge Discovery in Database). It does not use the standard database query language (such as SQL) to query, but the content of the query to summarize the pattern and the inherent law of the search. Traditional query and report processing are only the result of the incident, and there is no in-depth study of the reasons for the occurrence of data mining is the main understanding of the causes of occurrence, and with a certain degree of confidence in the future forecast for the decision-making behavior to provide favorable stand by.

2.2 Methods of data mining

Data mining research combines a number of different disciplines in the field of technology and results, making the current data mining methods show a variety of forms. From the perspective of statistical analysis, the data mining models used in statistical analysis techniques are linear and non-linear analysis, regression analysis, logistic regression analysis, univariate analysis, multivariate analysis, time series analysis, recent sequence analysis, and recent Oracle algorithm and clustering analysis and other methods. Using these techniques, you can examine the data in those unusual forms, and then interpret the data using various statistical models and mathematical models to explain the market rules and business opportunities that are hidden behind those data. Knowledge discovery class Data mining technology is a kind of mining technology which is completely different from the statistical analysis class data mining technology, including artificial neural network, support vector machine, decision tree, genetic algorithm, rough set, rule discovery and association order.

2.2.1 Statistical methods

Traditional statistics provide a number of discriminant and regression analysis methods for data mining. Commonly used techniques such as Bayesian reasoning, regression analysis, and variance analysis. Bayesian reasoning is the basic principle of correcting the probability distribution of data sets after knowing new information Tools, to deal with the classification of data mining problems, regression analysis used to find an input variable and the relationship between the output variables of the best model, in the regression analysis used to describe a variable trends and other variables of the relationship between the linear regression, There is also a logarithmic regression for predicting the occurrence of certain events. The variance analysis in the statistical method is generally used to analyze the effects of estimating the regression line#39;s performance and the independent variables on the final regression, which is the result of many mining applications One of the powerful tools.

2.2.2 Association rules

The association rule is a simple and practical analysis rule, which describes the law and pattern of some attributes in one thing at the same time, which is one of the most mature and important technologies in data mining. It is made by R. Agrawal et al. First proposed that the most classical association rule mining algorithm is Apriori, which first digs out all frequent itemsets, and then generates associa

全文共21308字,剩余内容已隐藏,支付完成后下载完整资料


数据挖掘技术综述

摘要:随着计算机、网络技术的发展,获得有关资料非常简单易行。但对于数量大、涉及面宽的数据,传统统计方法无法完成这类数据的分析。因此,一种智能化的、综合应用各种统计分析、数据库、智能语言来分析庞大数据资料的“数据挖掘”(Date Mining)技术应运而生。本文主要介绍了数据挖掘的基本概念以及数据挖掘的方法;本文对数据挖掘的应用及其发展前景也进行了描述。

关键词:数据挖掘;方法;应用;前景

1 引言

随着信息技术迅速发展,数据库的规模不断扩大,从而产生了大量的数据。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。

2 数据挖掘技术

2.1 数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(Knowledge Discovery in Database)中的重要技术,它并不是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。

2.2 数据挖掘的方法

数据挖掘的研究融合了多个不同学科领域的技术与成果,使得目前的数据挖掘方法表现出多种多样的形式。从统计分析类的角度来说,统计分析技术中使用的数据挖掘模型有线形分析和非线形分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近序列分析、最近邻算法和聚类分析等方法。利用这些技术可以检查那些异常形式的数据,然后,利用各种统计模型和数学模型解释这些数据,解释隐藏在这些数据背后的市场规律和商业机会。知识发现类数据挖掘技术是一种与统计分析类数据挖掘技术完全不同的挖掘技术,包括人工神经元网络、支持向量机、决策树、遗传算法、粗糙集、规则发现和关联顺序等。

2.2.1 统计方法

传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术、贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型, 在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.2.2 关联规则

关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。它是由R.Agrawal等人首先提出的,最经典的关联规则的挖掘算法是Apriori,该算法先挖出所有的频繁项集,然后,由频繁项集产生关联规则,许多关联规则频繁项集的挖掘算法都是由它演变而来的,关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制,关联规则在数据挖掘领域最典型的应用是购物篮分析。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价,筛选出用户真正感兴趣的,有意义的关联规则尤为重要。

2.2.3 聚类分析

聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。有时进行聚类不是为了将对象相聚在一起而是为了更容易地使某个对象从其他对象中分离出来。聚类分析已被应用于经济分析、模式识别、图像处理等多种领域,尤其在商业上,聚类分析可以帮助市场人员发现顾客群中所存在的不同特征组群。聚类分析的技术关键除了算法的选择之外,就是对样本的度量标准的选择。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

2.2.4 决策树方法

决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

2.2.5 神经网络

神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,以MP模型和Hebb学习规则为基础,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。前馈神经元网络以感知器网络、BP网络等为代表,可以用于分类和预测等方面;反馈式网络以Hopfield网络为代表,用于联想记忆和优化计算;自组织网络以ART模型、Kohonon模型为代表,用于聚类。

2.2.6 支持向量机

支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其它算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。除上述方法外,还有把数据与结果转化和表达成可视化技术、云模型方法和归纳逻辑程序等方法。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

2.3 数据挖掘的过程

对于数据挖掘,我们可以分为三个主要的阶段:数据准备、数据挖掘、结果的评价和表达。其中结果的评价和表达还可以细分为:评估、解释模式模型、巩固、运用知识。数据库中的知识发现是一个多步骤的处理过程,也是这三个阶段的反复过程,

2.3.1数据准备

KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,长期积累的结果。但是往往不适合直接在这些数据上面进行知识挖掘,需要做数据准备工作,一般包括数据的选择(选择相关的数据)、净化(消除噪音、数据)、推测(推算缺失数据)、转换(离散值数据与连续值数据之间的相互转换,数据值的分组分类,数据项之间的计算组合等)、数据缩减(减少数据量)。这些工作往往在生成数据仓库时己经准备妥当。数据准备是KDD的第一个步骤。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。

2.3.2 数据挖掘

数据挖掘是KDD最关键的步骤,也是技术难点所在。研究KDD的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据KDD的目标,选取相应算法的参数,分析数据,得到可能型号层知识的模式模型。

2.3.3 结果评价和表达

评估、解释模式模型:上面得到的模式模型,有可能是没有实际意义或没有使用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。这个步骤还包括把模式以易于理解的方式呈现给用户。

巩固知识:用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还要注意对知识做一致性检查,解决与以前得到的知识相互冲突、矛盾的堤防,使知识得到巩固。

运用知识:发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。运用知识有两种方法:一种是只需要看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。KDD的过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。

3 数据挖掘的应用

数据挖掘的潜在应用是十分广泛的:政府管理决策、商业经营、科学研究和工业企业决策支持等个领域。

3.1 在科学研究中应用

从科学研究方法学的角度看,科学研究可分为三类:理论科学、实验科学和计算科学。计算科学是现代科学的一个重要标志。计算科学工作者主要和数据打交道,每天要分析各种大量的实验或观测数据。随着先进的科学数据收集工具的使用,如观测卫星、遥感器、DNA分子技术等,数据量非常大,传统的数据分析工具无能为力,因此必须有强大的智能型自动数据分析工具才行。数据挖掘在天文学上有一个非常著名的应用系统:SKICAT (Sky Image Cataloging andAnalysis Tool)。它是美国加州理工学院喷气推进实验室(即设计火星探测器漫游者号的实验室)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究上。基因研究中,有一个著名的国际性研究课题——人类基因组计划。

3.2 在商业上的应用

在商业领域特别是零售业,数据挖掘的运用是比较成功的。由于MIS系统在商业的普遍使用,特别是码技术的使用,可以收集到大量关于购买情况的数据,并且数据量在不断激增。利用数据挖掘技术可以为经营管理人员提供正确的决策手段,这样对促进销售及提高竞争力是大有帮助的。

3.3 在金融上的应用

在金融领域,数据量是非常巨大的,银行、证券公司等交易数据和存储量都是很大的。而对于信用卡欺诈行为,银行每年的损失非常大。因此,可以利用数据挖掘对客户信誉进行分析。典型的金融分析领域有投资评估和股票交易市场预测。

3.4 在医学上的应用

数据挖掘在医学上的应用十分广泛,从分子制药到医疗诊断,都可以利用数据挖掘的手段来提高效率和效益。在药物合成方面,通过对药物分子化学结构的分析,可以确定药物中哪种原子或原子基因对什么病能够发挥作用,这样在合成新药时,可根据新药的分子结构确定该药将有可能治疗哪一种病。数据挖掘还可用于工业、农业、交通、电信、军事、Internet等其它行业。数据挖掘具有广泛的应用前景,它既可应用于决策支持,也可应用于数据库管理系统(DBMS)中。数据挖掘作为决策支持和分析的工具,可以用于构造知识库。在DBMS中,数据挖掘可以用于语义查询优化、完整性约束和不一致检验等。

4 数据挖掘的发展趋势

由于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性的课题。同时,数据挖掘语言的设计,高效而有用的数据挖掘方法和系统的开发,交互式和集成的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘研究人员、系统和应用开发人员所面临的主要问题。现今,数据挖掘的发展趋势主要是以下几方面:应用的探索;可伸缩的数据挖掘方法;数据挖掘与数据库系统、数据仓库系统和Web数据库系统的集成;数据挖掘语言的标准化;可视化数据挖掘;复杂数据类型挖掘的新方法;Web挖掘;数据挖掘中的隐私保护与信息安全。

5 结束语lt;

全文共5513字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[12404],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。