使用SQL Server 2005构建数据挖掘应用程序外文翻译资料

 2022-01-02 09:01

使用SQL Server 2005构建数据挖掘应用程序

王东云/任志军上海商学院管理学院行政

办公室

上海,中国

bjrzj@163.com

摘要 - 企业使用的数据挖掘应用程序是一种有效的选择,可以为您的决策提供信息和指导,从而保持您的产品和服务的竞争力。

本文系统地分析了一些主要的数据挖掘任务。

SQL Server 2005提供了最强大的算法来支持数据挖掘任务,它们是集成的,并且可以从一个供应商处获得,很明显,使用SQL

Server 2005构建数据挖掘应用程序的公司是成功的。

属性)。该任务需要找到一个模型,该模型将类属性描述为输入属性的函数。在之前描述的College Plans数据集中,该类是College Plans属性,具有两种状态:Yes和No.要训练分类模型,您需要知道训练数据集中输入案例的类值,这通常是历史数据。需要目标学习的数据挖掘算法被认为是监督算法。

典型的分类算法包括决策树,神经网络和朴素贝叶斯。

关键词数据;矿业;算法;sql 服务器2005

  1. 介绍

数据挖掘是商业智能(BI)产品系列中的关键成员,还有在线分析处理(OLAP),企业报告和ETL [1]。

数据挖掘是关于使用自动或半自动方法分析数据和查找隐藏模式。在过去十年中,已经积累了大量数据并将其存储在数据库中。大部分数据来自商业软件,例如财务应用程序,企业资源管理(ERP),客户关系管理(CRM)和Web日志。这种数据收集的结果是组织变得数据丰富且知识贫乏。数据集已经变得如此庞大并且规模越来越大,以至于这些数据存储的实际使用变得有限。数据挖掘的主要目的是从手头的数据中提取模式,增加其内在价值并将数据传递给知识[2]。

  1. 数据挖掘任务

数据挖掘可用于解决数百个业务问题。根据这些问题的性质,我们可以将它们分组到以下数据挖掘任务中。

  1. 分类

分类是最流行的数据挖掘任务之一。流失分析,风险管理和广告定位等业务问题通常涉及分类[3]。

分类是指基于可预测属性将案例分配到类别中。每个案例都包含一组属性,其中一个属性是类属性(可预测)

  1. 聚类

聚类也称为分段。它用于根据一组属性识别案例的自然分组。同一组内的案例具有或多或少相似的属性值。

例如,一个简单的客户数据集包含两个属性:年龄和收入。聚类算法基于这两个属性将数据集分组为三个段。第1组包含低收入的年轻人口。第2组包含收入较高的中年客户。第3组是一组收入相对较低的高级人员。

聚类是一种无监督的数据挖掘任务。没有单一属性用于指导培训过程。所有输入属性都被平等对待。大多数聚类算法通过多次迭代构建模型,并在模型收敛时停止,即,当这些段的边界稳定时。

  1. 协会

Association是另一种流行的数据挖掘任务。协会也称为市场篮子分析。典型的关联业务问题是分析销售交易表并识别经常在同一购物篮中销售的那些产品。关联的常见用法是为交叉销售目的识别共同的项目和规则[4]。

在关联方面,每个产品或更一般地,每个属性/值对被视为项目。关联任务有两个目标:查找频繁项集和查找关联规则。

大多数关联类型算法通过多次扫描数据集来查找频繁的项集。频率阈值由用户在处理模型之前定义。例如, support = 2%表示模型仅分析出现在至少2%购物车中的商品。频繁的项目集可能看起来像{Product =“Pepsi”,

Product =“Chips”,Product

=“果汁”}。每个项目集都有一个大小,它是它包含的项目数。此特定项目集的大小为3。

也可以建模为序列数据。例如,客户首先购买计算机,然后购买扬声器,最后购买网络摄像头。序列和时间序列数据都包含相关的相邻观察。区别在于序列系列包含离散状态,而时间序列包含连续数字。

序列和关联数据在每个单独的案例包含一组项目或状态的意义上是相似的。序列模型和关联模型之间的区别在于序列模型分析状态转换,而关联模型认为购物车中的每

除了基于支持识别频繁项集之外,大多数关联类型算

个项目是相等且独立的。使用序列模型,在购买奶酪葡萄

法还可以找到规则。关联规则具有形式A,B =gt; C的概率, 酒蛋糕啤酒可乐之前购买电脑百事可乐果汁牛肉甜甜圈扬

其中A,B,C都是频繁项集。概率也被称为数据挖掘文献

声器与在计算机之前购买扬声器的顺序不同。使用关联算

中的置信度。概率是用户在训练关联模型之前需要指定的

法,这些被认为是相同的项集。

阈值。例如,以下是典型规则: Product =“Pepsi” ,

在Web点击序列中,每个节点都是URL类别。每行都有一

Product =“Chips”=gt; Product =“Juice” ,概率为 80%。

个方向,表示两个URL之间的转换。每个转换与权重相关联,

对这条规则的解释很简单。如果顾客购买百事可乐和薯条,

表示一个URL与另一个URL之间转换的概率。

他或她也有80%的机会购买果汁。在产品关联模式中,图

中的每个节点代表一个产品,每个边代表该关系。边缘的

序列分析是一项相对较新的数据挖掘任务。它变得越

方向表示预测的方向。例如,从牛奶到奶酪的边缘表明购

来越重要,主要是由于两种类型的应用:网络日志分析和

买牛奶的人也可能购买奶酪。

DNA分析。目前有几种不同的序列技术,如马尔可夫链。

研究人员正在积极探索该领域的新算法。一组URL类别之

D. 回归

间的状态转换基于Web点击数据。

回归任务类似于分类。主要区别在于可预测属性是连续数。几个世纪以来,回归技术在统计学领域得到了广泛的研究。线性回归和逻辑回归是最流行的回归方法。其他回归技术包括回归树和神经网络。

回归任务可以解决许多业务问题。例如,它们可用于基于面值,分配方法和分布容量来预测优惠券兑换率,或者基于温度,气压和湿度来预测风速。

  1. 预测

预测是另一项重要的数据挖掘任务。明天MSFT的股票价值是多少?下个月百事可乐的销售额是多少?预测可以帮助回答这些问题。它通常用作输入时间序列数据集,例如具有表示时间的属性的数字序列。时间序列数据通常包含相邻的观测值,这些观测值与顺序有关。预测技术处理一般趋势,周期性和噪声噪声滤波。最受欢迎的时间序列技术是ARIMA,它代表自动回归综合移动平均模型。

  1. 序列分析

序列分析用于查找离散序列中的模式。序列由一系列离散值(或状态)组成。例如,DNA序列是由四种不同状态组成的长序列:A,G,C和TA Web点击序列包含一系列URL。客户购买可以

  1. 偏差分析

偏差分析用于查找与其他情况非常不同的罕见案例。它也被称为异常检测,指的是检测先前观察到的行为的显着变化。偏差分析可用于许多应用程序。最常见的是信用卡欺诈检测。从数百万笔交易中识别异常案例是一项非常具有挑战性的任务。其他应用包括网络入侵检测,制造错误分析等。[5]

偏差分析没有标准技术。它仍然是一个积极研究的话题。通常,分析人员会为此任务使用一些修改版本的决策树,聚类或神经网络算法。为了生成重要规则,分析人员需要对训练数据集中的异常情况进行过度抽样。

  1. 数据挖掘技术

尽管数据挖掘作为一个术语相对较新,但大多数数据挖掘技术已存在多年。如果我们看一下那些流行的数据挖掘算法的根源,我们发现它们主要来自三个领域:统计,机器学习和数据库。

上一节中列出的大多数数据挖掘任务已在统计社区中得到解决。统计学家发明了许多数据挖掘算法,包括回归,时间序列和决策树。

回归技术已经存在了几个世纪。时间序列算法已经研究了几十年。决策树算法是最近的技术之一,可以追溯到20世纪80年代中期。

数据挖掘侧重于自动或半自动模式发现。几种机器学习算法已应用于数据挖掘。神经网络是这些技术之一,非常适合分类和回归,特别是当属性关系是非线性时。遗传算法是另一种机器学习技术。它通过使用一组候选者和生存(适应度)函数来模拟自然进化过程。生存功能反复选择最适合下一代的候选者。遗传算法可用于分类和聚类任务。它们还可以与其他算法结合使用,例如,帮助神经网络在神经元之间找到最佳权重集。

数据库是数据挖掘的第三个技术来源。传统统计假设所有数据都可以加载到内存中进行统计分析。

不幸的是,现代世界并非总是如此。数据库专家知道如何处理大量不适合内存的数据,例如,在包含数百万销售交易的事实表中查找关联规则。事实上,最有效的关联算法来自数据库研究社区。还有一些使用数据库技术的分类和聚类算法的可扩展版本,包括Microsoft聚类算法。

IV. SQL SERVER 2005数据挖掘算法SQL Server 2005为我们提供了七种数据挖掘

算法。大多数这些算法执行几个不同的任务。本节简要介绍每种方法,为您提供一些背景信息。更重要的是了解每个人可以用来完成的事情。

  1. Microsoft决策树

Microsoft Decision Trees算法是最容易理解的算法之一,因为它在训练过程中会创建树结构。然后使用树结构来提供预测和分析。

  1. 功能

Microsoft决策树算法显示决策树。在这棵树中,我们正在分析各种产品属性和成为高销售者的可能性之间的关系。算法处理的每个新属性都会向树添加一个新分支。我们有一棵二叉树。但是,使用具有两个以上值的属性,如果您喜欢该术语,则可以使用具有两个以上分支的分支 - 一个N-ary树。

当创建树中的每个节点时,将在训练数据集中检查我们将要预测的属性。

  1. 任务

Microsoft Decision Trees算法的主要目的是分类。

它也可以用于回归和关联。

  1. 微软Naiuml;veBayes

微软的SQL产品经理Donald Farmer声称,因为有一个Naiuml;veBayes算法,在数据挖掘领域的某处必须有一个“深刻的愤世嫉俗”贝叶斯算法。我想这需要为数据挖掘的“力量”版本带来平衡。当我们探索这种算法的好处和缺点时,我们会尽量不要太天真。

  1. 功能

Naiuml;veBayes算法查看相关实体的每个属性,并确定该属性本身如何影响我们要预测的属性。Naiuml;veBayes算法可用于预测客户是否具有良好的信用风险。Naiuml;veBayes算法一个接一个地采用客户的单一属性,公司规模,年收入等等,并查看培训数据以确定其对信用风险的影响。

Naiuml;veBayes算法没有告诉我们的是,如果我们一次考虑多个属性,结果可能是什么。

  1. 任务

Naiuml;veBayes算法只能用于分类。

  1. Microsoft群集

Microsoft Clustering算法在处理训练数据集时构建实体集群。

  1. 功能

创建集群后,算法会分析每个集群的构成。它查看集

群中实体的每个属性的值。

通过输入我

全文共32317字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[2450]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。