商业银行交易行为的大数据分析与研究外文翻译资料

 2022-11-09 03:11

英语原文共 337 页,剩余内容已隐藏,支付完成后下载完整资料


  1. 开始

让我们在个人工作站安装Hadoop和Hive工具,这是一种方便的方式使用Hadoop来学习和实验。接下来我们将讨论为使用Hadoop集群如何安装配置Hive。

如果你已经使用亚马逊网站服务,安装Hive用来学习最快捷的方式是在EMR上运行一个Hive配置的工作流程,我们在21章讨论这个选项。

如果你能够使用已经安装好的Hive工具进入Hadoop集群,我们鼓励你略过这个章节的第一部分然后再次学习第22页——“Hive里面是什么”。

安装预配置的虚拟机

有几种方法可以安装Hadoop和Hive。一种简单的方法是安装一个完整的Hadoop系统,

安装预配置的虚拟机 有几种方法可以安装Hadoop和Hive。安装完整Hadoop系统(包括Hive)的简单方法是下载预配置的虚拟机chine(VM)在VMWare1或VirtualBox2中运行。 对于VMWare,VMWare Player for Windows和Linux(免费)或VMWare Fusion for Mac OS X(便宜)可以使用。 VirtualBox对所有这些平台以及Solaris都是免费的。 虚拟机使用Linux作为操作系统,这是目前唯一的推荐在生产环境中运行Hadoop的操作系统。使用虚拟机是目前运行Hadoop的唯一方法Windows系统,即使安装了Cygwin或类似的类似Unix的软件。

  1. http://vmware.com.
    2. https://www.virtualbox.org/.
    3.但是,一些供应商正在开始在其他系统上支持Hadoop。Hadoop已经在各种Unix系统上的生产中使用,它在Mac OS X上正常工作,用于开发。

大多数可用的预配置虚拟机(VM)仅用于设计 VMWare,但如果你喜欢VirtualBox,你可以在网上找到说明解释如何将特定的虚拟机导入到VirtualBox中。

您可以从提供的网站之一下载预配置的虚拟机

表2-1根据这些网站上的说明,将虚拟机加载到VMWare中。

表2-1 VMWare的预配置Hadoop虚拟机。

提供程序

URL

注释

Cloudera公司

https://ccp.cloudera.com/display/SUPPORT/Clou deras Hadoop Demo VM

使用Cloudera自己的发行版 的Hadoop,CDH3或CDH4。

MapR,Inc.

http://www.mapr.com/doc/display/MapR/Quick 开始 - 测试 驱动器 MapR on a 虚拟 机器

MapR的Hadoop分布, 它取代了HDFS MapR文件系统(MapR-FS)。

Hortonworks, Inc.

http://docs.hortonworks.com/HDP-1.0.4-PREVIEW -6 / Using_HDP_Single_Box_VM / HDP_Single_Box _VM.htm

基于最新,稳定的Apache 发布。

Think Big An-alytics,Inc.

http://thinkbigacademy.s3-website-us-east-1.ama zonaws.com/vm/README.html

基于最新,稳定的Apache 发布。

接下来,转到第22页上的“Hive内部是什么?

详细安装

使用预配置的虚拟机运行Hive的可能的简单方法是安装的Hadoop和Hive,这将给你宝贵的洞察这些工具如何工作的能力, 特别是如果你是一个开发人员。

下面的说明描述了对于个人Linux或Mac OS X工作站,Hadoop和Hive安装步骤的最低要求的。为生产安装,请咨询您的Hadoop的推荐安装过程分销商。

安装Java

Hive需要Hadoop,Hadoop需要Java。确保您的系统有最近的 v1.6.X或v1.7.X JVM(Java虚拟机)。虽然JRE(Java Runtime Envi ronment)是您运行Hive所需要的,您将需要完整的JDK(Java Development Kit)在本书中构建示例,演示如何使用Java扩展Hive 码。但是,如果你不是程序员,则伴随源代码分发对于这本书(见前言)包含了预建的例子。

这些是在撰写本文时的当前URL

安装完成后,您需要确保Java在您的路径和已设置JAVA_HOME环境变量。

特定于Linux的Java步骤

在Linux系统上,以下指令在/etc/profile.d/中设置一个bash文件目录,为所有用户定义JAVA_HOME。在文件夹中更改中的环境设置需要root访问权限,并且会影响系统的所有用户。(我们使用$作为 bash shell提示符。)Oracle JVM安装程序通常将软件安装在/ usr / java / jdk-1.6.X(for v1.6),它从/ usr / java / default和/ usr / java / latest创建sym链接到安装:

$ / usr / java / latest / bin / java -version

java版本“1.6.0_23”

Java(TM)SE运行环境(build 1.6.0_23-b05)

Java HotSpot(TM)64位服务器VM(构建19.0-b09,混合模式)

$ sudo echo“export JAVA_HOME = / usr / java / latest”gt; /etc/profile.d/java.sh

$ sudo echo“PATH = $ PATH:$ JAVA_HOME / bin”gt;gt; /etc/profile.d/java.sh

$./ etc / profile $ echo $ JAVA_HOME

/ usr / java / latest

如果你从来没有使用sudo(“超级用户做某事”)之前运行命令作为“特权”用户,如在两个命令中,当你被要求时只是键入您的正常密码。如果你是个人的机器,您的用户帐户可能有“sudo权限”。如果没有,请问您的管理员来运行这些命令。

但是,如果您不想进行所有的永久性更改来影响用户的系统,一个替代方法是把显示的定义PATH和JAVA_HOME在$ HOME / .bashrc文件中:

export JAVA_HOME = / usr / java / latest

export PATH = $ PATH:$ JAVA_HOME / bin

Mac OS X特定的Java步骤

Mac OS X系统没有/etc/profile.d目录,它们通常是单用户系统,所以最好把环境变量定义放在你的 $ HOME / .bashrc。Java路径也不同,它们可能在几个地方的其中一个。

这里有几个例子。您需要确定在Mac上安装Java的位置,并相应地调整定义。下面是Mac OS X的Java 1.6示例:

$ export JAVA_HOME = / System / Library / Frameworks / JavaVM.framework / Versions / 1.6 / Home

$ export PATH = $ PATH:$ JAVA_HOME / bin

至少这是Dean Mac的当前情况。这种差异实际上可能反映了这一事实 Mac OS X Java端口的管理从Java到Java转换为Java 1.7。

下面是Mac OS X的Java 1.7示例:

$ export JAVA_HOME = / Library / Java / JavaVirtualMachines / 1.7.0.jdk / Contents / Home

$ export PATH = $ PATH:$ JAVA_HOME / bin

OpenJDK 1.7版本也安装在/ Library / Java / JavaVirtualMachines下。

安装Hadoop

Hive在Hadoop之上运行。Hadoop是一个活跃的开源项目,并拥有许多版本和分支。此外,许多商业软件公司现在正在生产自己分发的Hadoop,有时用自定义增强或替换某些组件的。这种情况促进创新,但也有潜力混乱和兼容性问题。

保持软件为最新版本,您可以利用最新的性能增强功能 bug修复。但是,有时您会引入新的错误和兼容性问题。所以,对于本书,我们将向您展示如何安装Apache Hadoop v0.20.2版本。这个版本不是最近的稳定版本,但它对于一段时间的性能和兼容性一直是可靠的黄金标准。

然而,您应该能够选择不同的版本,分发或发布没有问题,以此学习和使用Hive,如Apache Hadoop v0.20.205 或1.0.X版本,Cloudera CDH3或CDH4,MapR M3或M5,以及即将出版 Hortonworks分布。注意,捆绑的Cloudera,MapR和计划 Hortonworks发行版包括一个Hive发行版。

但是,我们不建议安装新的,alpha质量的“下一代” Hadoop v2.0(也称为v0.23),至少对于本书的目的。虽然这样发布将给Hadoop生态系统带来显着的增强,对于我们的目的它是太新鲜了。

要在Linux系统上安装Hadoop,请运行以下命令。

注意我们包装wget命令的长行:

$ cd〜#或使用您选择的另一个目录。

$wget

http://www.us.apache.org/dist/hadoop/common/hadoop-0.20.2/hadoop-0.20.2.tar.gz

$ tar -xzf hadoop-0.20.2.tar.gz $ sudo echo“export HADOOP_HOME = $ PWD / hadoop-0.20.2”gt; /etc/profile.d/hadoop.sh

$ sudo echo“PATH = $ PATH:$ HADOOP_HOME / bin”gt;gt; /etc/profile.d/hadoop.sh

$./ etc / profile

要在Mac OS X系统上安装Hadoop,请运行以下命令。注意我们包装curl命令的长行:

$ cd〜#或使用您选择的另一个目录。

$ curl -o

http://www.us.api.com / $ tar -xzf hadoop-0.20.2.tar.gz

$ echo“export HADOOP_HOME = $ PWD / hadoop-0.20.2”gt;gt; $ HOME / .bashrc

$ echo“PATH = $ PATH:$ HADOOP_HOME / bin”gt;gt; $ HOME / .bashrc

$.$ HOME / .bashrc

接下来,我们假设您将$ HADOOP_HOME / bin添加到路径中,如先前的命令所示。这将允许您只需键入hadoop命令没有路径前缀。

本地模式,伪分布模式和分布式模式

在我们继续之前,让我们澄清Hadoop的不同运行时模式。我们上面提到的默认模式是本地模式,其中文件系统引用使用本地文件系统。也在本地模式下,当Hadoop作业被执行时(包括大多数Hive 查询),Map和Reduce任务作为同一进程的一部分运行。

实际集群以分布式模式配置,其中所有文件系统都引用不是完整的URI默认为分布式文件系统(通常为HDFS),作业由JobTracker服务管理,单个任务在单独的进程中执行。

在个人机器上工作的开发人员的困境是本地模式的事实不像真实群集的行为,当测试应用程序时这是重要的要记住的。为了满足这种需要,可以配置单个机器以伪分布模式运行,其中行为与分布式模式相同, 即文件系统引用默认为分布式文件系统,并且作业被管理由JobTracker服务,但只有一台机器。因此,例如,HDFS 文件块复制限制为一个副本。换句话说,该行为就像一个singlenode“集群”。我们将在第24页的“配置Hadoop环境”中讨论这些配置选项。

因为Hive在其大部分工作中使用Hadoop作业,其行为反映了Hadoop 模式。然而,即使在分布式模式下运行,Hive也可以决定在每个查询的基础上是否可以仅使用本地模式执行查询,在那里它读取数据文件并管理MapReduce任务本身,提供更快回转。因此,不同模式之间的区别更多 Hive的执行风格比部署风格,因为它是为Had

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[138125],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。