比较大数据云存储和非云存储的模型外文翻译资料

 2022-03-28 08:03

英语原文共 21 页,剩余内容已隐藏,支付完成后下载完整资料


比较大数据云存储和非云存储的模型

Victor Chang, Gary Wills

摘 要

在比较云存储和非云存储时,可能难以确保比较的公平性。在本文中,我们将研究并建立这种比较的过程和使用的度量。目前,已经开展了针对生物医学科学家部署的云系统和非云系统的性能比较,以确定效率和性能的改进。在实验之前,网络延迟、文件大小和工作失败被认定为降低性能的因素,并且进行了实验以了解它们的影响。在组织可持续性建模(OSM)被使用之前,期间和之后经过实验确保实现公平的比较。OSM定义了实际和预期的执行时间,风险控制率,并用于了解与云实验和非云实验相关的关键输出。在两个案例研究中,对云计算系统和非云计算系统进行了40次实验,第一个案例研究的重点是传输和备份10,000个文件,每个文件1GB,第二个案例研究的重点是传输和备份1000个文件,每个文件10 GB,结果表明,第一,云系统上的实际执行时间和预期执行时间低于非云系统。第二,云系统上的实际执行时间与预期执行时间之间的一致性超过99%,而在非云系统上未发现可比较的一致性,第三,云系统上效率的改进程度比非云系统更高。OSM是用于分析收集到的数据的度量标准,为两个案例研究的数据分析和可视化提供了综合的见解。

关键词:组织可持续性建模(OSM),云与非云之间的比较,存储平台,真正的云案例研究,数据分析和可视化

1 引言

越来越多的组织正在采用和调查云计算来证明概念成立并成功采用。在采用和使用云计算服务的过程中,来自人员(用户和利益相关者)和项目(实验,模拟,图像和文档)的大量数据已经被生成、交换和存储。因此,需要复杂的技术对日益增长的数据处理,管理和分析需求进行处理[1-3],大数据有五个特点:体积、速度、品种、准确性和价值[4]。体积是指用于处理和分析的数据的大小,速度指的是数据增长和使用的速率,品种是指用于处理和分析的数据的不同类型和格式。准确性则是结果和数据分析的准确度,价值是数据处理和分析提供的附加价值和贡献。由于成熟的云技术以及数据使用的需求较大,因此大数据的存储是云研究中的一个重要话题,成熟的技术包括准备就绪的Web 2.0,虚拟化,数据中心技术,快速的网络速度,用于云计算的带宽,库和API。MapReduce是云计算用于处理和分析数据的流行框架。它分为映射和缩小功能,“映射”将相同类型的数据分为一类,而“缩小”是执行数据处理以生成输出的过程,通常需要编写额外的算法来确保数据处理中的平滑处理和转换。例如,可以编写优化函数来加速处理时间,可视化函数可以转换数字输出,以便没有太多技术知识的用户可以更容易地理解输出结果[5]。

云中的大数据为科学家提供了更快更准确的技术来分析他们的实验数据的机会,在每次实验结束时,都可以生成从数据输出、科学计算、文档、各种图像(DNA,肿瘤和蛋白质)到包括原始数据和加工数据的数据集的太字节数据,这需要优秀的数据处理和管理策略,包括自动和手动处理的措施以及监控系统,以确保云中的大数据服务能够平稳运行并最大程度地减少差异。文献表明科学家已经使用公共云去处理大规模实验[4,6,7]。但是,诸如病人记录及其身体图像(如肿瘤和手术相关信息)等敏感数据不应该在公共领域,所有这些数据应该只在医院内而不在任何公共云中。因此,私有云的设计和实现对于生物医学家来说是生成、处理、更新、归档和存储数据的基础。本文将介绍为生物医学家开发的私有云的发展,从而实现高性能云存储和大数据处理,我们的研究成果包括:

·在云平台和非云平台之间直接比较其备份性能。

·一种用于生物医学数据备份的计算云系统在非云系统中效率提高的模型。

·数据分析和可视化。

本文的主要内容如下:第2节介绍相关文献,第3节阐述了系统设计和实施,第4节介绍了OSM模型作为这些实验的指标,第5节探讨了什么样的控制措施,以确保基于备份系统的非云和云的公平比较,第6节介绍了实验的结果,第7节进行了简要讨论,第8节总结该论文的结论和未来的工作。

2 相关工作

所选文献的列表从背景、获得流行的过程和与作者所提出的模型相关的问题的解释开始。

CaleRo和AuGADO[8]提出了用于监控云计算基础结构的体系结构,并解释了它们用于监视物理和虚拟机的内部和外部方法。他们从云端消费者的角度提出监控虚拟机,并在云中提供监控体系结构,他们的方法是对虚拟机的性能进行全面管理和监控,但在网络中断或延迟导致性能降级时不提供补救措施。

Calheiros等人[9] 开发基于ARIMA且提供虚拟实例的预测器,并只关注其QoS和SaaS应用程序中的短期预测和短期影响,此外,他们的评估是基于四周的单个Web工作负荷跟踪。

Bossche等人[10]侧重于负荷预测的IAAS优化,他们开发基于ARIMA的算法、Holt-Winters和指数平滑技术来实现更新合同政策和负荷预测。他们没有像[9]那样进行一个网络日志实验,而是采用了51个真实世界的Web应用程序负载跟踪来评估其性能,尽管他们的方法并未实时监控系统或应用程序。

Brower等人[11]为云存储提出了高可用性和完整性的层次(HAIL),他们使用数学证明和实验来验证HAIL,在云中的大数据领域,实验应着重于跨不同云传输数据,他们对可用性的结果是有洞察力的,但他们没有因为结果的总时间,失败率和性能降级所造成的潜伏期而出现大尺寸的文件。

Wang等人[12]提出了一种云存储的负载平衡和资源管理的框架,称为“SWIFT”,利用SWIFT在集群中发现过载节点和负载不足的节点,然后尝试在所有节点中实现良好的平衡,一个更好的选择是在开始实验之前平衡工作量分配。

Rahman和提出了用于电子交易、资源分配和网格计算的资本资产定价模型(CAPM),但是,他们没有连续地监控系统或关注由数据传输,故障率和延迟引起问题的详细实验结果。

Latch等人 [14]也使用相对性能来呈现他们的贝叶斯聚类软件,并给出它们的关键绩效指标被表示为改进的百分比,他们在相对绩效方面的工作需要通过实际案例研究来加以利用和采用。相对性能被定义为旧服务和新服务之间性能的改善,通常预期的结果是在采用诸如云计算服务之类的新服务之后有改进。

所选文献代表有优点的思想和系统,然而,他们的不足有助于集中我们的研究,更多的是,所提出的模型都没有研究过云系统和非云系统之间的性能,或者如何分析云系统和非云系统的数据。该系统应演示云中的大数据,并进行实验以将数据从一个地方传输到另一个地方,并让云存储有提供这样一套服务的能力。我们的指标(OSM模型)可以帮助分析数据、表示产出,以便利益相关者和系统管理人员可以轻松理解其含义,这些常常隐含在数据中,而不是专家无法理解的。

3 系统设计

本文描述了一个真实的案例研究,其中一个新的云是专为需要备份大量数据的生物医学家设计的,基于新云的备份服务是快速和可靠的,我们将首先为英国的国民健康服务(NHS)信托提供旧系统(非云)和新的基于云的服务,NHS信托投资了基于云的服务,以确保所有数据可以安全地备份到他们的系统上。基于云的服务需要进行备份,同时允许科学家继续进行研究和开发,从而生成能安全存储的数据。

涉及的NHS信托包括Guy#39;s和St.Thomas的NHS信托(GSTT)和伦敦国王学院(KCL),2007年,在位于圣托马斯医院的IT中心为盖伊医院的科学家设立了存储区域网络(SAN),科学家们参与了癌症研究(特别是乳腺癌)并且他们在每次手术、实验或模拟后产生了数百个图像和数据记录。备份文件包括关于患者的数据记录,如病历和肿瘤的详细描述、图像及其与每位患者的关系。随着观察到的数据快速增长,注意到每周新增几百到几千个文件,因此,需要一个更可靠的方法去备份所有数据是必要的。为了演示新的基于云的服务是否适合有效地备份超大型数据集(太字节数据),需要进行大规模实验。

NHS转向私有云进行大数据处理的动机如下:

首先,实施新的基于云服务的阶段是改善一般基础设施,伦敦大学计算中心(ULCC)决定进行系统升级,这意味着其过时的基础架构和支持工具将被诸如云存储等新方法所取代。升级包括改善光纤和高速交换网络基础设施,以允许高级实验获得高达每秒10千兆比特(GBps)的网络速度。在成立新的组织King#39;s Health Partners之前,管理者和科学家都希望在GSTT和ULCC中使用一个设施来证明真正的合作。ULCC的设施可以提供更好的IT和人员支持,从而可以缩短响应时间并更快地解决技术问题。

其次,英国卫生部提供的资助机会于2008年可见。其目标是设计和建立一个提供日常服务和提高效率的系统,其中包括云存储解决方案以解决每天得处理大量数据的问题。

这个大规模的实验表明采用云计算而不是非云计算方法的效率有所提高,并使用一种称为组织可持续性建模(OSM)的模型进行定量分析,效率的提高被定义为在两种服务处理相同数量的大数据作业请求时,云与非云服务之间的备份完成执行时间的差异。术语“作业”用来描述从源头到目的地备份数据的计算机命令,例如从盖伊医院到圣托马斯医院,每个计算机命令都会在两个站点间发送一组数据,这意味着每组数据都需要一个作业来完成备份。

3.1 非云存储解决方案

圣托马斯医院的非云存储区域网络(SAN)服务于整个GSTT,包括位于盖伊医院的医学研究人员,非云SAN由四个HP存储系统组成,总共包含32 TB的存储空间,另外还添加了四个额外的存储服务器,并在2011之后扩展了总磁盘存储,以达到64TB,这不是一个云系统,原因如下:它没有使用任何虚拟化技术。

部署并不完全由分布式技术来实现,位于盖伊医院的用户需要访问本地虚拟专用网络(VPN)服务器,然后在圣托马斯医院进行验证并将用户连接到SAN。盖伊与圣托马斯之间的距离为2英里网络布线,这对网络的性能产生影响,网络速度为1 GBps(每秒1 GB)。

3.1.1 非云系统的部署和架构

在SAN上有一个控制中心,用于在非云系统中执行备份服务的命令,备份文件需要大量的磁盘空间,最高可达10 TB,但只有最新的两个备份版本将被保留。根据用户请求,每周至少进行一次数据备份,图1显示了通过VPN进行备份部署的体系结构。

图1 通过VPN进行备份部署的体系结构

每个作业都需要完成每个数据集的备份过程,在开始运行一批作业之前,SAN的控制中心会计算预计完成时间,,执行模拟,其中完成所有作业而没有任何失败或不完整的作业来计算预期的完成时间。失败或不完整的作业意味着通过网络发送数据的命令不成功,并且需要另一个命令(作业)才能再次发送数据,换句话说,这是一个模拟计算没有失败作业时的理想预期完成时间。

在处理涉及大量工作的比较系统时,使用模拟方法来估计不完整或失败的工作是一种常见的方法[15,16],,一个稳健的备份过程应该在没有中断的情况下继续进行,同时将风险(失败或不完整的工作)保持在可接受的速率[15,17,18]。

本案例研究中的备份过程允许一次完成数千个工作,同时将失败工作的数量(风险控制率)始终保持在5%以下,在认证之后,备份过程会一直运行直到作业完成,这个备份是一个单向数据传输,移动数据从盖伊到圣托马斯医院,机型创建备份文件的存档。

3.1.2 关于网络性能的问题

网络性能可能会受到网络基础架构设置的影响。因此,网络速度,带宽和任何影响备份速度的因素都应该被视为云性能与非云部署之间的性能比较,,预计网络在传输过程中会失去一些速度,导致传输速率低于1 Gbps。

每个存储区域网络(SAN)都有网络分析工具来确定平均实际网络速度,有两种类型的网络速度:下载和上传速度。备份过程取决于上传速度,因为它将所有文件安全发送到SAN存储器,存储到正确的存储空间,然后存档所有文件。在实验之前的一年时间内测量网络速度。 在高峰期(9-10点,上午11点至下午1点以及下午4点至6点),非高峰期平均实际下载速度降低至750 Mbps,550 Mbps。 平均实际上传时间在非高峰期为400 Mbps,在高峰期为200 Mbps。

所有备份过程都会在非高峰期自动执行,例如上午7点。在备份过程中,偶尔会有一些用户需要更多的网络带宽,这可能会导致上传速度降低。当发生这种情况时,会记录上载网络速度,预计执行时间和实际备份完成执行时间。

3.2云存储解决方案

从医疗管理人员的角度来看,云存储服务是成功的,并表现出比非云存储服务更好的性能,它必须提供改进的效率,即使用云对非云服务所节省的时间的增加,在这样做的过程中,风险控制应与效率的提高是相同的,所以它可以作为一个公平的比较。此外,新的Health Cloud平台还提供生物信息学服务,提供基因、蛋白质、DNA、肿瘤和大脑图像的科学可视化和建模。

3.2.1 云存储系统的系统设计阶段

新的NHS平台是一个云存储系统,旨在为归档、数据存储、、数据管理、自动备份、数据恢复和紧急恢复提供功能和服务,这些服务被视为PaaS。NHS平台分两个阶段实施:(i)云基础设施的设计和实施,(ii)从IaaS升级到PaaS。

所选择的云架构设计使用两个并发平台,第一个基于网络附加存储(NAS),第二个基于存储区域网络(SAN),每个NAS设备都分配给一个研究小组独立运作。所有的NAS设备都可以连接起来建立一个SAN,每个NAS都支持使用手动和自动选项的个人备份。

SAN是一个专业且非常可靠的备份解决方案,可提供高度稳健和稳定的平台。 SAN确保数据长期安全并存档,因此是首选技术。SAN可以由多个不同的NAS系统组成,以便每个NAS可以专注于特定的功能。小型计算机系统接口(SCSI)是存储中使用的接口和技术,SAN用于提供双控制器和双网络千兆信道。每个SAN服务器都建立

全文共8698字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[15038],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。