混合云基础设施的故障感知资源配置外文翻译资料

 2022-10-27 10:10

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


Contents lists available at SciVerse ScienceDirect

并行与分布式计算杂志

杂志主页: www.elsevier.com/locate/jpdc

混合云基础设施的故障感知资源配置

Bahman Javadi a, , Jemal Abawajy b, Rajkumar Buyya c

a西悉尼大学计算机学院,工程与数学学院,

b澳大利亚吉朗,迪肯大学信息技术学院,

c澳大利亚,墨尔本大学计算机与信息系统系,云计算与分布式系统(云)实验室

摘 要

混合云计算在最近一段时间受到越来越多的关注。为了实现混合云平台的全部潜力,有效耦合公共云和私有云建筑框架是必要的。由于混合云计算的功能性和复杂性的增加,资源的故障是不可避免的,所以一种能够在服务质量(QoS)要求用户的故障感知资源配置算法至关重要的。在本文,我们提出的可扩展混合云计算基础设施,以及资源调配政策,以保证用户的 QoS 指标。考虑到工作量模型和失效相关性,本文提出将用户的请求重定向到适当的云提供商。使用真实的失败痕迹和工作负载模型,以及我们评估建议中的资源配置政策,来展示他们的性能、成本和性能效率。仿真结果显示,在真实的工作条件而采用用户请求的估计供应政策,我们能够提高用户的QoS约32%的期限违反率和57%的放缓对公共云的有限成本。

copy;2012 Elsevier公司保留所有权利。

1. 介绍

云计算是一种新的计算模式,它为提供IT资源(计算能力,存储,硬件平台和应用程序),为企业和用户的订阅为基础的虚拟和动态可扩展的服务提供一个一个按需支付的模型。以科学和商业社区云平台和服务的使用正在迅速增长,并且现有的证据显示现有证据证明云计算的性能和成本效益是最有利于于科学和商业社区[ 25,8,39,7 ]。除了提供大规模的可扩展性,云计算的另一个优点是它的基础设施的管理的复杂性是完全对用户隐藏的。

一般而言,云计算分为私有云、公共云和混合云。公共云的主机的服务器和存储系统的数量非常大,它通过大型数据中心,提供共享服务。公有云的目的是以公开市场为基础,以销售它的计算能力。任何人都可以在公共云上部署应用程序,并只为使用的服务付费。亚马逊的EC2[2]和GoGrid[17]就是公有云实例。相比之下,私有云的目的则是为本地用户提供一个灵活、灵活的私有基础设施,以便于在他们自己的管理域内运行负载。换句话说,私人云相比与公共云是小规模的系统,通常由一个单一的组织管理。私有云的例子包括美国宇航局的星云[32]和九方云[50]。

混合云[44]是公共和私有云服务的集成和利用。混合云平台将有助于科学家和企业利用公共云的可扩展性和成本效益,只需支付其消耗的资源(服务器,连接,存储),同时提供在私有云环境中提供的性能和控制的水平,而不改变其基本设置。因此,混合云计算已经受到越来越多的关注。然而,一种整合私有云和公共云机制是实现混合云计算基础设施需要解决的主要问题之一。此外,由于增加的功能和复杂性的混合云系统,资源故障是不可避免的。这样的故障会导致频繁的性能退化,执行提前终止,数据错误和丢失,违反服务水平协议(SLA),并造成严重的客户和收入的流失[ 14,36 ]。因此,一个具有资源故障意识的供应方法是一个混合云计算所必须获取的。

在本文中,有兴趣的读者可以参考[30,1]的更多信息。

在本文中,我们根据资源故障意识的供应方法,提出了一个灵活的、可扩展的混合云架构。虽然有办法处理一个组织如何使用私有云利用公共云资源来提高其用户的请求[7,31],现有的方法不考虑的工作量类型和资源故障关于请求重定向做出决定。相反,我们提出的政策考虑负荷模型和失效相关性将资源请求到合适的云服务提供商。这个商议的策略,也利用知识自由优势的方法,所以他们不需要任何统计信息的失效模式(例如,故障分布)。这种方法是在以知识为基础的技术,我们需要的以形式统计模型的失败事件的具体特点。例如,作者利用发现故障的统计模型在一个大型的志愿计算系统中采用这些模型随机调度任务的工作包。虽然以知识为基础的技术可能是更有效的,它们是相当复杂的,难以实现。

总之,本文的贡献主要有三:

bull;我们提供了一个灵活的和可扩展的混合云架构来解决用户请求的资源配置问题。

bull;在混合云架构,我们提出了各种供给政策基于负载模型和故障关系实现通用的QoS要求的用户,要求限期。

bull;我们在现实的工作量和失败的情况下对拟议的政策进行评估,并考虑不同的性能指标,如期限违约率、工作放缓和性能,成本效率。

论文的其余部分组织如下。在2节中,讲述背景和问题陈述。我们描述了相关的工作在第3节。在第4节中,我们提出了系统的体系结构及其实现。然后,我们提出了建议的资源配置政策在第5节。我们讨论了在第6节所提出的政策的绩效评价。最后,我们在第7节中总结我们的研究结果,并提出了未来的发展方向。

2.背景

在这一节中,我们将介绍这个问题的陈述,在本文中考虑的工作量和故障模型。1

2.1.系统模型

在本文中,我们专注于基础设施即服务(IaaS)云,提供虚拟机的形式原计算和存储(VMS)和可定制和配置基于应用需求。让Npub和Nprv分别表示在公共云资源(Cpub)和私有云(Cprv)的数量,混合云 (H)的关系 可以表示如下:

因为我们专注于资源配置中存在的故障,我们假设私有云资源是均匀的。我们还承担一些公共云资源有类似的以内存大小和处理器速度为私有云资源的混合容量。作为公共云有一个多样性的资源类型(例如,12在亚马逊的EC2实例类型[2]),这个假设是容易掌握。虽然我们能够从公有云利用更多的资源,但这项研究中,我们考虑从两个供应商那使用相同数量的资源。为了缩放更多资源的工作,我们可以基于唐尼[10]提出的加速模型的公共云资源估算给定的工作的持续时间。为了将来的工作,我们得丢弃这个扩展。

2.2.系统工作量

在本文中,我们考虑了广泛的高性能应用,包括许多不同的工作,在短时间内需要大量的资源。这些工作有各不相同的性质(数据或计算密集型),大小(小到大),和通信模式。计算流体动力学(计算流体力学)的应用程序就是这样的应用程序的例子。每个作业都可以包含几个任务,它们可能对通信网络的延迟和带宽非常敏感。由于这种类型的工作在虚拟化环境中使用多个供应商的资源可能不会受益很大,我们假设工作是紧密耦合的并且从单一供应商获取分配资源。

用户通过一个网关(即,经纪人)向私有云提交云资源请求,网关将决定云服务的请求。在本文中,一个请求对应于一个工作。在提交请求云资源的时候,用户还提供以下信息:

  • 所需的虚拟机类型
  • 虚拟机的数量(S)
  • 估计该请求的持续时间(R)
  • 要求的最后期限(D)。

所需的虚拟机类型可以从现有的列表中选择,可以部署在私有云和公有云。为了更精确,我们可以将系统的工作负荷定义为每一个请求的集合包括若干个任务:

为了简单起见,我们Ji用来作为请求i。所以,请求i有Si任务(tau;i)当Di是基于用户的QoS指定的(即返回结果的最后期限)。2 为每个已接受的请求,网关必须提供Si虚拟机的时间单位的Ri时间单位,这样的结果必须是满足在最后期限Di之前所表示的以下方程:

在sti和Ti的提交时间和执行时间的请求i。注意Ri是请求的估计时间,Ti是实际请求的时间。因此,用户的请求可以被看作是一个矩形的长度要求的持续时间(Ti)和宽度是需要虚拟机数量(Si),如图1所示。这有助于了解如何在可用资源中获得的请求。

图1:为存在的资源故障请求服务

2.3.故障模型

我们定义一个失败作为一个事件,该系统未能按其规格操作。当系统偏离完成其正常的系统功能时,系统发生故障,而后者正是该系统的目标。错误是系统状态的一部分,该系统的状态有可能导致随后的故障:一个错误影响该服务是一个表明一个故障产生或已经发生。判定或推测错误的原因是错误的。在本文中,我们考虑的资源故障是指任何异常造成的硬件或软件故障或不可用的服务。我们长期的服务因故障中断而作为一个不可用的区间。一个连续的可用性区间才被称为可用间隔。

公有云供应商采用精心设计的模块,包括冗余组件,以应付资源故障[49,19]。考虑私有云相比于公有云不那么可靠,并且我们假设的这种设计方式成本太高。因此,我们专注于资源故障的私有云。

假设我们在请求服务时计算节点上有一些失败事件(Fi)。在故障面前,托管的虚拟机的计算节点停止工作。令Ts(.)和特Te(.)是返回一个失败事件的开始和结束时间的函数。Ts(.)是一个资源恢复的时间,是从一个事件失败,并再次启动到它的正常运行的时间。所以,不可用区间(即恢复时间)的一个给定的虚拟机在故障网络的存在时间Fi 等于 Te(Fi) minus; Ts(Fi)。作为一个给定的请求i需要所有的虚拟机满足整体所需的时间,任何一台Si虚拟机中的任何故障事件都会停止执行整体请求i。仅仅当所有的虚拟机变得再次可用,请求可以重新开始。例如,在图1中,给定的请求可以在故障事件的F1或F2结束开始,但不可恢复故障事件的F3必须要等到事件F5结束。我们在4.3节中分析了请求失败事件的影响。

此外,已被证明的是,在分布式系统中失败事件以及工作量类型依赖和强度对故障率有空间和时间的相关性[16,15,52]。空间相关性是指在一个短的时间间隔内发生不同的节点的多个故障,而时间相关的故障是指的偏态的故障分布随着时间推移。为了更精确的说明时间相关的故障,我们可以定义的时间距离失效事件:

为了确定的时间故障相关,提出了一个球形的协方差模型如下:

theta;是尺度量化两失效事件的时间关系,alpha; 和 beta; 之间有正常关系alpha;=beta; 1

在本文的分析中,如果L gt; theta;,则没有时间相关性(即,Ct (L) = 0)。此外,我们可以考虑以失效事件为时间序列,利用自相关函数(ACF)确定的时间相关性。在这种情况下,时间相关性意味着故障事件表现出相当大的自相关,在小的时间滞后,因此故障率会随时间变化 [52]。

除了时间的失效相关性,在组件发生故障时在短时间在系统的其它部件可以触发一系列的故障[16]。让我们考虑A 根据事件的增加开始时间作为失败的事件,如下:

因此,我们可以定义的空间相关的故障如下:

△是一个时间窗口,我们可以通过改变参数量化的空间相关故障。这些故障特征,基本上是突出我们正在处理的并行请求和可能违反用户QoS的任何故障事件的工作量。为了处理这些故障的性质,在第5部分我们提出了基于一般故障事件的负荷模型的不同策略。

2.4.问题陈述

资源配置问题可以归结为如下:给定一组的请求(例如,并行工作)给混合云系统与易出故障的私有云,问题是如何决定一个请求应在公有云或私有云,按满足用户的QoS要求执行。

3 相关工作

相关的工作可以分为两组:负载共享的分布式系统和解决方案以及利用云计算资源来扩展现有的基础设施的能力。我们也简要提出一个基于QoS的调度算法来完成这部分。

Iosup等人[21]提出了一种能够在计算网格的资源共享对接机制。在建议的机制下,当当前的系统负载超过了限定值,这个被委托的算法将会执行,从远程站点借

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[153788],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。