单芯片异构处理器上工作负载感知的最优功率分配外文翻译资料

 2022-08-12 03:08

Workload-Aware Optimal Power Allocation on Single-Chip Heterogeneous Processors

Jae Young Jang, Hao Wang, Euijin Kwon, Jae W. Lee, and Nam Sung Kim, Senior Member, IEEE

Abstract—As technology scales below 32 nm, manufacturers began to integrate both CPU and GPU cores in a single chip, i.e., single-chip heterogeneous processor (SCHP), to improve the throughput of emerging applications. In SCHPs, the CPU and the GPU share the total chip power budget while satisfying their own power constraints, respectively. Consequently, to maximize the overall throughput and/or power efficiency, both power budget and workload should be judiciously allocated to the CPU and the GPU. In this paper, we first demonstrate that optimal allocation of power budget and workload to the CPU and the GPU can provide 13 percent higher throughput than the optimal allocation of workload alone for a single-program workload scenario. Second, we also demonstrate that asymmetric power allocation considering per-program characteristics for a multi-programmed workload scenario can provide 9 percent higher throughput or 24 percent higher power efficiency than the even power allocation per program depending on the optimization objective. Last, we propose effective runtime algorithms that can determine near-optimal or optimal combinations of

workload and power budget partitioning for both single- and multi-programmed workload scenarios; the runtime algorithms can achieve 96 and 99 percent of the maximum achievable throughput within 5-8 and 3-5 kernel invocations for single- and multi-programmed workload cases, respectively.

Index Terms—Single-chip heterogeneous processor, GPU, dynamic voltage and frequency scaling, runtime system, multicores

Ccedil;

  1. INTRODUCTION

ECHNOLOGY scaling has reduced the area, delay, and power consumption of CMOS devices, allowing manu- facturers to integrate more transistors per chip. With more transistors available for integration, manufacturers have introduced multi- and many-core processors that exploit thread- and application-level parallelism to satisfy the ever- increasing performance demands for emerging applica- tions. With this approach, however, the number of cores per chip is often limited by power and thermal constraints that do not scale with technology scaling [1], [2], [3]. This in turn will eventually limit the maximum performance that can be delivered by future many-core processors. Thus, improving power efficiency has become one of the most critical design

T

goals for high-performance many-core processors.

To maximize power efficiency, single-chip heteroge- neous processors (SCHPs), which are comprised of various types of processing elements such as CPUs, GPUs, and accelerators, have been widely adopted by all computing segments [4]. Typically, the parallel portions of compute- intensive workloads execute on the GPU, and the serial por- tions on the CPU. Besides, CPUs often provide much higher

J.Y. Jang and J.W. Lee are with the College of Information and Communi- cation Engineering, Sungkyunkwan University (SKKU), Suwon 440–746, Korea. E-mail: {rhythm2jay, jaewlee}@skku.edu.

H. Wang and N.S. Kim are with the Department of Electrical and Computer Engineering, University of Wisconsin, Madison, WI 53706.

E-mail: {hwang223, nskim3}@wisc.edu.

E. Kwon is with System LSI Buisness, Samsung Electronics, Yongin 446–711, Korea. E-mail: euijin.kwon@samsung.com.

Manuscript received 11 Nov. 2014; revised 25 May 2015; accepted 23 June

2015. Date of publication 7 July 2015; date of current version 18 May 2016. Recommended for acceptance by Y. Solihin.

For information on obtaining reprints of this article, please send e-mail to: reprints@ieee.org, and reference the Digital Object Identifier below.

Digital Object Identifier no. 10.1109/TPDS.2015.2453965

performance than GPUs when executing codes with irregu- lar and complex data and control dependence. Integrating both CPU and GPU cores onto a single chip can greatly reduce the performance and energy penalties incurred by communications between them. This reduction will be more pronounced as the number of CPU and GPU cores placed on a chip continues to increase in the foreseeable future with technology scaling.

Recent studies demonstrate that workload partitioning between the CPU and the GPU can improve the overall throughput or power efficiency of a multi-chip heteroge- neous computing system (comprised of discrete CPU and GPU components) [5], [6], [7], [8], [9]. Such workload parti- tioning can also improve the overall throughput of SCHPs. However, the CPU and GPU must share a chip power bud- get due to their integration on a single chip, and the CPU or GPU must also satisfy its own power constraint due to ther- mal and reliability constraints. The relative performance of a CPU or GPU is often proportional to its power consump- tion (i.e., assigned power), yet the CPU and GPU exhibit dif- ferent performance and power efficiency depending on the characteristics of the executed workload. Therefore, a joint optimization of both workload and power budget partition- ing between the CPU and the GPU can help to increase the overall throughput and/or power efficiency of SCHPs.

Note that in current SCHPs neither the CPU nor the GPU can consume the entire chip power budget. In other words, the power budget of the CPU or GPU alone is always lower than the power budget of the entire SCHP. Hence, assigning the entire workload to either the CPU or GPU is not an effective way to maximize the overall throughput of SCHPs. This paper proposes workload-aware optimal power allocation schemes on an SCHP with separate vol

剩余内容已隐藏,支付完成后下载完整资料


单芯片异构处理器上工作负载感知的最优功率分配

在英章,王昊,权优进,在威李,和金南成,电气和电子工程师协会高级成员

摘要—随着技术规模缩小到32纳米以下,制造商开始将中央处理器和图形处理器内核集成到单个芯片中,即单芯片异构处理器(SCHP),以提高新兴应用的吞吐量。在单芯片处理器中,中央处理器和图形处理器共享总的芯片功率预算,同时分别满足各自的功率限制。因此,为了最大化总吞吐量和/或功率效率,应该明智地将功率预算和工作负载分配给CPU和GPU。在本文中,我们首先演示了在单程序工作负载情况下,将功率预算和工作负载最佳分配给中央处理器和图形处理器,可以提供比单独工作负载最佳分配高13%的吞吐量。第二,我们还证明,根据优化目标,考虑多程序工作负载场景的每个程序特性的不对称功率分配可以提供比每个程序平均功率分配高9%的吞吐量或高24%的功率效率。最后,我们提出了有效的运行时算法,可以确定近似最优或最优的组合

单程序和多程序工作负荷情况下的工作负荷和功率预算划分:对于单编程和多编程的工作负载情况,运行时算法可以分别在5-8和3-5次内核调用内实现96%和99%的最大可实现吞吐量。

索引术语—单芯片异构处理器、图形处理器、动态电压和频率缩放、运行时系统、多处理器

c

介绍

技术规模已经降低了CMOS器件的面积、延迟和功耗,允许制造商在每个芯片上集成更多的晶体管。随着越来越多的晶体管可用于集成,制造商引入了多核和多核处理器,这些处理器利用线程和应用级并行性来满足新兴应用不断增长的性能需求。然而,采用这种方法,每个芯片的内核数量通常会受到功率和散热限制的限制,而这种限制不会随着技术的发展而扩展([1],[2],[3)。这反过来将最终限制未来多核处理器所能提供的最大性能。因此,提高功率效率已经成为最关键的设计之一高性能多核处理器的目标。

为了最大化功率效率,由各种类型的处理元件如处理器、图形处理器和加速器组成的单芯片异质处理器已被所有计算领域广泛采用([4]。通常,计算密集型工作负载的并行部分在GPU上执行,串行部分在CPU上执行。此外,中央处理器通常提供更高的

张建业和李建伟在韩国水原大学信息与通信工程学院工作。电子邮件:{rhythm2jay,jaewlee}@skku.edu。

H.王(音译)和金学森(音译)就职于威斯康星大学麦迪逊分校电气与计算机工程系,邮编:53706。

电子邮件:{ nskim3}@wisc.edu,hwang223。

E.Kwon就职于韩国永仁446–711三星电子系统大规模集成电路事业部。电子邮件:euijin.kwon@samsung.com。

手稿于2014年11月11日收到;2015年5月25日修订;6月23日接受

2015.发布日期:2015年7月7日;当前版本日期:2016年5月18日。建议由索林接受。

有关获得本文重印本的信息,请发送电子邮件至:reprints@ieee.org,并参考下面的数字对象标识符。

数字对象标识符编号10.1109/TPDS . 2015.24539696667

当执行具有不相关和复杂数据和控制相关性的代码时,性能优于图形处理器。将中央处理器和图形处理器内核集成到一个芯片上可以大大降低它们之间通信所带来的性能和能量损失。在可预见的未来,随着技术规模的扩大,放置在芯片上的中央处理器和图形处理器内核的数量将继续增加,这种减少将更加明显。

最近的研究表明,在中央处理器和图形处理器之间的工作负载划分可以提高多芯片异构计算系统(由离散的中央处理器和图形处理器组件组成)的整体吞吐量或功率效率([5),[6),[7),[8),[9]。这种工作负载分配也可以提高调度点的整体吞吐量。然而,由于它们集成在单个芯片上,所以中央处理器和图形处理器必须共享一个芯片功率芽,并且由于温度和可靠性的限制,中央处理器或图形处理器也必须满足其自身的功率限制。一个中央处理器或图形处理器的相对性能通常与其功耗(即分配的功率)成正比,然而中央处理器和图形处理器根据执行的工作负载的特性表现出不同的性能和功率效率。因此,联合优化中央处理器和图形处理器之间的工作负载和功率预算分配有助于提高调度中心的整体吞吐量和/或功率效率。

请注意,在当前的调度程序中,无论是中央处理器还是图形处理器都不能消耗整个芯片的功率预算。换句话说,仅中央处理器或图形处理器的功率预算总是低于整个SCHP的功率预算。因此,将整个工作负载分配给中央处理器或图形处理器并不是最大化调度程序总吞吐量的有效方法。该文提出了一种基于工作负载感知的SCHP最优功率分配方案,该方案具有独立的电压/频率域。我们

1045-9219 2015。允许个人使用,但是重新发布/重新分发需要IEEE的许可。

授权许可使用仅限于:武汉学网。tieyeeo . OfGt/PeubCliHanticoonls _ OsgTaynd . AddDosw/pnubloliiacadteiodnso/RNightSA/rincdhex 1.9 ht,m20l f2o 0r maot r0 E1 in:3f o7rm:4a3 Tiount。来自美国电气和电子工程师学会。限制适用。

首先研究单编程工作负载的最佳工作负载和功率预算分配,并引入一种有效的运行时算法来找到(接近)最佳的电压/频率配置。然后,我们将它扩展到多编程工作负载,假设每个内核都具有动态可变功能扩展(DVFS)的CPU和具有两个独立可变功能域的GPU。由于不同的程序对工作频率(因此分配的功率预算)表现出不一致的性能敏感性,因此有必要在运行时通过考虑工作负载特性和评估指标来搜索最佳的电压/频率设置。

综上所述,本文做出了以下贡献:

我们证明,在中央处理器和图形处理器之间联合优化工作负载和功率预算分配,可以为单一编程的工作负载带来比单独优化工作负载分配和分配给中央处理器和图形处理器的固定功率预算高得多的吞吐量。

我们分析自适应、工作负载感知的功率分配方案对多编程工作负载的潜在吞吐量改善。我们发现,根据程序特性和评估标准,中央处理器和图形处理器的最佳电压/频率设置差异很大。

我们提出了一种有效的运行时算法,该算法可以在少量内核调用的情况下为单个编程的工作负载确定(接近)最优的工作负载和功率bud- get分区。运行时算法可以与OpenCL运行时层集成,在执行给定的工作负载时,它利用了中央处理器和图形处理器之间的运行时功率效率比。

我们提出并评估了两种运行时算法,这两种算法可以通过为并发运行的多个程序确定最佳V/F设置来分别最大化吞吐量和功率效率。

本文的其余部分组织如下。第2节介绍了夹点的背景。第3节描述了我们的实验方法。第4节和第5节分别展示了通过联合优化单个和多个编程工作负载的工作负载和电源bud- get分区而实现的潜在吞吐量和电源效率改进。第6节描述了我们提出的运行时算法,并评估了它们的有效性。第7节讨论了相关工作,第8节总结了本文。

背景

OpenCL扩展了C语言,提供了一种访问和管理异构计算资源的语言[7]。OpenCL旨在使用数据和任务并行计算模型,有效支持单个或多个可编程处理器(例如,图形处理器、中央处理器、数字存储处理器、FPGAs)上的并行执行。OpenCL允许计算系统中的任何处理器通过抽象底层硬件的细节来充当对等体。OpenCL的软件堆栈由以下部分组成:(1)平台层,用于查询和选择平台中的计算设备(例如,中央处理器和图形处理器),初始化计算设备,并创建计算上下文

图1。由中央处理器和图形处理器核心组成的SCHP框图。内存控制器由中央处理器和中央处理器共享。

和工作队列;(ii)管理计算资源并执行计算内核的运行时层;以及(iii)支持带有适当语言扩展的国际标准化组织C99子集并在线或离线编译/构建可执行计算机内核的编译器。

图1显示了SCHP的框图,类似于AMD和英特尔的处理器。例如,AMD的Llano APU在一个32纳米技术的单芯片中集成了4个x86 Stars CPU内核和80个VLIW-5 Radeon GPU内核[10]。每个CPU内核都支持无序执行,并且有一个1 MB的L2缓存。每个GPU核心由四个流核心、一个特殊功能流核心、一个分支单元和一个寄存器文件组成。中央处理器和图形处理器内核共享两个DDR3 1,866内存控制器,芯片级功耗预算为100瓦[10]。

为了实现高效的电源管理,微处理器通常为中央处理器和图形处理器内核提供独立的电压/频率域。它们还为每个中央处理器和图形处理器核心(或每组图形处理器核心)提供电源门控设备。这两个特性允许SCHP在芯片功率限制下在中央处理器和图形处理器之间动态分配其总功率预算[11],[4]。

传统上,动态电压/频率缩放(DVFS)已被广泛用于在功率约束下优化性能[12]。然而,随着运行多线程和/或应用的多核/多核处理器的出现,基于应用中的并行度和/或问题大小动态改变开/关(或活动/非活动)核的数量也可以提供在功率限制下优化性能的机会。这就是众所周知的动态岩心刻度([13),[14]。已经证明,分布式控制系统可以有效地与DVFS(即,提供动态电压/频率/内核缩放(DVFCS))相结合,以优化多线程和多程序应用的性能。本文通过在单芯片异构计算环境中应用DVFCS扩展了[13、[14,在这种环境中,工作负载和芯片功耗预算都在中央处理器和图形处理器之间进行划分,以最大化整体吞吐量。

表1

我们的单芯片异构处理器的关键配置参数

中央处理器核心数中央处理器频率/伏特

中央处理器核心提取/发布/退出

4

1.67-3.44千兆赫/0.72-0.99伏

4/4/4

图形处理器SMs / V/F域的数量

每个存储模块的寄存器的GPU数量

12 / 2

350-710兆赫/0.72-0.99伏

16,384

中央处理器IL1和DL1

64 KB/2路/64 B 2周期

每个存储模块的线程数

1,024

每个内核的中央处理器L2

1 MB/16路/64 B 20个周期

每个存储模块的图形处理器数量

8

中央处理器存储缓冲器

每个内核16个

L1图形处理器,每平方米美元

32 KB

中央处理器核心BTB

每个内核8 K/4路

GPU SIMD宽度

8

中央处理器分支错误预测。惩罚

14个周期

GPU扭曲尺寸

32

中央处理器MSHR

每个内核20个

GPU分支发散

直接后支配者

记忆频率

1,866 MHz (DDR3)

监控/调度策略的数量

2/FR-FCFS

实验方法论

3.1基线处理器配置

在这项研究中,中央处理器和图形处理器被集成到一个单一的芯片,并共享共同的微控制器,以服务于来自中央处理器和图形处理器的内存访问请求。因为这会导致内存访问争用,所以构建一个详细的周期级模拟器来准确模拟CPU和GPU之间共享的主内存带宽以及内存访问争用的影响是至关重要的。我们的集成模拟器基础设施是基于广泛使用的模拟器开发的:分别用于对中央处理器和图形处理器建模的gem5 [15]和GPU-Sim [16]。王等人提供了更多关于模拟器7]的细节。

为了模拟主控中心的交互,我们在Linux操作系统中使用了共享内存编程模型。在我们的研究中,CPU和GPU从同一个计算内核执行数据并行线程,但是在静态分区的数据集上。如在当前的AMD Llano APU体系结构[10]中,中央处理器和图形处理器高速缓存不保持显式的一致性协议。在中央处理器的存储器映射中定义一个图形处理器存储器孔,并且使图形处理器可以访问的所有数据位于(物理映射的)存储器孔中,消除了对一致性机制的需要;虽然中央处理器核心有独立的L1和L2高速缓存,与主内存保持一致,但GPU核心有专用的L1高速缓存,只支持弱一致性模型。大规模集成电路的存储器访问调度器采用先准备先来先服务(FR- FCFS)策略,[17]带有每个存储体的前端缓冲器

我们配置我们的模拟器来模拟具有四个中央处理器核心的SCHP。我们根据最近的离散图形处理器设置图形处理器短消息的数量;英伟达的GT260M,其峰值吞吐量与集成在英特尔和AMD微处理器中的图形处理器相当。GT260M有12个SMs和396个GFLOPs

这包括大量的非门(50%)、与非门(30%)和或非门(20%),使用的是SPICE和32纳米技术模型[21],在不同的VDD水平。

通过(I)在标称VDD下的动态和泄漏功率之间的比率,(ii)作为电压函数的频率和泄漏

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[236944],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。