端到端语音视觉个人助理—— Sirius的未来仓库级规模计算机设计外文翻译资料

 2021-12-31 10:12

英语原文共 32 页,剩余内容已隐藏,支付完成后下载完整资料


端到端语音视觉个人助理——

Sirius的未来仓库级规模计算机设计

JOHANN HAUSWALD, MICHAEL A. LAURENZANO, YUNQI ZHANG, HAILONG YANG, YIPING KANG, CHENG LI, AUSTIN ROVINSKI, ARJUN KHURANA, RONALD G. DRESLINSKI, TREVOR MUDGE, VINICIUS PETRUCCI, LINGJIA TANG, and JASON MARS, Clarity Lab, University of Michigan at Ann Arbor; Beihang University

随着用户对智能个人助理(IPA)的需求不断提高,如Apple的Siri,Google的Google Now和微软的Cortana,我们正在接近当前数据中心(DC)架构的计算限制。未来的服务器架构应如何发展以支持这一新兴的应用程序?其中缺乏开源IPA工作负载是解决这一问题的主要障碍,至今悬而未决。在本文中,我们介绍了Sirius的设计,这是一个开放的端到端IPA Web服务应用程序,它接受语音和图像形式的查询,并以自然语言进行响应。然后,我们使用此工作负载来研究未来基于加速器的服务器架构的设计空间中的四个点的含义,这些架构跨越传统的CPU,GPU,多核吞吐量协处理器和FPGA。为了研究Sirius的未来服务器设计,我们将Sirius分解为一套包含Sirius计算密集瓶颈的八个基准测试(Sirius Suite)。我们将Sirius Suite移植到一系列加速器平台,并使用这些平台的性能和功耗权衡来执行各种服务器设计点的总体拥有成本(TCO)分析。在我们的研究中,我们发现加速器对于IPA服务的未来可扩展性至关重要。我们的研究结果表明,GPU和FPGA加速服务器的查询能力分别提高了8.5倍和15倍;初始吞吐量,GPU和FPGA加速服务器可以将DC的TCO分别降低2.3倍和1.3倍。

CCS概念:计算机系统组织→架构;

其他关键词和短语:数据中心,仓库级计算机,新兴工作负载,智能个人助理

ACM参考格式:Johann Hauswald,Michael A. Laurenzano,张云琪,杨海龙,Yiping Kang,Cheng Li,Austin Rovinski,Arjun Khurana,Ronald G. Dreslinski,Trevor Mudge,Vinicius Petrucci,Lingjia Tang和Jason Mars。 2016.为Sirius设计未来的仓库级计算机,Sirius是一个端到端的语音和视觉个人助理。 ACM Trans。 COMPUT。 SYST。 34,1,第2条(2016年4月),32页。 DOI:http://dx.doi.org/10.1145/2870631

1.引言

Apple的Siri [AppleSiri 2011],Google的Google Now [GoogleNow 2014]和Microsoft的Cortana [MicrosoftCortana 2015]代表了一类新兴的Web服务应用程序,称为智能个人助理(IPAs)。 IPA是一种应用程序,它使用用户的语音,视觉(图像)和上下文信息等输入,通过以自然语言回答问题,提出建议和执行操作来提供帮助。这些IPA正在成为增长最快的领域之一互联网服务,它们最近部署在iOS,Android和Windows Phone等知名平台上,这使得它们在全球移动设备上无处不在[IDCMobile2015]。此外,随着近期产品的出现,IPA的使用情况正在迅速增加。可穿戴科技产品,如智能手表[GoogleAndroidWear 2014]和智能眼镜[GoogleGlass 2014]。据预测,可穿戴设备市场到2018年将超过4.85亿个年度设备出货量[ABIResearch2013]。这种市场份额的增长,再加上可穿戴设备的设计严重依赖语音和图像输入,进一步表明用户对IPA的服务需求快速增长的时代即将到来。

目前IPA与现代仓库规模计算机(WSC)中存在的许多Web服务工作负载不同。与传统的以浏览器为中心的服务的查询相反,IPA查询通过利用语音识别,自然语言处理(NLP)和计算机视觉方面的最新进展的软件组件进行流式传输,以提供语音驱动或图像驱动的基于上下文的问题——用户系统[Hearst2011]。由于这些组件的计算强度和他们使用的大型数据驱动模型,服务提供商在大型数据中心(DC)平台中容纳所需的计算,而不是在移动设备上执行计算他们自己。 Apple的Siri和Google的Google Now都使用了这种方法,因为他们向DC发送语音命令/查询的压缩录音,用于语音识别和语义提取[Siegler2011]。然而,DC已经被设计和调整用于诸如Web搜索(WS)之类的传统Web服务,并且已经出现了关于由通用服务器组成的现代DC所采用的当前设计是否适合于新兴IPA工作负载的问题。

与传统的基于文本的Web服务(如WS)相比,IPA查询需要大量的计算资源。正如我们稍后在本文中所展示的那样,单个叶子查询所需的计算资源超过传统WS的100倍。图1说明了与WS相比,维持IPA查询的等效吞吐量所需的现代DC中的计算资源的扩展。由于图中显示的可扩展性差距迫在眉睫,因此利用GPU,多核协处理器和FPGA等各种平台实现高性能和高能效的各种学术界和工业界都充分利用了这一点。为了进一步了解IPA工作负载是否有足够的加速机会以及最佳加速平台的识别,需要解决几个挑战,包括:

(1)识别IPA查询的端到端生命周期中的关键计算和性能瓶颈

(2)根据IPA工作负载的特点,了解流行加速器选项之间的性能,能量和成本权衡

(3)设计未来服务器和直流解决方案,可以满足未来用户的需求,同时具有成本和能源效率。

图1. IPA查询对DC的更高计算要求的影响。

然而,由于缺乏具有代表性、可公开获得的端到端IPA系统,因此无法为这一新兴工作负载调查未来基于加速器的服务器设计的设计空间。为了应对这一挑战,我们首先构建了一个端到端的独立IPA服务——Sirius——它实现了IPA的核心功能,如语音识别,图像匹配,NLP和问答系统。 Sirius将摄像机捕获的用户指示的语音和/或图像作为输入。基于输入查询的性质,通过Sirius后端有三种不同复杂程度的路径。语音命令主要在服务器端执行语音识别,以在移动设备上执行命令。语音查询还利用复杂的NLP问答系统来产生对用户的自然语言响应。一个声音和图像问题,例如这家餐馆何时关闭。与餐馆的图像相结合还利用与图像数据库的图像匹配,并将匹配的输出与语音查询相结合,以为用户选择最佳答案。我们通过整合使用完善的开源项目构建的三项服务构建了Sirius,这些项目包括代表商业系统中的技术和算法。这些开放项目包括CMU的Sphinx [Huggins-Daines等. 2006],代表广泛使用的基于高斯混合模型(GMM)的语音识别; Kaldi [Povey等.2011]和RWTH的RASR [Rybach 等.2011],代表了行业近期基于深度神经网络(DNN)的语音识别趋势; OpenEphyra(OE)[Seide 等.2011],代表了基于IBM Watson的最先进的问答系统[Ferrucci 等.2010];和SURF [Bay 等.2006],使用OpenCV [Bradski 2000]实现,并代表了各种生产应用中广泛使用的最先进的图像匹配算法。

通过这种端到端的工作量,我们对各种加速策略的可行性进行了深入调查,并为这一新兴工作负载提供了未来DC和服务器设计的见解。具体而言,我们的工作做出了以下贡献:

(1)Sirius:我们构建了Sirius,一个开放的端到端IPA系统,包括语音和图像前端。除了Sirius本身,我们还编译了一个跨越三类查询的查询分类:语音命令(VC),语音查询(VQ)和语音图像查询(VIQ)(第2节)。

(2)可扩展性差距:我们在商用硬件上描述了Sirius,并展示了此类工作负载的可扩展性差距。我们观察到维持此工作负载所需的计算资源比传统DC工作负载高出几个数量级。我们还对IPA查询的周期分解进行了分析,并分析了Sirius的计算瓶颈。我们承认这种工作负载在通用处理器上的加速潜力有限,并且确实需要加速来解决可扩展性差距(第3节)。

(3)加速Sirius:根据我们的周期分析分析,我们提取了七个计算瓶颈,其中包括Sirius消耗92%的周期来构建C / C 基准套件(Sirius Suite)以加速。我们将这些工作负载移植到一系列加速器平台上进行全面的性能评估。端到端的Sirius,查询分类,输入集,Sirius Suite基准测试以及移植到加速器的完整源代码可在线获取[ClarityLab 2015](第4节)。

(4)未来服务器和DC设计:根据我们的加速结果,我们研究了对未来服务器设计的影响。在评估了DC的性能,功率效率和总体拥有成本(TCO)之间的权衡之后,我们提出了服务器和DC设计,它们显着减少了用户需求与当前DC计算能力之间的计算差距(第5节)。

(5)扩展Sirius:我们扩展了Sirius应用程序和基准测试套件,以结合对象识别(OR)服务,该服务代表依赖于尖端计算机视觉技术的智能用户查询。我们还对对象的瓶颈进行了全面分析识别并评估移植到不同加速器平台时的延迟,能源效率和TCO(第6节)。

总之,我们发现在流行的加速选项中,包括GPU,Intel Phi和FPGA,FPGA加速服务器是同类DC设计的最佳服务器选项,当设计目标是最小化延迟或最大化能源效率与延迟约束。通过基线多核系统,FPGA在各种查询类型上的查询延迟平均减少了18倍。另一方面,GPU平均降低了TCO ,GPU加速服务器平均可以减少8.5倍查询延迟,翻译降低2.3倍TCO。当将FPGA排除为加速选项时,GPU可在其余加速器选择中提供最佳延迟和成本降低。 平均而言,使用GPU取代FPGA会导致延迟时间延长76%,但反过来可以降低43%的TCO并降低软件工程成本。

2. SIRIUS: 一个端到端的IPA

在本节中,我们介绍Sirius:端到端IPA(IPA)。我们首先描述Sirius的设计目标,然后介绍Sirius的概述以及它支持的查询类型分类。最后,我们详细介绍了Sirius使用的基础算法和技术。

2.1.Sirius设计目标

Sirius的设计有三个主要目标:

(1)完整性:Sirius应提供完整的IPA服务,接受人类语音和图像的输入,并用自然语言回答用户的问题。

(2)代表性:Sirius用于提供此响应的计算技术应代表商业领域中使用的最先进方法。

(3)可部署性:Sirius应该可以部署并在实际系统上完全正常运行。

2.2.Sirius概述:IPA查询的生命周期

图2显示了端到端Sirius查询管道的高级图。查询的生命周期始于用户通过移动设备输入的语音或图像。压缩版本的录音和图像被发送到装有Sirius的服务器。

图2. Sirius管道的端到端图

表I.查询分类

然后,用户的语音由自动语音识别(ASR)前端处理,该前端使用统计模型将用户的语音问题转换为其等效的文本。翻译后的语音然后通过查询分类器(QC)来确定语音是动作还是问题。如果是动作,则将命令发送回移动设备以供执行。否则,Sirius后端以纯文本形式接收问题。使用NLP技术,问答(QA)服务从输入中提取信息,搜索其数据库,并选择最佳答案以返回给用户。如果图像伴随语音输入,Sirius使用计算机视觉技术尝试将输入图像与其图像数据库匹配,并使用图像匹配(IMM)服务返回有关匹配图像的相关信息。例如,用户可以询问什么时间这家餐厅关门吗?而餐厅的图像则通过智能眼镜拍摄[GoogleGlass 2014]。然后Sirius可以不仅基于语音而且基于来自图像的信息返回查询的答案。

如图2所示,单个查询可以根据指令的类型,无论是问题还是操作,以及输入类型(无论是仅语音还是伴随图像)都可以采用多种途径。为了设计与Sirius一起使用的输入集,我们已经确定了包含这些路径的三个类的查询分类。表I总结了这些查询类,它们提供了一个示例foreach,它们运行的​​Sirius服务,Sirius的结果行为,以及我们输入集中该类型的查询数。

图3显示了Sirius的分层视图,该视图涵盖了它支持的查询分类,包含Sirius的服务以及组成每个服务的算法子组件。我们将在下一节中介绍这些服务和算法。

图3.Sirius的层级视图

2.3. Sirius的设计:IPA服务和算法组件

如图3所示,Sirius由三个IPA服务组成:ASR,QA和IMM。这些服务可以进一步分离为各自的算法组件。为了将Sirius设计为生产级系统的代表,我们利用与商业应用程序使用相同算法的众所周知的开放式基础架构。例如,Google Voice中的语音识别使用了与扬声器无关的GMM和隐马尔可夫模型(HMM),并采用了DNN [Hinton等.2012;迪恩等.2012]。用于QA的OE框架是CMU之前与IBM在Watson系统上的研究合作的开源版本[Ferrucci 等.2010]。 OE的NLP技术,包括条件随机场(CRF),已被公认为最先进的技术,并在谷歌和其他行业QA系

全文共20107字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[2749]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。