应用于移动设备的语音识别外文翻译资料

 2022-10-16 03:10

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


应用于移动设备的语音识别

Alexander Schmitt.Dmitry Zaykovskiy
Wolfgang Minker

摘要:本文主要介绍了为移动用户提供不同的自动语音识别(ASR)方法概述。分析了无线通信链路的三个主要系统架构:嵌入式语音识别,网络语音识别(NSR)和分布式语音识别(DSR)。迄今为止用于移动环境中的语音识别的最新发展领域解决方案以及批判性分析的的概述已经标准化。显而易见,不同的方法和技术的优缺点被突出。特别强调的是,ASR应用面对不同的架构所存在的约束与限制。

关键词:嵌入式语音识别、网络语音识别、分布式语音识别、移动设备

1、概述

在过去十年中,通信行业取得前所未有的发展。根据MIC(市场情报中心),一个以台北为基地的信息通信技术产业研究所,2007年世界上移动电话用户数已经有了31亿,并且预测2012年将达到40亿(市场情报中心2008)。

如今移动技术已经克服人与人之间的沟通交流。2.5G网络支持数据分组交换,如GPRS和实际30-80kbits/s的速率,已成为一个日常问题。第三代网络,如如UMTS或CDMA2000,也称为“3G”,在2007年,已经在69个国家和地区有17.2亿用户使用(Informa Telecomsamp; Media)。UMTS网络在今天的标准设备提供高达384kbit上传传输速率。UMTS的高速下行分组接入和高速上行分组接入增强技术甚至让设备达到7.2Mbit/s下载和5.8Mbit/s上传。

与此同时,被称为WiFi热点的基于基于IEEE 802.11标准的无线网络热点普及。它允许用户提供一个带无线支持电脑、个人数字助理(PDA)或在网络热点范围内的许多手机接入,速率高达554Mbit/s的Wi-Fi能够使用例如语音或视频会议的应用程序。

除了网络技术的发展,客户端设备的研发也同时快速发展。Informa Telecoms amp; Media预测,3G手机设备销售从2007年所占比例的1.8%,到2012年将提升到35.8%(Informa Telecoms amp; Media 2007)。智能手机和掌上电脑占有越来越多的市场份额。根据Garter,在2008年售出了1亿八千万台智能手机设备,比前一年增长了13.9%(Gartner 2003)。

表一 国际的最先进的桌面ASR系统的字错误率

任务

单词

词错误率

实时时间

1-CPU 2-CPU

数字串

11

0.55

0.7

0.05

资源管理

1,000

,2.74

0.50

0.40

华尔街日报

5,000

7.17

1.22

0.96

这些市场的先决条件和移动设备的连接度的增加,为手持设备提供了许多新的数据服务的发展。虽然用户界面在过去几年有了明显的改善,并倾向于触摸屏发展,但仍然限制着这些设备的可用性。手持设备的主要借口问题是他们的小尺寸。在小键盘上打字或用手写笔打字是很不舒服和容易出错的。另一个问题是,这些设备通常是在使用时人是在动的。在这样的条件下工作是受阻碍甚至是不允许的。列如咋行驶汽车过程中。解决这个问题的自然方法包括使用语音识别技术。语音输入既不需要视觉也不能物理接触的设备。它可以作为一种替代交互,以常规的一个或一个互补的方式加快了输入过程,提高其精度和方便。

在过去的十年中,已经投入了大量的精力在自动语音识别技术上。成果迅速体现,鲁棒和有效的语音识别系统已经得到开发(Odell et al. 1995; Pellom and Hacioglu 2001;Walker et al. 2004)。现代先进的ASR系统提供一个高质量的性能,这使ASR在实际应用中,使用舒适(用词错误率(WER)通常评估的处理时间对话语的持续时间比),见表1。

然而,适用于桌面应用程序的算法直接复制是不可能的或经常导致不可接受的低性能。由于高度可变的声环境在移动领域和非常有限的资源,需要在手持终端等系统的实施特殊安排(Rose and Partharathy 2002)。

在这篇文章中,我们将优化系统方法,在便携式计算设备使用语音识别技术。文章按照以下安排:2.3节从手持设备的角度对语音识别技术就行研究说明,4.5节详细说明三个主要系统架构:嵌入式、网络和分布式语音识别系统,第七节总结讨论研究。

2、移动设备的ASR系统的体系结构

在这一部分我们简要描述当前的语音识别系统的功能模块以及ASR系统设计在移动设备上的应用。

2.1 自动语音识别的基础知识

ASR系统的目标是找到最可能的单词序列W=(W1,W2,hellip;),这些序列属于一个固定的给出一套声学观测的词汇O = (o1, o2,..., oT ) 。贝叶斯方法应用于ASR (Rabiner and Juang 1993)的词序列最佳判断由式子

(1)

为了生成一个输出的语音识别信号执行以下基本操作:

-从说话人声音中提取原声特征;

-判断P(W)—但单个词发生的概率,似然性概率

-判断P(0|W)—条件概率;

-找出最大的单词序列概率。

P(W)由语音模型决定,它可以是规定的或是自然统计的。在后者的情况下,通过在某些预定义的数据库中的单个词的发生频率(通常取决于上一个或2个词)的话,该单词序列的概率近似。从移动的ASR的角度对统计语言模型的主要缺点是存储参数的数目,这可能是非常大的词汇总量几百兆(LV)任务。大多数国家计算似然概率是通过基于基于HMM模型的,这里的每一个单词的Wj是一组声单元如音素,三音节或音节i.e. wj =(u1 cup; u2 cup; ···).每个单元由一组与其相关的联合概率密度得来。这些密度通常通过对角协方差得到。p(x|sj) =
M m=1 bmjN(x,mu;mj,mj).最后的似然概率由联合似然概率和状态转移概率计算。声学模型如状态转移概率,意味着mu;mj,方差和高斯权重bmj结合在训练阶段也要存储计算,高斯总数取决于该识别器的设计。然而,即使对于一个数字识别任务结束了,出现约一千39维的混合物是一种常见的情况,这也使一个简单的ASR在移动设备上实现。

最后,具备了所有的P(ot|sj) and P(W),我们需要一个有效的算法来探索所有的隐马尔可夫模型的所有字的组合。通常修改版本的维特比算法是用来确定在ASR中最好的词序列相关词汇树最好方法。

2.2移动ASR的难点

实施有效的移动的ASR系统面临着许多挑战。与一般的ASR相反,因此移动识别系统有遇到以下方面困难:有限可用的存储量(语言模型和声学模型必须缩短,这会导致性能下降),小缓存8-32 KB和小和“慢”RAM内存从1 MB到32 MB(许多信号处理算法是不允许),低处理器时钟频率(强制使用次优算法),基于硬件的浮点运算,没有对移动电话的操作系统访问(没有低级别的代码优化可能),廉价的麦克风(往往大幅影响的性能),一个极具挑战性的声学环境(移动设备可以使用无处不在:在汽车上,在大街上,在大礼堂和小房间里;这引入了附加的和卷积失真的语音信号,训练得到的数据与原来的麦克风记录不可用,算法执行过程中的高能耗等等,在一个功能块中的改进可以与系统的其他部分相矛盾。

2.3移动语音识别系统的构造

2.1节ASR系统描述的可以分解为2个部分:声的前端,在特征提取过程中发生和后端,进行基于声学模型和语言模型的Viterbi研究。

以前大多数便携式设备使用的通信链路,我们可以将移动的ASR系统基于前端和后端的位置分类。这使我们能够区分三个主要的系统结构:

-基于终端的体系结构和嵌入式技术,在前端和后端在终端实现;

-基于服务器或网络的语音识别(NSR),其中语音在通信信道传输和识别在远程服务器上执行;

-客户端服务器或分布式语音识别ASR(DSR),那里的特征运算在终端,而分类是在服务器端完成。

每一种方法都有其自身的缺点,从而影响整体性能。因此,适当的实现方法取决于应用程序和终端属性。小识别任务一般都建议在终端上,而大的词汇识别系统利用服务器的能力。在下面我们分析了每个特定的体系结构的问题,并研究了不想要的影响的补救措施。

3. 嵌入式语音识别系统

就基于终端或嵌入式ASR全程语音识别是在终端设备上进行(见图1)在有限词汇结构的掌上电脑和手机上,嵌入式自动语音识别系统往往是首选。掌上电脑的优势在于,他们大多是计算能力手机更强大。其次,他们是在建立良好的操作系统下进行的,比如Windows Mobile 6.1。允许一个更简单的软件在不同的系统级别扩展。第三,PDA有已经众所周知的处理器架构,如英特尔XScale,还有一些库和开发工具为特定平台优化(英特尔2006)。最后,掌上电脑并不总是有一个无线通信链路,所以远程语音识别是非常不恰当的。

基于终端的架构的主要优点在于它不需要任何服务器和客户端之间的通信。因此,ASR系统随时可以投入使用,不依赖于数据传输的质量。嵌入式语音识别系统中最重要的问题是在移动设备上的非常有限的系统资源。

对于嵌入式ASR设计实施需要考虑的方面。这些都是内存使用的基本算法和执行速度(诺瓦克2004)。实现一个可靠的嵌入式语音识别系统提高标准的改进中应引入该系统的各个功能模块的性能。

3.1前端

语音前端的任务是从口语中特征提取。通常需要在一帧的10–20毫秒的语音信号中进行频谱分析。常规的前端包括在其他面的算法块:快速傅里叶变换(FFT),对数的计算(LOG),离散余弦变换(DCT)和时域线性判别分析(LDA)。Kouml;hler et al(20)。给出ASR对iPAQ Pocket PC与h5550 Xscale 400 MHz处理器实现的一个例子。1秒语音前端需要0.713秒的处理时间, 0.622秒时间消耗在FFT,DCT和LDA运算。DCT和LDA通常用矩阵运算进行的,这就需要O(n3)浮点乘法和加法运算。因为掌上电脑通常没有浮点单元,浮点数运算需要软件仿真。另一种方法是用一个因子来扩大浮点数,去掉小数部分,对证书部分的运行时间按比例缩小。这里的缺点是O(n2)尺度本身需要浮点乘法,预先选择的S通常可能导致整数溢出。采用定点运算的浮点运算(Bocchieri 2008)实现大词汇嵌入式ASR对与一个206 MHz的CPU strongarm-1100桌面电话和一个624 MHz XScale PXA270处理器的Pocket PC。在所有CPU中,ASR可以以95.6%实时准确的识别1200个独立说话人的单词。通过使用近似多项式近似的对数loga f =
loga(2xm) asymp; loga 2((mminus; 1)(5minus;m)/3 x),可以得到额外的速度的改进,

特征提取

语音模型

声学模型

语音输入 语音输出

图1 基于客户端的ASR系统的嵌入式语音识别

表2:性能的基线和速度优化算法单元(Kouml;hler et al.2005)

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[151203],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。