英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
一种新颖的口语关键词识别系统2014年Ar工程应用
- J. Sangeetha n, S. Jothilakshmi
摘要
口语关键词识别对于熟练分类诸如会议和广播新闻等许多小时的音频填充是至关重要的。 这些系统技术先进,旨在为大量音频数据库建立索引或区分不间断语音流中的关键字。 所提出的工作涉及沿着语音信号滑动基于帧的关键词模板并且使用从两个类的超平面获得的支持向量机(SVM)错误分类率有效地搜索匹配。 这项工作构建了一种新颖的口头检测算法。 实验结果表明,所提出的方法与文献中描述的关键词检测方法相竞争,并且是流行的关键字检测方法的替代技术。
1.介绍
关键词识别是一个非常未来和有希望的分支,用于不懈的语音识别,检索包含与应用程序特定的域相关的单词或短语的语音文件很有用。它解决了在语音流中获取正确的单词或短语的问题。关键字定位技术广泛用于安全服务,电信公司,广播电台,呼叫中心,广播公司和其他使用大量流或语音信息收集的组织。他们正在寻找巨大的数据集寻找快速寻找。关键字检测系统不仅可用于电话交谈,还可用于视频,音频流,大大加快数据追踪过程。
文献中提出了几种解决这个问题的方法(Jansen和Niyogi,2009)。研究在连续语音中查找预定义关键词的任务既有实际的科学动机,即使在很少有非语言语言限制的情况下(例如以不熟悉的语言发现本地词语)也是如此。已经提出了对这个问题的几种计算方法。 Bridle(1983)提出的第一个关键字点击策略之一是沿着语音信号滑动一个基于帧的关键词模板,并使用非线性动态时间规整算法精通搜索一场比赛。虽然后来的方法中的单词模型发生了显着变化,但这种滑动模型策略用于其他方法(Wilpon et al。,1989; Silaghi and Bourlard,2000)。
提出了一种口语文档的日语口语检测方法(Nakagawa et al。,2013),它强有力地考虑了词汇(OOV)词和错误识别。为了解决OOV词语,识别错误和高速检索,远距离n-gram索引/检索方法在音节格中包含距离度量。已经提出了使用从自动语音识别(ASR)系统离线生成的词格的非结构化录音的有效方法(Norouzian和Rose,2012)到口头词检测(STD)。该方法有助于开放性词汇STD,并专注于缩小词汇(IV)和词典外搜索词所获得的检测性能之间的差异。提出了一种混合双通道方法(Norouzian和Rose,2014),用于促进快速和高效的开放式词汇表术语检测(STD)。大型词汇连续语音识别(LVCSR)系统被用于从音频记录中产生单词格。索引构建技术用于促进非常快速的格子搜索,以找出词典中(IV)和词典外词条查询词的出现提出了一种无监督学习框架(Zhang等,2009)来解决检测口语关键词的问题。在没有任何转录信息的情况下,训练高斯混合模型以用高斯后验克标记语音帧。
对于给定的关键词的一个或多个口语示例,他们使用分段动态时间扭曲来比较关键词样本和测试话语之间的高斯海报。基于标准隐马尔可夫模型(HMM)的方法是关键词填充模型。在这种情况下,HMM由三个组成部分组成:关键字模型,背景模型和填充模型。关键字模型与填充模型相关联,填充模型通常是电话或广义类循环,用于表示语音信号的非关键字部分。最后,背景模型用于标准化关键字模型分数。语音信号的Viterbi解码使用这个关键字填充HMM来执行,在出现关键字时产生预测。这种方法的变化由Wilpon等人提供。 (1990),Hofstetter和Rose(1992),Rose和Paul(1990)以及Szoke等人(2005年)。 James and Young(1994),Weintraub(1995),Junkawitsch等人提供的研究工作集中于定义最大化绩效的专业化信心度量。 (1996年),Thambiratnam和Sridharan(2005年)。虽然这些系统不需要预定义的词汇表,但它们依赖于语言建模,因此非常适合培训环境。
HMM spotter方法的进一步扩展包括使用大词汇量连续语音识别HMM。这种方法实际上可以看作是一种基于语音的方法,其中垃圾模型只允许来自词典的有效单词,但目标关键字除外。这种使用额外的语言约束被证明可以提高斑点的性能(Cardillo等,2002; Rose和Paul,1990)。然而,这种方法引发了实际问题:人们可能想知道,关键词监测人员的设计是否需要昂贵的采集系统来训练LVCSR系统所需的大量标记数据,以及大量词汇解码所隐含的计算成本(Manos和Zue,1997)。
在过去的几年中,已经提出了大量的HMM识别训练,作为类似 - 最大化的替代方法(Bahl等,1986; Juang等,1997; Fu和Juang,2009)。这些训练方法旨在最大化给定声学序列的正确转录的概率,并最小化给定声学序列的不正确转录的概率。当应用于关键词定位时,这些方法都不能将培训目标与最终定位目标紧密结合,例如最大化接受者操作特征(ROC)曲线下的面积。
Itoh等人提出的一种方法。 (2012)使用预检索结果来实现伪实时口头词条检测。事先准备好所有音节两字组合的预检索结果。检索时间取决于预检索结果的候选部分的数量。通过限制少量候选部分,几乎实时地获得几个最佳候选人。在用户正在确认候选部分时,系统可以通过逐渐增加候选部分的数量来进行剩余的检索。一种用于大型音频档案中的语音口头检测技术(Vavruska等人,2013)是在加权有限状态换能器的框架内设计的,并利用了最近开发的因子自动机概念,我们用分数标准化一种用于系统查询扩展的技术,该技术允许电话删除和替换,并因此补偿ASR解码过程中发生的频繁发音缺陷和系统音素交换。已经提出了一种使用自动关联神经网络(AANN)进行口头关键字检测的新方法(Jothilakshmi,2014),其涉及使用AANN的分配捕获能力来进行口头关键字检测。它基于从AANN的归一化平方误差获得的置信度分数。
本文最重要的介入涉及从培训中获得的错误分类率的利用用于口头关键词检测的两类(1和 1)的SVM超平面(Jothilakshmi et al。,2009)。所提出的方法涉及沿着输入音频信号滑动基于帧的关键字模式,并且最初属于搜索关键字的帧的块最初被设置为(1)类和一个帧的块,使得该块中的帧的数量相等从输入信号中选择从第一帧开始的关键字信号的帧数被设置为( 1)级。然后使用这两个类训练SVM,并在这两个类之间获得超平面。通过使用这个超平面,这两个类的帧被分类并且所获得的错误分类率被用于熟练地搜索匹配。这项工作制定了一个新的口语关键词识别系统。
本文的其余部分组织如下:第2节描述了从语音信号中提取口语关键词发现特征的方法的简要描述。第3节给出了口语关键词发现的支持向量机。所提出的算法对于口头关键字检测在第4节中已提出。第5节介绍了提议的口语关键词识别系统的性能测量。第6节介绍了实验结果。第7节给出了结论并描述了未来的工作。
2.特征提取用于关键字检测
MFCC已被证明是语音相关识别任务中最成功的特征表示之一。 mel-cepstrum利用听觉原理以及倒谱的解相关特性(Davis and Mermelstein,1980)。图1说明了一段语音信号的MFCC特征的计算,其描述如下(HTK book,2002):
1.首先用分析窗口对语音波形进行加窗,并计算离散短时傅立叶变换(STFT)。
2.然后通过一系列滤波器频率响应对幅度进行加权,其中心频率和带宽大致与听觉临界带滤波器的中心频率和带宽相匹配。这些滤波器遵循梅尔尺度,其中滤波器的频带边缘和中心频率对于低频是线性的,并且随着频率的增加而对数地增加,如图2所示。我们称这些滤波器为梅尔比滤波器并且统称为梅尔 - 过滤器库。该滤波器组具有24个三角形频率响应,是对覆盖4000Hz范围的实际音频临界频带滤波器的粗略近似。
3.计算每个梅尔比滤波器频率响应加权的STFT中的对数能量。
4.最终离散余弦变换(DCT)应用于滤波器组输出以产生倒谱系数。
图1. 从语音信号中提取MFCC
3.支持向量机(SVM)用于关键字识别
支持向量机是基于结构风险最小化(SRM)的原理。与径向基函数神经网络(RBFNN)一样,支持向量机可以用于模式分类和非线性回归。支持向量机构造了一个线性模型来估计使用基于支持向量的非线性类边界的决策函数。如果数据是线性分离的,则SVM训练线性机器以获得最优超平面,该超平面将数据无差错地分离,并放入超平面和最近训练点之间的最大距离。最接近最优分离超平面的训练点称为支持向量。 SVM通过一些先验选择的非线性映射将输入模式映射到更高维的特征空间。然后在这个高维特征空间中构造一个线性决策表面。因此,支持向量机是参数空间中的一个线性分类器,但是由于输入模式空间到高维特征空间的非线性映射,它成为一个非线性分类器。
支持向量机(Vapnik,1998)是一种有用的统计机器学习技术,已经成功应用于模式识别任务(Jiang等,2005; Guo和Li,2003; Ramalingam,2006; Geetha等,2009 )。如果数据是线性不可分离但非线性可分的,则将应用非线性支持向量分类器。其基本思想是使用非线性变换将输入向量转换为高维特征空间,然后在特征空间中进行线性分离,如图3所示。
在具有核函数K(xi,xnew)的特征空间中实现最优分离超平面的非线性支持向量分类器由
SV是支持向量。 SVM有两层。在学习过程中,第一层选择基准K dxi; xnewTHORN;,ifrac14;1; 2; ...; SV,来自内核定义的给定基础集合;第二层在这个空间中构造了一个线性函数。这是
Energy in |
|||||||
m1 |
... |
mj |
... |
mP |
|||
Each Band |
|||||||
MELSPEC |
|||||||
图2. 梅尔比例过滤器组
图3. 支持向量机的原理
完全等价于在相应的特征空间中构造最优超平面。
SVM算法可以通过使用不同的核函数来构建各种学习机器。通常使用四种内核函数。他们是
1.线性内核:
2.度d的多项式核:
3.高斯径向基函数(RBF):
4. Sigmoidal仁:
内核参数
gamma;:多项式中的RBF系数的宽度
d:多项式的次数
c0:多项式中的加法常数
在Lu等人(2001)提出了基于SVM分类的监督技术用于口头词检测,其中他们采用自底向上的二叉树结合三个两类SVM分类器进行基于内容的音频分割。基于支持向量机的监督技术是在Karthik等人提出的。 (1)用于训练SVM超平面的类,然后将每个窗口分类为( 1)或(1)类,将口述关键词周围的语音数据标记为( 1)类并且将音频文件中的帧块标记为)。
4. 口语关键词spotting算法
关键词spotting由前面章节中提到的技术元素组成。假设已从语音信号中提取出声学特征。
该算法的概要总结如下:首先获得给定搜索关键词语音信号的每个单帧的MFCC特征(在第2节讨论)。同样,对于其中应该检测给定关键字的给定输入信号的每个帧获得语音特征。首先,将属于搜索关键字的帧的块设置为(1)类,并且使得块的帧数等于关键字信号的帧数从输入信号中选择第一帧被设置为( 1)级。然后使用这两个类训练SVM,并在这两个类之间获得超平面。如果对应于该框的搜索词与搜索关键词相同,则误分类率将非常高。如果对应于该框的搜索词与搜索关键词不同,则来自该框的特征向量可能不会落入超平面,并且该模型给出低误分类率(概率)。
类似地,下一个可能性是对应于与搜索关键字部分匹配的帧块的单词。如果是这种情况,块的错误分类率将处于在上述两个值中。 在获得当前块的错误分类率之后,该块向右移动固定数量的帧。 然后整个过程重申这个新块。 以同样的方式,直到该块尾部的误分率被测量到达输入语音帧的最后一帧。 从错误分类率来看,全局最大位置是输入信号中搜索关键字的位置。 图4显示了该算法中涉及的步骤。
图4. 所提议的算法涉及的步骤
4.1. 关键字识别
给定每个输入信号的语音特征S = fSi:i = 1; 2; ...; ng其中,i是帧索引,n是输入语音信号中的帧的总数。以及关键字信号K = fKj的语音特征:j = 1; 2; ...; mg其中,j是帧索引,m是搜索关键字信号中存在的帧的总数。所提出的用于为给定的搜索语音关键字检索语音文件的算法总结如下:
全文共8512字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[14498],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。