NTT实验室的语音识别技术最新进展外文翻译资料

 2022-08-19 04:08

Recent advances in speech recognition technology at NTT laboratories

Sadaoki Furui

NTT Human Interface Laboratories, 3-9-11, Midori-cho, Musashino-shi, Tokyo, 180 Japan

Received 26 September 1991

Abstract. This paper introduces recent research activities on speech recognition, ranging from acoustic processing to linguistic processing, at NTT (Nippon Telegraph and Telephone Corporation) Laboratories. These include the proposal of ALSP parameters, hierarchical Acepstral parameters, a new method of utilizing pitch information, automatic speaker adaptation techniques, robust HMM phoneme models, new training algorithms for neural networks, linguistic processing that uses syntactic and semantic knowledge, implementation of prototype continuous speech recognition systems, and an efficient text independent speaker recognition algorithm.

ZusammenfL~mg. Dieser Beitrag beschreibt neuere Untersuchungen in den Forschungslabors der NTT (Nippon Telegraph and Telephone Corporation) auf dem Gebiet der Spracherkennung vonder akustischen bis bin zur linguistischen Verarbeitung. Forsehungsthemen sind beispielsweise der Einsatz von ALSP-Parametern oder hierarchischen ACepstrum-Parametern, neue Methoden zur Verarbeitung von Sprachgrundfrequenzverl~iufen, Verfahren zur automatischen Sprecheradaption, robuste Phonemmodelle auf HMM-Basis, neue Lernalgorithmen fiir neuronale Netze, linguistische Verarbeitungsveffahren unter Ein-beziehung syntaktischer und semantischer Wissensquellen, Implementierung prototypischer Erkennungssysteme fiir fliel~ende Sprache sowie ein effizienter textunabh~ingiger Sprechererkennungsalgorithmus.

R6sum6. Cet article pr6sente les recherches r6centes sur la reconnaissance de la parole aux Laboratoires de NTT (Nippon Telegraph and Telephone Corporation), depuis le traitement acoustique jusquau traitement linguistique. Elles comprennent la proposition de param6tres hi~rarchiques Acepstraux et de paramamp;res ALSP, une nouvelle m~thode dutilisation de linformation apport6e par la fr6quence fondamentale, des techniques dadaptation automatique au locuteur, de robustes mod61es markoviens au niveau du phoneme, de nouveaux algorithmes dapprentissage pour r~seaux neuronaux, un traitement linguistique utilisant des connaissances syntactiques et s6mantiques, limpl6mentation de syst6mes prototypes de reconnaissance de la parole continue et un algorithme de reconnaissance du locuteur efficace et ind/~pendant du texte,Keywords. Speech recognition; feature extraction; speaker adaptation; hidden Markov model; continuous speech recognition; speaker identification; speaker verification.

Keywoeds.Speech recognition:feature extraction;speaker adaptation;hidden Markov model;continuous speech recognition;speaker identification;speaker verification.

1. Introduction

Speech recognition technology has recently made remarkable progress in various aspects, especially in speaker-independent continuous speech recognition (Mariani, 1989; Furui, 1989a). This progress is the result of combining various technologies from diverse technical fields, such as signal processing, statistical modeling and artificial intelligence. The main technologies that have contributed to the improvement of the recognition performances are the statistical representation of spectral .variation using hidden Markov models (HMMs); the introduction of Acepstral parameters, which represent transitional spectral information; context-dependent phoneme modeling,which takes the influences of succeeding and preceding phonemes as the effect of coarticulation into consideration; and the utilization of statistical language models.In spite of the great progress in recent years,there still remain a large number of problems which must be solved. These problems include how to increase the robustness against variations in speakers and the surrounding environment including backgroutid noise, how to process spontaneous speech, how to combine more sophisticated language processing models with the statistical models, and how to evaluate recognition systems.This paper introduces several major topics among the recent research activities at NTT Laboratories on speech recognition including speaker recognition, and briefly describes the main technical issues that must be solved in the near future.Figure 1 outlines the basic structure of speaker independent, large-vocabulary, continuous speech recognition systems, and it shows techniques and problems under investigation in parentheses. The following sections of this paper describe recent examples of feature extraction (Section 2), speaker adaptation (Section 3), phoneme models (Section 4), continuous speech recognition systems (Section 5), and speaker identification and verification(Section 6). The final section is devoted to future problems.

2. Feature extraction

2.1. Hierarchical spectral dynamics

The effectiveness of a dynamic spectral feature set that includes Acepstrum and Apower to improve recognition accuracy, especially in speaker-independent recognition, has been confirmed (Furui, 1986), and these parameters are now widely used. They are defined as first-order regression coefficients for short-time sequences of cepstral coefficients and logarithmic energy, and they are usually used in combination with conventional cepstral coefficients and logarithmic energy. The length of the parameter sequence for regression analysis is usually set empirically between 40 and 100 ms. We recently proposed a recognition method that uses hierarchical spectral dynamic features extracted over multiple time-lengths and showed the effectiveness of these features for recognition of phonemes and isolated words (Furui, 1990a). In this method, input speech is vector-quantized by phoneme- or word-specific codebooks created as subsets of a universal codebook. Since the VQ distortion method does not require

剩余内容已隐藏,支付完成后下载完整资料


NTT实验室的语音识别技术最新进展

摘要:本文介绍了近年来对语音识别的研究活动,从声学处理语言处理,在NTT(日本电报电话公司)实验室中。这些包括ALSP建议参数,参数的分层,利用基音信息的新方法,自动说话人自适应技术,强大的HMM音素模型,对神经网络的训练算法,利用语言处理句法和语义知识,原型的连续语音识别系统的实施,和一个有效的独立文本说话人识别算法。

内容提要:本文介绍了在NTT的研究实验室中最近的研究(日本电报电话株式会社)在语音识别领域弥补语言处理。简单的说是,例如,使用ALSP参数或分层参数,新方法处理的语音基频威尔,说话人自适应方法自动,稳健音素HMM为基础的新的学习算法神经网络,包括语言句法和语义知识来源,实现原型识别系统语言以及一个高效说话人识别算法。

摘要:本文介绍了语音识别实验室NTT最近的研究(日本电报电话公司),从声学处理,以语言处理。建议等级参数倒谱和ALSP,由基本频率信息的新方法,自动调整音箱,强大的马氏模型,在音素方面新的学习算法,神经网络系统,使用语言处理语法知识和连续语音识别的原型和高效的说话人识别算法和文本。

关键词:语音识别;特征提取;语者调试;隐马尔可夫模型;连续语音识别;语者识别;语者确认。

  1. 简介:

最近的语音识别技术取得各方面的显着进步,特别是在非特定人连续语音识别方面(马里亚尼,1989年,古井,1989a)。此进展是结合来自不同的技术领域各种技术的结果,诸如信号处理,统计建模和仿真智能。识别性能的主要技术提高是统计表示采用隐马尔可夫模型谱(HMM模型)作出了贡献;引入参数,代表过渡光谱信息;上下文相关音素建模,这需要成功和前面的影响音素作为协同发音的效果参考;而统计的利用率语言模型。尽管有很大的进步,近年来,仍存在大量的问题,是必须解决。这些问题包括如何提高对偏差的鲁棒性扬声器和周围的环境,包括背景噪音,如何处理自然口语,如何结合更复杂的语言用统计处理模型,以及如何评估识别系统。

语音输入

端点检测

特征提取(光谱分析)

语者识别 降噪

句法语义知识

音素模型

文字字典

音素识别

识别结果

语言处理

(整句识别)

文字识别

图1-1 系统识别连续语音的主要结构

本文介绍了几种主要议题在NTT实验室的最新研究活动中的语音识别,包括音箱识别,并简要介绍了主要技术必须在不久的将来得到解决的问题。图1-1概括独立扬声器的基本结构,大词汇量,连续语音识别系统,它显示了技术和在调查中包含的问题。本文以下部分描述了最近的特征提取的例子(第2节),扬声器适应(第3节),音素模型(第4节),连续语音识别系统(第5节),和扬声器识别和验证(第6节。最后一节致力于未来问题。

2.特征分析

2.1.分级频谱动态

一套有效地动态光谱特征包括倒谱和功率来提高识别精度,特别是在说话者无关的识别,已得到证实(古井,1986),而这些参数在现在广泛的应用。它们被定义为一阶回归系数,该系数为倒频谱的短时序列系数和对数能量,并且它们通常组合使用常规倒谱系数和对数能量。该回归参数序列的长度分析通常在凭经验40和100毫秒之间设置。

我们最近提出的识别方法,该方法采用分层光谱的动态特征提取在多个时间长度和显示。这些特征进行识别有效性的音素和孤立的单词(古井,1990年a)。在该方法中,输入语音是矢量量化由音素或字特定码本创建为一个通用码本的子集。由于VQ失真方法不需要时间对准,它具有较少的计算和易于处理的优点来并行处理。音箱独立隔离字识别的实验采用100日语单词词汇。当VQ失真用于词识别,那3.6%的识别误差率达到了。当VQ失真被用于预处理,即候选词预选的每个输入发声数减少到词汇的1%错误率并没有增加。音素识别实验还进行了在一个男性说话者说出孤立的单词包含辅音/ B /,/ D /和/ G /的词汇量。使用层级动态特征的方法,识别精度可以达到98-99%。

2.2.LSP动态特性

为了在低比特率保持语音质量,LSP语音信号的频率的表示引入作为替代线性预测编码(LPC)表示(板仓,1975)。此在频域表示的功能,和各种研究人员已经在这样的应用中使用它语音编码,合成和识别。据报道,基于LSP的距离措施比传统的距离测量带来更好的识别性能(Paliwal,1990年)。

基于我们引进了距离的措施过渡和瞬时的线性组合LSP频率。我们比较了结合这两组参数的两种的方法:组合的距离域

(1)

其中xi和yi输入的第i个LSP频率语音和参考声音,w是设定为平均值的倒数的加权因子方差。

在参数域组合

( 2 )

实验结果表明,在参数域方法比距离域的方法有一个稍微好一点的认识性能,并且其性能优于采用倒谱和音素所获得系数。组合在参数域也是在计算方面是有利的;还可以从过程中所获得的组合信号分析,因此不需要额外的计算在识别阶段(Gurgen等人,1990)。

2.3.基于韵律特性的语音识别

语音波传达双方的光谱信息和韵律信息。韵律信息包括音高,持续时间和力度,这是难以在语音识别使用。我们有最近尝试在这两个孤立词识别和连续语音认可用间距信息。

字识别系统(图3-1)具有两个主要流程:一个用于语音识别的基础上隐藏式马尔克夫模型和一个用于音调模式识别。是输入语音的音高模式相比间距图案通过使用DTW技术模板。斜度图样模板通过平均产生从一组字具有获得间距图案同样口音的模式。音箱依赖字识别实验进行了使用测量距离的基础上的一个组合间距图案的距离和所述语音也是一样,它表明,这一措施降低了1.62%至0.88%识别错误率。当传统的语音同样测度被使用此距离错误率降低约45%(高桥等人,1990)。

这种方法已经延伸到连续语音识别,在场上模式日本最小的短语是由HMM模型建模并用于短语边界检测。试验结果表明,该短语的大约70%的边界可以由该方法正确地检测(高桥等人,1991)。

3.语者调试

3.1.非特定语者方法的局限

许多方法已经在一个倾力打造非特定人识别系统中尝试,通常是基于HMM的框架。HMM是一个强大和精确的随机模型,可以在发言时变化足够大量的训练语音中使用。

非特定语者的方法缺点之一是,它忽略各种有用的语者的特性,即使它们可以认识几个单词或之后得知句子(古井,1990b)。如果这些特性可以适当地使用的,预计识别处理将缩小搜索加速空间。另一个缺点是,当特征参数的分布是很宽的或多峰的,例如当男性和女性声音以及各种方言相结合,它难以单独音素使用非特定语者方法。为了应付这些问题,有必要引入语者调试技术。

语者调试是自动适应参考模板每一个新语者的方法,或在每一个输入语音正火(减少)音箱间的变化,通过使用从长期或短期变换获得规则句子。在大词汇识别系统,培训用户的所有的话语词汇是太麻烦因此不现实。培训一些单词或短句是一种实用的和现实的解决方案。

语者调试方法通常被分类入监管(文字相关的)方法,该训练单词或句子是已知的,无人监督(文本无关的)方法中,任意的话语可以被使用。理想情况下,如果是用户,该系统应该工作,好像它是一个独立的系统要求没有额外从各个扬声器训练发音。这样的系统可以通过适应说话者来实现自动语音,话语认可来使用。

语音输入

基音提取

LPC分析

词库

音素序列 口音类型

间距模式模板

语音HMM模型

组 合

拼音可能性计算

语音模式距离计算

识别的单词

图3-1 基于频谱和音调模式信息字识别

3.2.码书改编/归一化法

语者调试参数可通过使用映射规则与说话者无关的参数被估计。这些映射规则,估计从说话者无关的关系与说话者相关的参数。VQ基于语音识别的框架内,监督和无监督的方法已经提出被用于适配所述说话者无关到一个新的说话者,或用于归码本(调整)输入语音的码本。每个字由HMM或由单个表示码本词条中的字的多个序列的方式字典,个体差异。根据这些被建模方法一个字被说出。所述HMM和代码序列是不会在适应过程中改变,并用于所有扬声器。

3.2.1.监督适应

对于监督适应(鹿野等人,1986),所述映射规则是通过DTW或前后算法获得。该言论使用的基准喇叭是创造一个初始码书。这些话语被矢量量化,也就是说,转换成码本的序列条目。新的训练阶段,话语扬声器被转换成码序列,并且时间对准的具有相同的单词或句子由参考扬声器发出。频谱映射的码本元素之间功能参考和新的扬声器是从获得对准的功能,即从对应时间轴之间获得。

每个码本元素被包括在各个单词,即与基准喇叭的每个码本元素对应于新的各种元件音箱。因此,对应的是直方图基准的码本元素之间扬声器和新的说话者,即直方图的共同出现的码本的元素,来计算通过使用所有训练的比对结果单词或句子。映射功能由直方图加权找到最好的对应裁决。

在识别阶段,输入语音是通过使用映射规则在每一帧矢量量化并映射(标准化)到参考说话者的频谱。归一化的相似性输入语音与基准的每个字扬声器然后计算并在识别中使用决策。

3.2.2.无监督适应

无人监管码书改编的想法和方法(松本和山下,1988;古井,1989c)对于一个分段声码器是基于一个自适应算法(白木和本田,1990)。初始码本和VQ索引字字典首先制备。初始码书由多个集群的声音产生扬声器,它通常用作初始条件的每个新的发言者。

在适应过程中,从一组光谱的一个新的发言者和所述的训练发言参考码本的元素分层聚类在越来越多的集群。使用的质心之间的偏差矢量训练光谱聚类和对应码本簇,无论是码本的元素或输入帧频谱被移位以使得对应重心一致。之间的连续性相邻的簇,通过确定维持移动向量作为加权求和的偏差相邻集群的载体。因此,进行适应层次从全球到地方的个性,和码本的大小被维持在整个适应过程。使用层级技术,语音通信训练语音频谱和码本之间内容大致维持。若干修改这种适应方法也已调查(古井,1989年b)。

3.3.无监督适应HMM

我们最近提出了一种新的说话者自适应使用一个随机的语音识别方法音箱分类(今村,1991)。在传统的统计语音识别,主要问题就是找到最好的字序列W是最大化后验概率P(W|Y),用于输入字符串声Y。使用贝叶斯法则,一个后验概率P(W I Y)的计算为

(3)

其中,P(Y)为声的先验概率序列Y,P(W)是先验概率单词序列w由语言模型给定的,并P(Y|W)是类别条件概率由声学模型给出诸如一个子字或全字HMM。

在我们的新方法,所述后验概率由下式给出

(4)

其中,P(Y,S)为的先验联合概率声线Y和扬声器个性S,和P(Y,S|W)是类别,条件联合概率由扬声器受限声定模型。存在的主要问题是测量音箱的个性S和计算品类条件联合概率P(Y,S|W)。

随机语音分类

S1

S2

.....

S

S1

S2

.....

S1

S2

....

Y

码本

语音输入 Y

声预处理器

X 喇叭声的约束HMM模型

输出

图3-2 基于随机语音分级机的语者调试语音识别方法的结构

图3-2是我们的说话者自适应的框图识别方法,它使用上述随机扬声器分类作为特征提取器,用于音箱的个性信息。扬声器分类包括代表数(K)音箱类通过

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[499741],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。