使用MFCC和学习矢量量化的口语识别外文翻译资料

 2022-04-12 08:04

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


使用MFCC和学习矢量量化的口语识别

Esmeralda C. Djamal*,Neneng Nurhamidah和Ridwan Ilyas

信息学系大学Achmad Yani将军

JL。 Terumaan Jenderal Sudirman,Cimahi

*esmeralda.contessa@lecture.unjani.ac.id

摘要 - 口语词的识别可用于控制外部设备。 本研究使用Mel频率倒谱系数(MFCC)和学习矢量量化(LVQ)对语音中的结果词进行识别。 系统的输出以适合于识别的单词的某种类型的歌曲操作计算机。 识别分为三个类别,包含用来播放三种相应歌曲的单词,如“Klasik”,“Dangdut”和“Pop”。 语音信号通过使用MFCC提取,然后使用LVQ识别。 训练和测试集分别从“Klasik”,“Dangdut”和“Pop”六个主题和10次试验中获得。 然后使用直方图均衡化,直流去除和预加重来预处理录制的声音信号以减少来自声音信号的噪声,然后使用MFCC进行提取。 MFCC产生的频谱首先通过训练过程后使用LVQ确定。 测试结果的准确性为92%用于识别训练集,而测试使用不同SNR记录的新数据则获得了46%的准确性。 然而,使用与训练数据相同的SNR记录的新数据的测试结果具有75.5%的准确度。

关键词 - 口语识别; MFCC; LVQ; 直方图均衡化; 语音控制

  1. 介绍

声波的识别和分类是一个难题,由于其在各个领域的重要性,受到很多关注。一般来说,它由三个因素决定:说话者,言语和情绪表达识别。 说话人识别是一种生物认证过程。与语音,语言,心理和计算机科学相关的语音分类有不同的视角,因此需要语言表征和过程在语言理解中发挥中介作用,将声音与意义联系起来。 语音分类通常称为语音命令。 但是,目前的方法已经能够提高准确性。 语音识别是近几年来更具创新性和活跃的研究领域。 除此之外,情绪表达可以通过语音来识别。

自动语音识别系统识别表示为声学信号的口语词汇。 他们在医疗保健,军事,电话和其他领域有多种应用。 对于有构音障碍[1],截瘫[2]和其他肌肉残疾等缺陷的患者,它们会非常有帮助。

它们可用于改进Kinect软件[3],打开家电[4],识别性别[5],分析婴儿哭声[6]。

在口头词汇识别中,必须在通过机器学习之前提取声音信号。 以前的研究使用了Mel频率倒谱系数(MFCC)[1],[7],[8],[9],

[10],[11],[12],[13],[4]。 同时另一项研究使用

线性预测编码(LPC)[4],[14]和小波[15]。 另一项研究比较MFCC比LPC更准确,精度高达100%[16],[17],也比动态时间规整(DTW)更准确,平均为96%[18]。

MFCC因其有效的提取方法,在存在不同噪声的情况下具有鲁棒性而受到欢迎。 在MFCC阶段,语音信号通过几个三角形滤波器,它们以感知梅尔比例线性间隔。 计算每个滤波器的梅尔滤波器组对数能量(MFLE)。 MFCC的输出是使用MFLE的线性变换计算的倒谱系数。 虽然在MFCC上使用线性变换对于非线性信号有些问题。 但是,这种方法仍然很受欢迎。 这种弱点是其中一个使得小段跨度如此接近线性,这样的帧阻塞。 在噪声条件下,基于MFCC的系统与LPCC相比具有相对较强的性能,在20dB的SNR水平下,基于MFCC的系统的准确率为97%[19]。

与此同时,在语音识别中,通常使用学习矢量量化(LVQ)[4],[14],[20],[17]来识别阿拉伯语音[21],径向基函数神经网络[9 (HMM)[22],多层感知器[19],最小欧几里德距离[23],功率谱[5]和高斯混合模型(GMM)等[ 24],[25]。

LVQ采用自组织Kohenen映射和监督学习。 这种方法的优点在于计算速度考虑了仅对班级获胜者进行的加权修正。 除了语音识别LVQ用于大脑计算机接口游戏和脑电图处理[26],[27]。

本研究使用MFCC和LVQ在两秒钟内提出口头词汇识别。 三个班级的文字标识是印度尼西亚的“Klasik”,“Dangdut”和“Pop”

978-1-5386-0549-3/17/$31.00 copy;2017 IEEE .

语言。 识别系统的输出用适当的流派来控制歌曲。 每个学科的口语都通过了预处理:直方图均衡化,直流去除和预加重滤波器以规范化并减少噪音。 然后在使用LVQ识别之前使用MFCC进行提取。 该系统由6个主题和每个单词的10个试验开发而成。 我们获得了180次数据训练和180次数据测试。

  1. 材料与方法
  2. 数据采集

语音检索是使用“Klasik”,“Dangdut”和“Pop”这三个词进行的。 每个单词与将用适当流派播放歌曲的课程相关联。 这些词有不同的发音和元音结尾。 它们使用SNR大于10dB,采样频率为8000Hz,单声道和8位分辨率的麦克风录制。

每次录制6个科目和10个试验需要两秒钟。 每次录制主题应该会说“Klasik”,“Dangdut”和“Pop”(印度尼西亚语)。 有6个受试者x 10个试验x 3个等级= 180个数据集。 要求受试者说清楚清晰,接近2秒。 这意味着不要太快或减慢速度,以获得良好的训练数据。 每个记录提供了16000次采样。

  1. 识别系统的设计

系统识别开发如图1所示。

强调的目标是保持频谱的高频率和去噪。

经典当当流行音乐

鉴定

使用LVQ

加权

培训结果

训练

使用LVQ

鉴定

倒谱

梅尔

频率包裹

倒谱

梅尔

频率包裹

快速傅立叶

转变

闭塞 窗

快速傅立叶

转变

闭塞 窗

数据提取

直流消除 预强调

直方图 直流消除 预 直方图

均衡 注重 均衡

预处理

测试集

训练集

预处理之后,使用MFCC提取信号。MFCC由五个阶段组成:帧阻塞,开窗,快速傅立叶变换(FFT),Mel频率包络和倒频谱。 帧阻塞将信号分成短段或短帧以克服非站在语音信号。 两秒的信号被分割成0.02秒,所以我们获得了198帧。 窗口化减少了帧阻塞过程中信号的不连续性。在这项研究中,因为旁瓣不太高,所以使用汉明窗。FFT将信号转换为频域,然后进行下一个频率处理。 Mel-Frequency Wrapping通过Mel-Filterbank获得。它具有三角形窗口形状的信号,32个滤波器,每帧产生34个点。倒谱与频谱相反。 它旨在获得包含在语音信号中的信息,在本研究中我们使用了每帧13个MFCC系数。

培训和鉴定过程使用LVQ进行。 训练过程概括了训练数据,因此可以使用其他数据进行识别。 如果声音信号每帧产生13个倒谱系数,则一个记录产生13times;198成帧= 2574个Ceptrum作为LVQ训练的向量输入。这项研究分为三类,即“Klasik”,“Dangdut”和“流行”(印度尼西亚语)。

  1. 预处理

从记录中获得的声音信号具有不同的数据宽度。 这是由于受话者口述的话语具有不同的信号长度。 因此,通过使用方程式计算样本数据的累积分布,使用了直方图均衡化。 1.

(1)

n

在获得累积分布值后,计算直方图平均值或均值直方图。 他们有16000数据使用公式。 2.

(2)

因此,执行DC去除处理以计算样本数据的数值平均值,然后减去每个数据样本的声音以通过公式3获得语音输入数据的归一化。

(3)

语音单字识别的设计

该系统的输入是六个主题的讲话,使用采样频率为8000Hz,8位分辨率和单声道的麦克风录制。 声音信号通过预处理通过三个阶段,即直方图均衡化,DC去除和预加重滤波器。

直方图均衡旨在将每次记录的样本数据量平滑到16000个样本。 执行DC去除过程以去除DC分量以获得声音输入数据的标准化。 Pre-

先前的研究已经识别了使用DC去除和去除DC分量的预处理后的语音信号,因此我们获得了87%的随机测试精度[28]。

为了消除声音信号的噪声,使用预加重滤波器过程来维持高频率。 它通常在使用公式的声音生产过程中被消除。 4,alpha;是0.97。

(4)

  1. Mel频率倒谱系数

使用MFCC的萃取过程有五个阶段。 这些是:帧阻塞,开窗,FFT,Mel频率包装和倒谱。

帧阻塞过程用于将音频信号分成帧。 通常使用“两个幂”来确定帧大小。 但是,另一种方式是使用零层来结束“两个力量”的规则。 每20ms有一个采样时间(Ts)是由于信号特性在一段时间内变化以反映不同声音的顺序

0.2秒或更多。 使用公式5得到了99帧/秒。

(5)

在使用MFCC的提取中给出了85%的高精度[23]。

使用的滤波器数量为32个,这意味着Mel-Filterbank有一个三角形窗口,多达32个34个点。 确定下限和上限0Hz和4000Hz之间的Mel值使用公式1转换成Mel值.

(8)

为了得到频率值或梅尔逆使用方程

mel-1(f)= 700(e(mel(F))-1) (9)

1127

频率值被转换为最接近的FFT值

获得Filterbank。 执行过滤过程以获得每个过滤器的对数能量值。

倒谱定义为对数频谱信号的倒数常用于从语音信号中获得信息。 倒谱过程用于转换日志梅尔

和 I=样本速率:

N=样本点=80000.02=160

M===80

f==99频谱到时域,使用公式

,n=1,2.... k (10)

使用窗口来最小化信号不连续性使用公式。

, (6)

其中w(n)是窗口到n的值,所以信号通过。

y(n)= x(n)w(n),0le;nle;N-1 (7)

这样得到了如图2所示的加窗过程的结果。

800

600

400

200

0

-200

-400

图2.开窗

1

11

21

31

41

51

61

71

81

91

101

111

121

131

141

151

FFT将每帧的每个N点从时域转换到频域。FFT的宽度是帧长的160倍。

Mel-Frequency Wrapping由Mel-Filterbank产生,由一系列具有重叠的三角形窗组成。 梅尔值不受对数基础选择的影响,给定梅尔的尺度,使用自然或小数对数。

滤波器三角形数量有变化,即12,22,32和42.然而,使用的太少或太多的滤波器不会提供高精度。 作为以前的研究,32个过滤器

使用倒谱系数的数量是以前研究的每帧13个系数,具有10-20个系数范围[17]。

之前的比较语音识别系统的MFCC和线性预测编码(LPC)的效率的研究表明,使用MFCC和VQ比LPC和VQ更准确[17]。 另一项研究评估了MFCC和LPC在自动语言识别方面的表现,使得我们从提取中获得的最高识别是使用MFCC [16]。

MFCC结合了强大和高效的计算,因此它成为了一些语音识别研究的标准选择[29]。 他们中的一些人分析新生儿的哭声以检测300-600 Hz的甲状腺功能减退[6],开发了96%准确度的ASR系统[24],使用KNN和双距离进行语音识别[13]。

  1. 学习矢量量化

学习矢量量化(LVQ)是矢量量化的监督版本,可以在每个输入数据都带有类标签时使用。 这种学习技术使用类别信息稍微重新定位Voronoi向量,以提高分类器决策区域的质量,该分类决策区域来自Kohenen Map。 LVQ的两阶段过程如图3所示。LVQ的输入是198点或n的Ceptrum结果。

第一步是特征选择 - 对输入数据的基本信息内容集中的相当小的一组特征进行无监督识别。 第二步是将特征域分配给各个类的分类。

基本的LVQ算法很简单。 它开始设置每个我称为权重w的类i的代表性数据。 每组设置监

全文共9874字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14109],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。