基于隐马尔可夫模型的嵌入式语音识别系统声音协处理器外文翻译资料-外文翻译网

Acoustic Coprocessor for HMM based Embedded Speech Recognition Systems

Ojas A. Bapat, Richard M. Fastow and Jens Olson

Abstract

This paper describes a hardware accelerator for calculating observation probabilities in Hidden Markov Model based embedded speech recognition systems. The architecture integrates an 8-way data-path with a high bandwidth NOR Flash array and calculates senone scores for all senones in the acoustic library. This improves system response time by a factor of 2 (compared to software solutions running on just the embedded CPU), while consuming only 210mW power. The reduced recognition latency enables use of larger acoustic models thereby reducing the recognition word error rate by 15.4 %. The hardware supports scoring of some or all senones in the acoustic library and speaker adaptation using feature vector transforms1.

Index Terms : Speech Recognition, Hardware Accelerator, Acoustic Modeling, NOR Flash.

I. INTRODUCTION

A majority of continuous speech recognition algorithms use Hidden Markov Models (HMM) for speech decoding [1], [2].Excessive memory bandwidth and computing power required to obtain high recognition accuracy in real time are the two main bottlenecks for speech recognition on the embedded platform. Use of smaller acoustic models and word dictionaries to maintain real time performance induces inaccuracy in recognition [3]. The high computational requirement uses up most of the resources on a general purpose CPU and the acoustic and language models use most of the cache and DRAM. This results in resource contention and leaves the CPU unable to do any other task along with speech recognition.

A typical speech recognition algorithm consists of three phases (Fig. 1). After the incoming utterance is sampled and digitized in the DSP stage (Phase 1), the generated feature vector enters the acoustic modeling stage (Phase 2), where it is compared to a list of senones [4] in the library. Eachcomparison results in a senone score which is then input to the language modeling stage (Phase 3). These phases are explained in detail in Section II.

Many existing hardware solutions overcome the computation bottleneck for observation probability calculation by using increased parallelism in the data path and multiple parallel memories. Chandra et al. [5] proposes an ASIC for observation probability calculation and HMM calculation. This solution provides real time computation capabilities but requires very high communication bandwidth from the hardware to CPU since the scores of all the HMMs have to be sent back to CPU. Matthew et al. [6]was one of the first to propose a hardware accelerator for speech recognition for Sphinx 3.0. Matthew et al. also concentrate on accelerating the observation probability calculation function, and obtain a huge performance improvement by using a reduced precision data format for arithmetic operations and acoustic models. Cheng et al. [7] implements a Gaussian Mixture Model (GMM) accelerator on an FPGA for acoustic scoring. In this architecture the acoustic model is stored in DRAM. Li et al. [8] proposes a low power architecture for the observation probability calculation using an FPGA. This solution relies on parallelism and multiple SRAMs for increased performance. All these solutions exploit the fact that acoustic modeling is one of the most resource consuming tasks in the speech recognition algorithm.

In this work, an Acoustic Coprocessor (ACP) to accelerate the acoustic modeling stage of Speech Recognition on a single chip is proposed and designed to replace the software subroutine that performs Phase 2(acoustic modeling). This design adopts a logic on memory approach for hardware acceleration. The proposed design exploits the fact that most data read during the acoustic model stage is static non-volatile data. A high bandwidth (wide data bus) NOR Flash memory is used to store this non-volatile acoustic model. Logic is implemented on the same die and exhibits high parallelism in order to consume the data provided by the high bandwidth memory. This also greatly reduces off chip memory accesses. Thecommunication overhead between CPU and hardware is masked effectively by transferring data in small chunks so

that the communication and calculations can be pipelined.

Hidden Markov model (HMM) [1] is a statistical model used by most of speech recognition systems all over the world. It gains great successful applications due to the strong modeling ability for time-sequence structure. In the statistical model based on HMM, the timesequence structure of speech signal is considered to be a double-stochastic-process: one is the hidden stochastic process, a finite state Markov chain used to simulate the statistic characteristic changes of speech signal; the other stochastic process is the observation sequence related to the state of Markov chain. Hidden Markov model can be categorized as discrete hidden Markov model (DHMM), continuous hidden Markov Model (CHMM) and semi-continuous hidden Markov model (SCHMM) [1].

The advent of HMM has brought about a considerable progress in speech recognition technology over the last two decades, and nowhere has this progress been more evident than in the area of continuous speech recognition with many vocabulary speakers. However, a number of unrealistic assumptions with HMMs are still regarded as obstacles for their potential effectiveness. A major one is the inherent assumption [26] that successive observations are independent and identical distribution (IID) within a state.In order to overcome the defects of classical HMM, a new statistical model, Markov family model (MFM), was proposed. Markov family model is constructed on a Markov family consisting of multiple stochastic processes which have probability relations between each other. Independence assumption in HMM is placed by conditional independence assu

剩余内容已隐藏，支付完成后下载完整资料

基于隐马尔可夫模型的嵌入式语音识别系统声音协处理器

摘要

这篇论文描述了一个用于计算基于嵌入式语音识别系统的隐马尔可夫模型观测概率硬件加速器。这个架构以高带宽NOR闪存融合了八路数据通道，并为语音库中所有语素计算语素分。这种方法提高了系统响应时间的两倍（与直接在硬件CPU上软件运行相比），然而只消耗210mW功率。识别时延的减少使更大的声音模型变成可能，因此减少了15.4%的字识别错误率。硬件支持对部分或者全部在声音库的语素评分以及利用特征向量转换对说话者自适应。

关键词：语音识别，硬件加速器，声学模型，NOR闪存

一．简介

大部分连续的语音识别算法利用隐马尔科夫模型进行语音编码。过度的内存带宽和计算能力被要求去获取高实时识别精度是两个在嵌入式平台进行语音识别的主要瓶颈。更小的声音识别模型和字典的使用以达到实时性能减少了在识别中的不精确性。这种高的计算要求使用了大部分目的CPU资源，而声音和语言模型使用了大量的缓存和DRAM。这导致了资源竞争，使得CPU在做语音识别时无法去做任何其它任务。

一个典型的语音识别算法包括三个阶段。在传入的话语被采样以及用DSP数字量化阶段后（阶段一），生成的特征向量进入声学建模阶段（阶段二），在此阶段与库里的语素表经行比对。每次比对得出一个语素评分，这个语素评分被输入到语言建模阶段（阶段三）。这些阶段在第二部分有详细阐释。

许多现存的硬件解决方案通过增加并行计算在数据路径和多个并行记忆客服了计算瓶颈。Chandra等人提出了一个ASIC用于观测概率计算和HMM计算。这个解决方案提供了实时计算能力但却要求很高的通信带宽去经行硬件到CPU的通信，因为所有HMM的分数要被传回CPU。Matthew等人是第一批提出用于语音识别Sphinx3.0引见加速器的人之一。Matthew等人同样专注于加速观测概率计算功能，并且通过使用降低了算术运算精度数据格式和声学模型获得巨大的性能提升。Cheng等人实现了一个高斯混合模型（GMM）加速器在一个FPGA上用于声音算分。在这个架构里这个声音模型存储在DRAM里。Li等人提出了低功率架构通过使用FPGA用于观测概率计算。这个解决方案依赖于并行性和多个存储器以提高性能。所有这些解决方案揭示了一个事实那就是在语音识别算法里利用声学建模是最耗费资源的任务之一

在这个任务里，用于对语音识别加速语音建模状态的一个单片机里的声音协处理器（ASP）被提出并被设计来替换软件执行第二阶段的子例程(声学建模)。本设计采用硬件加速的逻辑内存的方法。该设计利用了大多数数据读取在声学模型阶段是静态的非易失性数据。高带宽(宽数据总线)闪速存储器用于存储非易失性声学模型。逻辑在相同的死区实现并且展示高并行性,以消耗提供的高带宽的数据内存。这也大大降低了芯片内存访问。CPU和硬件之间的通信开销是通过传输数据的小块被大大地掩盖了,这样可以管线式通信和计算。设计在一个开源的解码器(CMU Sphinx 3)和广泛使用的商业解码器上评估，为了声音目的地入境的美国地址。ACP显示分数声学模型8倍快于运行在800 mhz的RISC处理器，导致整体解码延迟减少50%并且允许使用更大的声学模型,同时保持实时嵌入式系统的性能。

隐马尔可夫模型(HMM)是一个统计模型在世界各地所使用的大多数语音识别系统。它获得巨大成功的应用程序由于时序结构的建模能力强。在统计模型中基于HMM,语音信号的时序结构被认为是一个双随机过程:一个是隐藏的随机过程中,有限状态马尔可夫链模拟语音信号的统计特性变化;另一个随机过程是观察相关序列的马尔可夫链状态。隐马尔可夫模型可分为离散隐马尔可夫模型(DHMM),连续隐马尔可夫模型(CHMM)和半连续隐马尔可夫模型(SCHMM)。

HMM的出现带来了相当大的进展在语音识别技术在过去的二十年里,和这个进步是明显大于连续语音识别领域的许多词汇扬声器。然而,一些不切实际的假设与摘要仍被视为障碍的潜在有效性。主要的一个是固有的假设连续观测是独立的和相同的分布(IID)在一个国家。主要的一个是固有的假设连续观测是独立的和相同的分布(IID)在一个国家。为了克服经典HMM的缺陷,一个新的统计模型,提出了马尔可夫户型(MFM)。马尔可夫家族模型是建在一个马尔可夫家族组成的多个随机过程的概率之间的关系。HMM的独立的假设条件独立性假设在MFM。它也被成功地应用于语音识别和自然语言处理。演讲者的独立的连续语音识别模型基于MFM实施。

本文组织成三个主要部分。第二部分讨论语音识别理论和现有的工作。第三部分详细描述了硬件体系结构。第四部分讨论了实验结果以及最后第五部分总结了这项工作。

二．背景

本节描述一个基于HMM语音识别系统的工作。

DSP前端

在前端,输入语音被采样,进行光谱分析用于生成特征向量来表示这个语音。这些特征向量生成每隔一段时间12毫秒称为帧。每一个这样的特征向量称为一个观察。DSP前端的输出,因此,是一个序列的特征向量,或观察。

B. 声学建模

每一个口语的语言表示的基本声音叫音素。每个音素的发音受它的上下文影响,即音素之前和之后。因此,提高识别精度的音素通常与邻近的音素形成上下文相关的单位称为三音素。每个三音素由隐马尔可夫模型统计表示,如图2所示。

HMM中的每个状态生成观测概率BjY(t)在公式一中显示。HMM里的每个状态由多元高斯混合模型展现。在一个多元混合物中,向量被用于代表均值和方差的高斯分布的参数。这些向量的维数是由特征的维数管理用来表示从DSP前端传入的语音。反过来,这取决于各种因素,如前端滤波器的类型和窗口函数使用。这些高斯分布的参数由离线训练确定并且是声学模型的一部分。为了避免冗余和减少训练工作,有类似高斯分布的状态合并为一个状态称为语素。在声学建模阶段的识别过程中,语素的观察概率计算通过计算传入的特征向量之间的马哈拉诺比斯距离和语素的高斯分布,如公式一所示，其中Cjm是混合重量,mu;jm是均值,Vjm是从声学模型而来的协方差，Yt是“N”维输入特征向量代表说话的声音。这个计算也称为语素得分。

(1)

C. 语言建模

这个阶段的目的是从语言模型中找出最可能的单词序列,在考虑到观测序列的情况下。一个词序列的概率是由贝叶斯定理给出，如公式二所示。公式（2）中这个词P(O︱W)是在声学建模阶段计算的语素的观测概率。计算出每个HMN状态,在解码过程中。这个词P(W)概率从语言概率模型中获得。

(2)

三．芯片架构

声协处理器(ACP)加速了声学建模、或语素得分部分语音识别算法。

顶层

一个高水平的ACP框图如图3所示。与输入语音波形对应的特征向量被运行在CPU的软件中提取并且传递到ACP /串行外围接口(SPI)总线。ASR存储的声学模型包含语素在on-die闪存阵列。这些模型被用来比较特征向量来确定扬声器的声音。ASR的主要功能是计算并返回一个分数为每个语素,描述语素所发射的特征向量的可能性。ACP核心计划分为三个主要部分,Flash控制器和内存,SPI接口和语素计分单位(SSU)。

B . 语素计分单位

语素得分单元计算Mahalanobis特征向量之间的距离和存储在闪存的语素。特征向量由N维度,其中对英语N是常见的39。每个语素存储在闪存是由一个或多个被称为高斯函数的元素 (通常1 - 8,但1024在这个设计支持)。每个高斯有相同的N维特征向量。每个维度的闪存高斯存储均值和方差。除了N维度,每一个高斯混合存储多个属性包括混合重量。特征向量之间的Mahalanobis距离和每个语素里的高斯然后被添加进日志中域由log_add模块产生语素得分。语素分数然后存储在输出缓冲区被返回到CPU通过SPI总线。控制半导体存储器分为四个score_chunk控制模块。语素输入缓冲区存储到2 k的16位指数语素将被计分。

加载缓冲区的语素指数SPI命令解码器,在接收来自主机CPU指数。SSU数据通路模块执行所有得分计算做的半导体存储器。数据路径根据公式(1)计算senone分数。Ssu数据通路模块由gauss_top和log_add模块和存储矩阵的特征向量变换。gauss_top模块执行单个高斯得分(内部的总和)和log_add模块添加单个高斯分数在对数域产生语素得分。log_add模块通过使用一个查找表估计价值的日志(A B)从对数(A)和(B)。

c .闪存控制器和记忆

Flash控制器从闪存获取语素的声学模型，一次一个高斯。声学模型存储在链表的形式,它允许数量可变的senones /每senone模型和高斯模型数量可变的。链表由每senone两个节点组成。第一个节点的地址从语素得分块生成的ID。第一个节点在内存中跨越两行,一个指向另一个节点的变量数据长度存储语素高斯混合的其余部分。这个删除连续内存读取之间的依赖性,从而改善性能。

d .扬声器调适

特征向量变换矩阵(FVTM)[9]用于调适。FVTM的入口由软件计算并加载到ACP上的FVTM sram。一旦FVTM行读,变换应用于原始特征向量。

e . SPI接口

CPU和ACP之间的接口使用是50 MHz双重SPI总线,或66 MHz SPI总线。SPI在嵌入式平台上是一个常见的接口,并日益成为选择的接口和闪存。SPI四桥解码输入命令的SPI接口,并将它们发送到语素计分单位。

f . CPU和ACP之间的沟通

交流的数据从CPU 到ACP命令来控制加工、和语素 id列表显示语素得分。这些语素的分数然后回到CPU沟通一次，一旦准备好了。ACP还支持命令,允许多个声学模型的使用,以及命令加载特征向量和特征向量变换矩阵。中央处理器发送整个语素 ID列表中数据块的形式,所以,巴拿马运河管理局可以开始计算分数在CPU仍产生其余语素列表。另外,CPU也可以命令ACP得分中的所有语素声学模型。状态位new_data和new_result用来表示如果任何新鲜语素ID列表或新鲜语素分数是可用的。这些位复位时,新鲜的数据或结果是消费。CPU之间的数据流的一个例子,ACP证明在图4。

四、结果

本节描述了实验和结果执行。所有实验进行ACP硅和语音识别软件运行在各种嵌入式cpu。使用的软件是一个商业语音识别译码器和任务是一次性的声音目的地条目(VDE)完整的美国地图地址数据。实验也表现在不同环境条件下观察噪声对解码延迟的影响。解码延迟测量的话语结束的认可。

A.词错误率(WER)和解码延迟

词错误率是错误的单词总数与正确的假设之比。因此,它考虑了词替换,插入或删除。对于语音样本的N词,词错误率在式(3)中定义。

(3)

两个实验观察进行了声学模型在回答WER大小的影响。更大(全部)声学模型的平均每语素提供8高斯函数相对15.4%回答比小(契约)模型,平均每语素2个的高斯函数。ACP提供的加速度允许使用更大的声学模型,同时提供可接受的延迟。ACP提供的百分比减少延迟,对不同的环境条件是图5所示。可以看出,一个更大的延迟降低是在嘈杂的环境下实现的。总的来说,ACP提供了一个嵌入式处理器平均延迟降低大约50%,如图6所示。的平均CPU负载处理器也减少了大约50%如图7所示。

性能、面积和力量

硬件设计使用180 nm标准单元库和65纳米闪存阵列。语素计分单位运行时钟频率为62.5 mhz。闪存的随机读取延迟80 ns和读取数据的宽度为768位,导致1.2 gb / s的带宽。半导体存储器的面积是442000 NAND2门等价物包括数据路径和7 sram的设计。ACP芯片的测量有功功率消耗210兆瓦的声学模型3 k语素和平均每语素 8高斯函数。ACP可以处理多达150 k高斯函数在一个语音帧12 ms。CPU主机之间的通信和ACP通过SPI总线的带宽3 mb / s测量。原始的声学模型得分速度特点是典型的嵌入式RISC处理器和高端桌面处理器运行在2.2 ghz。这个实验的结果图8中可以看到。观察到语音协处理器提供了一个8 x改进/嵌入式RISC处理器运行在800 mhz和提供类似性能的桌面处理器运行在2.2 ghz。SSU体系结构首次在一个FPGA实现和验证DRAM[10]。快照中描述的ACP芯片这项工作如图9所示。

四．结论

这项工作证明的好处嵌入式语音识别系统的硬件加速。获得的结果表明,加速得分的声学模型的语音识别系统声学协处理器可以减少整体解码延迟和大约50%的CPU负载。它还降低了带宽被CPU语素得分了400倍,从1.2 gb / s 3 mb / s。这提供了改进的嵌入式语音识别系统的精度和性能。

隐马尔可夫模型也被成功地应用于自然语言处理。标记单词与正确的词性(单数专有名词和前限定词)是重要的前体进一步自动自然语言处理。Part-of speech(POS)标记基于HMM方法是一个著名的不同方法。连续的词(观测)被认为是独立的, 相同的分布在一个标签(状态)在隐马尔科夫模型标记。

提出了一种改进的HMM。演讲者独立连续语音识别实验结果和词性标注实验结果验证,该模型的效率从94.642%提高到96.214%,这个词错误率降低11.9%。
理论对马尔可夫户型应该进行正确的,和MFM在语音识别和自然语言处理中的应用将在未来进一步研究。

感谢

作者感谢斯蒂芬Ros

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[148567]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

基于隐马尔可夫模型的嵌入式语音识别系统声音协处理器外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章