Application of Mobile Robots by Using Speech Recognition in Engineering

Prof. Dr. Eng. PVL Narayana Rao¹, Er. Pothireddy Siva Abhilash²

¹Professor of Computer Science Engineering, Dept. of Information System, College of Computing amp; Informatics,

Wolkite University, P.O.Box.No.7, SNNPR, Wolkite, Ethiopia, East Africa ²Software Engineer, Staffordshire University, Staffordshire, United Kingdom

Abstract--This Chapter presents an expected technique of speech recognition system and it relates to voice control of electromechanical application, especially voice controlled mobile robots or intelligent wheelchair for handicapped people. Our aim is to interact with the robot using natural and direct communication techniques. The aim of this Chapter is that how the voice can be processed to obtain proper and safe wheelchair movement by high recognition rate. In order to make voice an effective communication tool between human and robots, high speech recognition rate must be achieved. But one hundred percent speech recognition rate under a general environment is almost difficult to achieve. In this Chapter, proposed technique called (Multiregdilet transform) is used for lonely words recognition. Finally use the outputs of neural network (NNT) to control the wheelchair through computer note books and special interface hardware. A successful recognition rate of 98% was achieved.

Keywords-- Artificial Neural Network, Multiridgelet Transform, Multiwavelet Transform, and Interfacing

Circuit.

INTRODUCTION

Since human usually communicates each other by voices, it is very convenient if voice is used to command robots. A wheelchair is an important vehicle for the persons physically handicapped. However, for the injuries who suffer from spasms and paralysis of extremities, the joystick is a useless device as a manipulating tool.

SYSTEM DESIGN

The following 5 voice commands have been identified for various operation of the wheelchair FORWARED, REVERSE, LIFT, RIGHT, and STOP. Chair starts moving in corresponding direction on voicing the command forward in forward direction and stop if the command is stop and so on.

2-1 Data Base of Speech

Every speaker recognition system depends mainly on the data input. The data that used in the system is speech. The speech uttered by using 15 speakers, 8 males and 7 females, 10 of them used for training purpose (5 males, and 5 females) and each speaker utter the same word 5 times.

2-2 Multirighelet Transform

To improve the performance and to overcome the weakness points of the Ridgelet transform, a technique named the Multiridgelet transform proposed. The main idea of the Ridgelet transform is to map a line sampling scheme into a point sampling scheme using the Radon transform, then the Wavelet transform can be used to handle effectively the point sampling scheme in the Radon domain [Minh, et al., 2003].While the main idea of Multiridgelet transform depends on the Ridgelet transform with changing the second part of this transform with Multiwavelet transform to improve the performance and output quality of the Ridgelet transform.

III. NEURAL NETWORK

Artificial Neural Networks (ANN) refers to the computing systems whose central theme is borrowed from the analogy of bdquo;biological neural networks‟. Many tasks involving intelligence or pattern recognition are extremely difficult to automate [Ram Kumar, et al., 2005].

3-1 The Model of Neural Network

We used random numbers around zero to initialize weights and biases in the network. The training process requires a set of proper inputs and targets as outputs. During training, the weights and biases of the network are iteratively adjusted to minimize the network performance function.

GENERAL PROCEDURE OF PROPOSED SYSTEMS

This Chapter contain two part, part one contains the theoretical work (simulation in computer with aid of matlab 7), and the second one puts interface between computer and connected to wheelchair..

1. The Preprocessing: In this section, the lonely spoken word is segmented into frames of equal length of (128 samples). Next the result frames of each word is converted into single matrix (2- dimensional), and this matrix must be power of two. So the proposed length for all word is 16348 (one dimensional), and this length is power of two and can divided into matrix have dimension (128times;128 , and this is 2- dimensional and power of two matrix).
2. Classification: This step begins when getting on 2-D discrete Multiridgelet transform coefficient. The coefficient splitter into two parts, the first part used as a reference data, and the second one used as tested or classified data. The strong method that can be recognized signal simply is neural network that use an algorithm of back propagation training algorithm as a classifier after training the reference data (coefficient) resulting from 2D discrete Multiridgelet transform.
3. Computation FDMWT for 1-D Signal: By using an over-sampled scheme of preprocessing (repeated row), the discrete multiwavelet transform (DMWT) matrix is doubled in dimension compared with that of the input, which should be a square matrix NxN where N must be power of two. Transformation matrix dimensions equal input signal dimensions after preprocessing.

EXPERIMENTAL WORK

The wheelchair that used in this work has three connecting rod (one in front and two in rear of wheelchair) that connect the two sides of wheelchair; each rod has joint in middle this will enable the wheelchair to be portable. The wheelchair is 65 cm (25.5 inches)

语音识别移动机器在工程中的应用

Prof. Dr. Eng. PVL Narayana Rao, Er. Pothireddy Siva Abhilash

PVL Narayana Rao是沃尔凯特大学计算机与信息学院信息系统系计算机科学工程教授，邮政信箱是7号，沃尔凯特民族地区，埃塞俄比亚，东非；Pothireddy Siva Abhilash是英国斯塔福德郡斯塔福德郡大学软件工程师。

摘要--本文介绍了一种语音识别系统的预期技术，它涉及机电应用中的语音控制技术，特别是使用语音控制技术的移动机器和为残疾人开发的智能轮椅。我们做这个研究的目的是使用自然并且直接的交互方式来与机器进行交互。本文研究的是如何在高识别率的条件下对语音进行处理来让轮椅合理并且安全的移动。为了使语音成为人与机器之间高效的交互方式，必须让语音识别的识别率达到很高的水平。但是在常规环境下，语音识别想要达到百分之一百的识别率几乎是不可能实现的。在这一篇文章中，我们将所提出的被称之为多重脊波变换的技术应用到针对孤立词的语音识别当中。最后我们使用神经网络（NNT）的输出，通过笔记本电脑和专用硬件接口来控制轮椅的行动。设计的系统的语音识别的正确率达到了百分之九十八。

关键词--人工神经网络，多重脊波变换，多重小波变换，接口电路

1 研究目的及意义的介绍

因为在通常情况下，人们是通过声音来进行相互交流的，语音作为一种人类最直接、有效、简便的传递信息的方法，可以充分发挥人类交流自然、便捷的特点。通过语音来控制设备，使用声音与机器交流，是人类长期以来的工作方向和追求。所以使用声音来控制机器是非常自然、直接并且方便的。轮椅对残疾人来说是一种非常重要的交通工具，然而，对于四肢痉挛或者是瘫痪的残疾人来说，轮椅的操纵杆作为一种操纵工具是没有办法使用的。所以，使用语音控制技术的智能轮椅的可以抛弃传统的操纵杆控制方式，转而使用语音作为操控手段，对这些病人来说是非常方便并且可以使用的。

2 语音控制系统的设计

语音控制移动轮椅应该满足这样的要求，使用语音控制的智能轮椅通过语音指令的控制来完成相应的操作，以下的5条语音指令已经被定义为轮椅的“向前进”、“向后退”、“向上抬升”、“向右转”和“停下来”这几种操作。当说话人用语音说出“向前进”这个指令时，轮椅就会按照指令的要求往相应的方向前进，而当说话人说出“停下来”这个指令时，轮椅就中止正在进行的动作然后停下来，其他指令的效果以此类推。

2-1 语音数据库

语音控制移动轮椅的核心功能是语音识别，而每个说话人语音识别系统都主要依赖于数据的输入，而被用于语音识别系统的数据是语音数据。在这次实验中，我们一共使用了15个人来说出语音指令，包括8个男性和7个女性，其中10个人说出的语音指令用于训练目的（分别是5个男性和5个女性说出的语音指令），每个说话人将同一个语音指令重复5次。

2-2 多重脊波变换

为了提高脊波变换的性能并且克服脊波变换的缺点，一种被称之为多重脊波变换的技术被提了出来。脊波变换的主要思想是利用拉顿变换将一个线性采样方案映射成一个点采样方案，这样一来我们既可以利用小波变换有效地处理拉顿域中的点采样方案。多重重脊波变换的主要思想是通过多重小波变换改变脊波变换的第二部分来提高脊波变换的性能和输出质量。

3 神经网络

人工神经网络（ANN）指的是一种核心思想是仿照生物神经网络的逻辑而设计开发的计算网络，它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。模式识别是对表征事物或现象的各种形式的信息进行处理和分析，来对事物或现象进行描述、辨认、分类和解释的过程。很多与智能或模式识别相关的任务都极难实现自动化。而人工神经网络的应用可以很有效的解决这些问题。

3-1 神经网络模型

神经网络是一种运算模型，由大量的节点之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。我们使用在0这个数周围的随机数来初始化神经网络中的权重和偏差。训练的过程需要一系列合适的输入和作为输出的目标。在训练的程中，需要对网络的权值和偏差进行迭代调整，目的是使神经网络的性能函数最小化。

4 预期系统的一般过程

本章主要包括两个部分的内容，第一个部分的内容是理论工作（也就是借助MATLAB实现语音信号处理的计算机仿真），第二个部分的内容是设置电脑与轮椅之间的接口。

4-1 语音信号预处理

在语音信号进行预处理的过程中，说话人说出的孤立词语音信号被分成等长的语音帧（128个样本）。然后将每个孤立词经过分帧而得到的语音帧转换成单个矩阵（二维矩阵），这些矩阵的行列数必须是2的幂级数。所以建议每个单词的长度是16348（一维），这是因为这个长度是2的幂级数，同时可以把这样一个长度的一维矩阵的长度变为一个128times;128的二维矩阵的维数。

4-2 分类

脊波变换作为一种新的多尺度分析方法比小波更加适合分析具有直线或超平面奇异性的信号,而且具有较高的逼近精度和更好的稀疏表达性能。分类是从获得二维离散多重脊波变换系数开始的。多重脊波变换的系数分为两部分，第一部分的参数用作参考数据，第二部分的参数用作测试或分类数据。对二维离散多重脊波变换产生的参考数据（也就是系数）进行训练后，采用反向传播训练算法作为分类器的神经网络是一种简单的信号识别方法。

4-3 一维信号计算快速小波变换

通过使用过采样的预处理方案，离散多小波变换（DMWT）矩阵的维数比输入矩阵的维数增加了一倍，这个矩阵应该是一个方形矩阵nxn，其中n必须是2的幂。变换矩阵的维数等于预处理后的输入信号矩阵的维数。

5 实验工作

在这次实验中使用的轮椅有三根连接轮椅两侧的连杆（一根在轮椅前面，两个在轮椅后面）；每根杆的中间都有接头，这将使轮椅便于携带。这个轮椅宽65厘米（25.5英寸），长127厘米（50英寸），测量时后脚轮完全伸到椅子后面。轮椅托盘的前部离地面76厘米（30英寸），座椅底部离地面51厘米（20英寸）。图（1）中所示的机器轮椅由BEG公司（英国公司）制造，带有操纵杆。单台轮椅重量为17千克，双电机实验回路轮椅重量为20千克。实验中坐在轮椅里并伴随着实验的人的体重是65公斤。坐在轮椅里的人和轮椅一共重85公斤。对于坐在轮椅内并能提供相同工作和功能的人而言，轮椅可以加强的最大重量约为80千克，而对于坐在轮椅内的人而言，轮椅的最大重量约为100千克。我在轮椅上做了实验，让人坐在里面，它的重量是65千克，这个轮椅如图（2）所示，这个实验给出了很好的结果，如表（5）所示。从这个表中我们可以得出结论，提出的方案比以前已有的方式更好。

5-2轮椅电池

设计中使用的电池是湿电池。湿电池利用铅和硫酸之间的化学反应产生电能。由于电池需要用蒸馏水填充，所以它们需要更高的维护率，但比凝胶或吸收玻璃垫的电池更。

5-3 轮子

轮椅有四个轮子，两个后轮和两个脚轮，两个脚轮挂在前面的轮椅底座上，所有轮子直径相同（18厘米）。

驱动轮位于底座两侧的后部，允许轮椅根据语音命令转动，车轮直接啮合到齿轮系，齿轮系通过每个车轮和螺母中的两个凹槽将扭矩从电机传递到车轮。

5-4电动机

电动机是把电能转换成机械能的一种设备。它是利用通电线圈产生旋转磁场并作用于转子形成磁电动力旋转扭矩。电机可以说是移动机器平台最重要的部分之一。动力不足的电动机效率低下，浪费了车载电池已经有限的电力供应，而尺寸过小的电动机在关键时刻可能会出现扭矩不足。还必须考虑电机的最佳转速和可用的速度范围。来自电机轴的输出转速太高将导致机器人以快速，无法控制运行的速度。输出太低，机器将无法达到合适的速度来满足用户的需求。电动机的旋转输出也在性能中起作用，因为如果扭矩不足，则在某些情况下可能不会发生运动。所以，需要仔细考虑来确定应用于这个平台的电动机。

6 向原始轮椅添加硬件组件

添加到原来的轮椅上的改装除了以前设计的操纵杆（根据人的残疾特别是对于患有痉挛和四肢瘫痪的残疾人来修改轮椅功能）使其物理设计更加实用。它是各种物理硬件和计算软件的组合，它们将轮椅的子系统混合在一个单元中工作。在硬件组件方面，添加到轮椅的主要组件是接口电路，麦克风（耳机麦克风）和笔记本电脑（主机）。

6-1 耳机

当使用自动语音识别功能（ASR）时，使用高质量的麦克风是非常有必要的。在大多数情况下，桌面麦克风并不能完成这项工作，因为桌面麦克风会接收更多的环境噪声，这给自动语音识别带来了困难。手持麦克风也不是最好的选择，因为它们总是不够灵活，虽然它们确实降低了环境噪声，但在需要经常更换扬声器或不经常与识别器通话（不带耳机的情况下）的应用中，手持麦克风是最有效的。目前为止最好的选择是耳机麦克风。它可以将周围的噪音降到最低，同时可以让你一直把麦克风放嘴边。无论带不带耳机的头戴式麦克风都是可以的，在这次设计中，我们使用耳机类型是Fancong FC-340。

6-2 继电器驱动接口电路

继电器是一种电控制器件，是当输入量（激励量）的变化达到规定要求时，在电气输出电路中使被控量发生预定的阶跃变化的一种电器。它具有控制系统（又称输入回路）和被控制系统（又称输出回路）之间的互动关系。通常应用于自动化的控制电路中，它实际上是用小电流去控制大电流运作的一种“自动开关”。继电器的传输主要用于驱动更高功率的设备，比如电机和螺线管。如果需要的话，继电器可以由单独的电源供电，因此，举个例子，12V工作电压的动机可以由笔记本电脑的并行端口控制。自由二极管可用于保护继电器触点，并在继电器关闭时防止晶体管损坏。

控制信号（并行端口的输出信号）和电机之间的中间电路的组件包括继电器，晶体管，二极管，电容器，电阻器和缓冲器74ABT245的，如图（3）和（5）所示，这个部分用于保护并行端口，防止出现任何预期的损坏，74ABT24高性能BiCMO器件将较低的静态和动态功耗与高速和高输出驱动相结合，如图（6）所示。

74ABT245设备是一个八进制收发器，在发送和接收方向上具有非反相的三态总线兼容输出。控制功能的实现要使外部时间达到最小化。该设备具有一个输出使能输入，便于级联，以及一个方向输入，用于方向控制。

7 实验结果仿真

7-2 实验结果

为了检验设计的算法的性能，通过使用不同类型的语音命令进行了一些实验测试，如（前进、后退、向右转等）

7-2-1 直线路径

轮椅的直线路径可以通过单个孤立的语音命令“前进”和“后退”获得，根据用户推荐的指定方向，图（6）显示轮椅的直线运动，轮椅的运动在x轴的正方向或负方向上，轮椅的后轮（即驱动轮）具有相同的旋转方向时（两个轮子同时顺时针或逆时针旋转）。

图（7）显示了轮椅从图X轴所示的指定路径的误差路径。

7-2-2 曲线路径

轮椅的曲线路径可以通过单个单独孤立的语音命令“向左转”或“向右转”获得，根据用户推荐的指定方向，图（13）显示了使用语音命令“向右转”时，顺时针旋转轮椅的运动轨迹。

这些语音命令可以实现轮椅以曲线路径运动，使用“停止”语音命令可以让轮椅的转弯动作停下来。

8 工作总结

在本文中，我们提出了一种使用孤立词语音识别系统来控制轮椅的方法，使该技术在移动机器控制中的实时操作更加有效。本文提出了一种二维多重小波变换的快速计算方法，该方法验证了多重小波的潜在优点，并在计算复杂度较低的情况下得到了很大的改善。

参考文献

Cook S., 2002, ' Speech Recognition How To ', Revision v2.0 April 19, 2002.
Hosseini E., Amini J., Saradjian M.R., 1996, 'Back Propagation Neural Network for Classification of IRS-1D Satellite lite Images', Tehran University, 1996.
Hrnčaacute;r M., 2007, ' Voice Command Control For Mobile Robots', Department of Control and Information Systems Faculty of Electrical Engineering, University

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

语音识别移动机器在工程中的应用外文翻译资料

Wolkite University, P.O.Box.No.7, SNNPR, Wolkite, Ethiopia, East Africa ²Software Engineer, Staffordshire University, Staffordshire, United Kingdom

INTRODUCTION

SYSTEM DESIGN

2-1 Data Base of Speech

2-2 Multirighelet Transform

3-1 The Model of Neural Network

您可能感兴趣的文章

登录

Wolkite University, P.O.Box.No.7, SNNPR, Wolkite, Ethiopia, East Africa 2Software Engineer, Staffordshire University, Staffordshire, United Kingdom

INTRODUCTION

SYSTEM DESIGN

2-1 Data Base of Speech

2-2 Multirighelet Transform

3-1 The Model of Neural Network

您可能感兴趣的文章

Wolkite University, P.O.Box.No.7, SNNPR, Wolkite, Ethiopia, East Africa ²Software Engineer, Staffordshire University, Staffordshire, United Kingdom