

英语原文共 666 页,剩余内容已隐藏,支付完成后下载完整资料
第2章 统计、概率和噪声
统计和概率的方法被广泛用于数字信号处理领域,可以描述信号以及产生信号的过程。例如,DSP最初被用来降低获得的信号中的干扰、噪声以及其他无用元素。这些可能是被测信号中固有的,因为数据采集系统本身不理想,也可能是在某些数字信号处理操作过程中产生的。用统计和概率的方法可以对这些不确定性特点进行测量和分类,它是消除这些干扰因素的第一步。本章将介绍统计和概率中最重要的概念,并强调其在信号采集过程中的应用。
2.1信号与曲线
信号是对一个参数怎样与另一个参数相关的一种描述。例如,在模拟电路中最常见的信号类型是随时间变化的电压。因为两个参数的取值范围都处于一个连续的区间内,所以把这种信号称为连续信号。把这种信号送入一个模数转换器将导致两个参数都被量化。例如,假设这是种转换精度为12位,抽样率为1kHz的模数转换。电压被压缩成4096(212)个可能的二进制值,而时间只能被定义为1ms的增量。通过这种方法得到的参数被量化的信号被称为离散信号或者数字信号。大多数情况下,连续信号存在于自然界中,而离散信号存在于计算机里(尽管以上两种情况都有例外)。也可能存在一个参数是连续的而另一个参数是离散的信号。因为这种混合信号非常不多见,所以它们没有被赋予特别的名称,而且这两个参数的性质必须被详细地说明。
图2-1给出了两个离散信号,它们]可能存在于一个数字采集系统中。图中纵轴可能代表电压、光强、声压或者无限多个其他的参数。因为我们不知道具体情况中它代表什么,所以就给它一个通用的标记:幅值。这个参数也有其他一些名称:Y轴、应变量、值域和纵坐标。
横轴代表信号的另外一个参数,名称为:X轴、自变量、定义域和横坐标。目标信号横轴上通常的参数是时间,当然,在具体的应用中也可能是其他参数。例如,一个地球物理学者可能需要测量环绕地球表面一周固定深度处的岩石密度。通常情况下,我们会把横轴简单地称为:抽样序号。如果这是一个连续信号,就会用另一组名称,比如:时间、距离、X等。
形成一个信号的两个参数通常不能互换。Y轴上的参数(应变量)被称为X轴上参数(自变量)的函数。也就是说,自变量描述的是抽样是怎样或在什么时间发生的,而应变量则是一个实际的测量。给定一个X轴上的具体值,我们总能在Y轴上找到相对应的值,但反过来通常不行。
特别注意到“域”这个词,这是一个在DSP中泛使用的概念。比如,一个信号把时间作为自变量(横轴上的参数),它就被称作时间域。DSP中另一个常见的信号用“频率”来作为自变量,从而有了一个术语:频域。同样地,信号使用距离作为自变量的被称作空间域(距离是空间的一种度量)。简单来说,横轴上参数的类型就是信号所在的域。那么当X轴被标记为一个通用的名称,比如抽样序号时又怎样理解呢?作者通常认为这些信号处在时间域内。这是因为获得信号的最通常方法是在时间轴上等间隔抽样,况且它再也没有另一个具体的叫法了。
尽管图2-1中的信号是离散的,但是它们在图表中却被表示成连续的。这是因为如果每个抽样点都用分立的标记来描绘的话,那么点数就太多了,以至于不能分辨。在描绘较短信号的图表中,假设抽样点不多于100个,每个单独的样点都会被展现出来。连接各个样点的连续线不一定非得画出来,这取决于作者想让读者看怎样的数据。比如,一条连续线能反映在抽样点之间发生了怎样的变化,或者只是帮助读者在繁杂的数据间找到种趋势。关键是,可以通过检查横轴上的标记,来判断你正在处理的是一个离散信号还是一个连续信号。而不要过度依赖
绘图员所画出的曲线。
变量N在DSP中很常用,代表一个信号的抽样点总数。例如,图2-1中的信号N=512。为了保证数据的有序性,每个抽样点都被赋予一个抽样序号或者索引号。它们就是沿着横轴出现的数字。通常有两种为抽样点分配序员的标记方法。在第一种标记法中,抽样点索引从1到N(例如,1到512)。在第二种标记法中,抽样点索引从0到N-1(例如,0到511)。数学家通常使用第一种方法(1到N),而DSP中通常使用第二种方法(0到N-1)。本书采用第二种标记方法。不要把它当成一个无关紧要的问题。它很可能在工作过程中使你迷感。请当心它!
2.2 平均值和标准偏差
平均值,通常以小写希腊字母mu;来表示,是统计学家对信号平均值所用的术语。正如你所想的:把所有的抽样点加在一起,并除以N。用数学表达式表达为
式(2-1)
信号平均值的计算。信号从知到XA-1,i是遍历所有这些值的索引,mu;是平均值。
也就是说,把信号的抽样值xi相加,i的值从0到N-1。之后把所得的结果除以N即可。此公式和以下这个公式完全相同:mu;=(x0 x1 x2 ... xN-1)/N。如果你还不知道符号Sigma;(大写希腊字母希格玛)是用来表示求和的,请仔细学习这个公式,并把它与表2-1中的程序相比较。这种求和的形式在DSP中非常常见,你需要好好理解这种表示方法。
在电子学中,平均值通常称作DC(直流)值。相应的AC(交流)代表的是信号在平均值上下的浮动。如果信号是一个简单的重复出现的波形,比如正弦波或者方波,那么它们的大小范围可以用峰峰值来描述。不幸的是,大多数实际信号并不能明显显示出一个确定的峰峰值,而是具有随机特性,比如图2-1中的信号。在这些情况下一个更广义的方法应被使用,它叫做标准偏差,用符号sigma;表示(即小写的希腊字母希格玛)。
表达式|xi-mu;|描述的是第i个抽样点与平均值的偏差。信号的平均偏差是把所有抽样点的偏差加起来,然后除以总数N。请注意我们在进行求和之前会先对每个偏差求绝对值,否则,正项和负项会相互抵消使均值为零。平均偏差提供的是所有抽样点与平均值的典型差距。为了方便和直接,平均偏差几乎从不在统计中使用。这是因为它与信号操作的物理特点不是很匹配。大多数情况下,重要的参数不是距离平均值的偏差,而是距平均值的偏差所表示的功率。比如,电路中引人了多个随机噪声信号,所导致的总噪声等于各个噪声功率的叠加,而不是其幅值的叠加。
标准偏差与平均偏差很相似,所不同的是做平均的时候是用功率值取代了幅度值。这是通过在求平均前对每个偏差值先求平方得到的(请记住,功率正比于电压的平方)。最后,再利用平方根来消除最初平方的影响。标准偏差的表达式定义为
式(2-2)
信号标准偏差的计算。x代表信号值,mu;代表式(2-1)定义的平均值,N是抽样点的个数,sigma;是标准偏差。
等效表达式为:。注意到平均是通过除以N-l而不是N求得的。这是下一部分我们将要讨论的这个公式的一个细微的特点。表达式sigma;2在统计中经常出现,他被叫做方差。标准偏差衡量的是信号偏离平均值有多远。方差代表的是这种偏离的功率。另外一个你应该非常熟悉的表达式是RMS(均方根)值,它在电子领域中广泛使用。按照定义,标准偏差只能描述信号的直流特性,而RMS值则可以同时描述交流和直流特性。如果一个信号没有直流分量,那么它的RMS值和标准偏差应该是相等的。图2-2显示的是一些常见波形的标准偏差和峰峰值之间的关系。
表2-1列出了一个利用式(2-1)和式(2-2)计算平均值和标准偏差的程序。本书中给出的程序是为了通过最直接的方式来表达算法,所有其他因素都被放在第二位对待。好的编程技术为了使程序的逻辑更简单,会忽略一些东西。例如,使用一个简单版本的BASIC语言,其中包含行号,唯一允许使用控制结构的是FOR-NEXT循环,这里没有输入输出的表达,等等。这里需要把这些程序看做是理解DSP中使用的公式的方法。如果你理解不了其中一个,可能另一个会对你有所帮助。在BASIC中,一个变量后面的%符号表明它是一个整型数。其他的变量都是浮点型的。在第4章会讨论这些变量类型的细节。
计算平均值和标准偏差的方法在许多应用中都足够使用了,然而,它也有两个不足。首先,如果平均值比标准偏差大很多,那么式(2-2)会导致两个值非常接近的数相减。这将会导致计算中出现严重的舍入错误,这是第4章会详细讨论的一个主题。第二,通常当获得新的样本点并将其加入到信号中时,需要重新计算平均值和标准偏差。我们把这种类型的计算称为:连续统计。当在连续统计中使用式(2-1)和式(2-2)的方法时,需要所有抽样点都参与新的计算。这是对计算能力和内存的一个低效率的应用。
可以通过改进式(2-1)和式(2-2)来得到另一个计算标准偏差的公式,从而解决以上的问题
或使用简化符号,
式(2-3)
连续统计中标准偏差的计算。这个公式的计算结果和式(2-2)相同.但却有很小的舍入噪声和很好的计算效率。信号通过3个参数来表达: N,抽样点总数; 和,这些抽样点的和,平方和,即各抽样点平方的和。随后,平均值和标准偏差就可以通过这3个参数来计算。
当移进信号时,运行记录会记住3 个参数: 已经处理的抽样点数,这些抽样点的和,这些抽样点的平方和(对各抽样点求平方然后相加)。当一些数量的抽样点已经被处理之后,只是用这3 个参数的当前值就可以很有效地计算出平均值和标准偏差。表2-2 显示的是通过这种方法计算平均值和标准偏关的程序,它考虑了每一个新来的抽样点。这就是手持计算器计算一系列数据统计值所使用的方法。每当你输入一个数据并按下Sigma; (求和) 键时,以上3 个参数就会被更新。这样在需要时我们无需重新计算所有的抽样值就能得到平均值和标准偏差。
在结束平均值和标准偏差这部分之前,还要介绍另外两个表达式。在一些情况中,平均值表示的是已经测量的结果,而标准偏差代表的是噪声和其他影响。在这些情况下,标准偏差本身并不重要,只是在用来和平均值作比较时很重要。这就引出了以下表达: 信噪比(SNR),
它等于平均值除以标准偏差。另一个表达式也经常被使用: 变异系数(CV),它被定义为标准偏差除以平均值,再乘以百分之百。例如,一个信号(或者另一组测量值) 的CV值是2%.那么它的SNR值就是50。好的数据意味着其具有较大的SNR值和较小的CV值。
2.3 信号与基本过程
统计是解释数字化数据(比如采集的信号) 的一种科学。相比之下,概率被用在DSP 中以帮助理解产生信号的过程。尽管它们非常相关,然而采集信号和基本过程之间的区别是许多DSP技术的关键所在。
例如,设想通过将一枚硬币投掷1000次来产生一个1000点的信号。如果硬币正面朝上,相应的抽样点被赋值为1; 如果是反面,则抽样点为0。产生这个信号的过程有个精确的平均值0.5,这取决于每种可能性出现的概率: 50%正面,50%反面。然而,实际中的1000 点信号不可能拥有精确的平均值0.5。在每次信号产生过程中的随机性将使得0 和1出现的次数略有不同。基本过程的概率是恒定的,但是所获得信号的统计值在每次实验重复进行时会有所改变。这种实际数据中出现的随机不规律性被称为: 统计波动、统计起伏或者统计噪声。
这就带来了一点困难。当你看到术语平均值和标准偏差时,怎么能知道作者所指的是一个实际信号的统计特性,还是产生这个信号基本过程的概率呢? 很不幸,唯一的方法是通过上下文来判断。当然,并不是所有在统计和概率中使用的词语都是这样。比如,直方图和概率质量函数(2.4 节将会讨论) 是名字不同的相同概念。
现在,回到计算标准偏差的式(2-2)。正如前面提到的,这个公式在计算平方偏差平均值时除以N-1,而不是除以N。为了理解为什么会这样,设想你要得到某个产生信号的过程的平均值和标准偏差。为此,你从过程中得到一个N个抽样点的信号,利用式(2-1)来计算信号的平均值。然后你可以把它当做基本过程平均值的估计值,然而,你知道由于统计噪声这里会出现差错。特别地,对于随机信号,N 点的平均值和基本过程的平均值之间的典型差错,满足以下公式:
式(2-4)
通过使用抽样点个数N来计算基本过程平均值典型差错。参数sigma;是标准偏差。
如果N比较小,计算出的平均值的统计噪声将会很大。也就是说,你没有充足的数据来描述这个过程。N的值越大,误差越小。强大数定律是概率理论中的一个里程碑,它保证了当N趋近于无穷大时误差会变为零。
下面,我们将计算获得信号的标准偏差,并把它作为基本过程标准偏差的一个估计。这存在一个问题。当你使用式(2-2)计算标准偏差之前,你需要知道平均值mu;。然而,你不会知道基本过程的平均值,而是只知道N点信号的平均值,由于统计噪声的影响,它将会包含一个误差。这个误差将会减小计算出的标准偏差。为了对此进行修正,把N换成了N-1,如果N很大,差别不会很明显。但如果N 较小,这种替换将能提供对基本过程标准偏差更准确的估计。换句话说,式(2-2)是对基本过程标准偏差的一个估计。如果我们在公式中除以N,得到的将是采集信号的标准偏差。
作为对这个观点的解释,请看图2-3 中的信号,请问: 这些信号的变化是统计噪声造成的结果呢,还是基本过程改变的结果?让你自己相信这些变化对于随机变化来说太大,它们肯定和基本过程相关这一观点并不困难。通过这种方式改变自己特性的过程被称为不稳定态。相比而言,之前在图2-1中显示的信号是由一个稳定过程产生的,其变动的结果完全出自于统计噪声。图2-3b 显示了非稳态信号的一个常见问题: 缓慢变化的平均值干扰了标准偏差的计算。在此例中,信号的标准偏差在一个较小的间隔内为1。但是,整个信号的标准偏差是1.16。这种误差可以通过把信号分成多个小段,然后计算每个小段各自的统计值来消除。如果需要,可以对每个
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[466597],资料为PDF文档或Word文档,PDF文档可免费转换为Word
