独立成分分析:算法和应用外文翻译资料

 2022-07-27 10:07

英语原文共 31 页,剩余内容已隐藏,支付完成后下载完整资料


独立成分分析:算法和应用

摘要

神经网络研究以及许多其他学科中的基本问题是找到多变量数据(即随机向量)的适当表示。出于计算和概念简单的原因,该表示通常被寻求作为原始数据的线性变换。换句话说,表示的每个分量是原始变量的线性组合。众所周知的线性变换方法包括主成分分析,因子分析和投影追踪。独立分量分析(ICA)是最近开发的方法,其中目标是非线性数据的线性表示,使得分量在统计上是独立的或尽可能独立。这样的表示似乎在许多应用中捕获数据的基本结构,包括特征提取和信号分离。在本文中,我们介绍ICA的基本理论和应用,以及我们最近的工作。

关键词:独立分量分析,投影追踪,盲信号分离,源分离,因子分析,表示

  1. 引言

想象你在一个房间里,两个人同时说话。 您有两个麦克风,您在不同的位置。 麦克风给你两个记录的时间信号,我们可以用和表示,和是幅度,是时间指数。 这些记录的信号中的每一个是由两个扬声器发出的语

音信号的加权和,其由和表示。 我们可以表示为一个线性方程:

(1)

(2)

其中,,和是取决于麦克风与扬声器的距离的一些参数。 如果现在只使用记录的信号和可以估计两个原始语音信号和将是非常有用的。 这被称为鸡尾酒会问题。 暂时,我们从我们的简化混合模式中省略任何时间延迟或其他额外因素.......

  1. 独立分量分析

2.1 ICA的定义

为了严格定义ICA(Jutten和Heacute;rault,1991; Comon,1994),我们可以使用“潜在变量”统计模型。 假设我们观察个独立分量的个线性混合

(3)

我们现在已经减少了时间指数; 在ICA模型中,我们假设每个混合以及每个独立分量是随机变量,而不是适当的时间信号。 观察值,例如鸡尾酒会问题中的麦克风信号,则是该随机变量的样本。 在不失一般性的情况下,我们可以假设混合变量和独立分量都具有零均值:如果这不是真的,则可观察变量可以总是通过减去样本均值来居中,这使得模型为零均值。

使用矢量矩阵符号而不是像在前面的等式中的和是方便的。 让我们用表示其元素为混合物的随机向量,同样用表示具有元素的随机向量。 让我们用表示具有元素的矩阵。 通常,粗体小写字母表示向量,粗体大写字母表示矩阵。 所有矢量被理解为列矢量; 因此或的转置是行向量。 使用该向量矩阵记法,上述混合模型被写为

(4)

有时我们需要矩阵A的列; 用一个j表示它们的模型也可以写成

(5)

在方程4中的统计模型称为独立分量分析或ICA模型。 ICA模型是生成模型,这意味着它描述了如何通过混合分量的过程生成观察数据。 独立成分是潜在变量,这意味着它们不能被直接观察到。 此外,假设混合矩阵是未知的。 所有我们观察的是随机向量,我们必须使用它来估计和。 这必须在一般假设下完成

ICA的起点是非常简单的假设,即组分是统计学上独立的。 统计独立性将在第3节中严格定义。从下面可以看出,我们还必须假设独立分量必须具有非正态分布。 然而,在基本模型中,我们不假定这些分布是已知的(如果它们是已知的,则问题被大大简化。)为简单起见,我们还假设未知混合矩阵是平方的,但是这种假设有时可以放松,如 解释在4.5节。 然后,在估计矩阵之后,我们可以计算其逆,称为,并且简单地通过以下获得独立分量:

(6)

ICA与称为盲源分离(BSS)或盲信号分离的方法非常密切相关。 “源”在这里是指原始信号,即独立的成分,如鸡尾酒会问题中的发言者。 “盲”意味着我们在混合矩阵上没有什么,如果有的话,并且对源信号做少量假设。 ICA是一种用于执行盲源分离的方法,也许是最广泛使用的方法。

在许多应用中,假设在测量中存在一些噪声(参见例如(Hyvauml;rinen,1998a;Hyvauml;rinen,1999c))将更加现实,这将在模型中增加噪声项。 为了简单起见,我们省略任何噪声项,因为无噪声模型本身的估计是足够困难的,并且似乎足以用于许多应用。

2.2 ICA的模糊性

在ICA模型(4)中,很容易看出以下模糊将成立:

1.我们不能确定独立分量的方差(能量)。

原因是,和都是未知的,通过将的相应列除以相同的标量,可以总是消除源之一中的任何标量乘法器; 见等式 (5)。 因此,我们可以很好地固定独立组合的大小; 因为它们是随机变量,所以最自然的方式是假定每个都具有单位方差::然后矩阵将在ICA求解方法中被适配以考虑这个限制。 注意,这仍然留下了符号的模糊性我们可以将一个独立成分乘以而不影响模型。 幸运的是,这种模糊性在大多数应用中都是微不足道的。

2.我们不能确定独立成分的顺序。

原因是,和都是未知的,我们可以自由地改变(5)中的和的项的顺序,并且调用任何独立分量。 形式上,置换矩阵及其逆可以在模型中替换以给出。 的元素是原始的独立变量,但是以另一个顺序。 矩阵只是一个新的未知混合矩阵,由算法求解。

2.3 ICA的解析

为了以统计术语说明ICA模型,考虑具有以下两个独立分量

均匀分布:

(7)

如在前一节中所同意的选择该均匀分布的值的范围以使平均零和方差等于一,。 和的关节密度在正方形上是均匀的。 这从基本定义可以看出,自由变量的联合密度只是它们的边际密度的乘积(见式):我们需要简单地计算产物。 在图中通过示出从该分布随机抽取的数据点来说明关节密度。

现在让这两个独立的组件混合。 让我们取以下混合矩阵:

(8)

这给了我们两个混合变量,和。 容易计算混合数据在平行四边形上具有均匀分布,如图6所示。注意,随机变量和不再是独立的; 一个简单的方法来看这个问题就是考虑,是否可以从另一个的值预测其中一个的值,例如。 显然,如果达到其最大值或最小值之一,则这完全确定的值。 因此他们不是独立的。 (对于变量和,情况是不同的:从图5可以看出,知道的值不以任何方式帮助猜测的值。

现在估计ICA的数据模型的问题是仅使用包含在混合物和中的信息来估计混合矩阵。 实际上,你可以从图6中看到一个直观的估计的方法:平行四边形的边缘在列的方向上。这意味着,我们可以在原则上通过首先估计ICA模型的关节密度 和,然后定位边缘。 所以,问题似乎有一个解决方案。

然而,在现实中,这将是一个非常差的方法,因为它只适用于具有完全均匀分布的变量。 此外,它将在计算上相当复杂。 我们需要的是一种适用于独立组件的任何分布的方法,并且工作速度快,可靠。

接下来,在开始开发用于估计ICA模型的方法之前,我们将考虑独立性的确切定义。

  1. ICA估计的原理

3.1“非高斯是独立的”

直观地说,估计ICA模型的关键是非零性。 其实,没有非高斯性估计是不可能的,如第二节3.3所述。 这同时可能是ICA研究相当晚的复兴的原因:在大多数经典统计理论中,假设随机变量具有高斯分布,从而排除与ICA相关的任何方法。

中心极限定理是概率理论中的经典结果,它告诉在一定条件下,独立随机变量之和的分布趋于高斯分布。 因此,两个独立随机变量的和通常具有比两个原始随机变量中的任一个更接近高斯的分布。

让我们现在假设数据向量根据等式4中的ICA数据模型分布 ,即它是独立组分的混合物。 为了简单起见,让我们在本节中假设所有独立分量具有相同的分布。 为了估计独立分量之一,我们考虑的线性组合(见等式6); 让我们用表示,其中是要确定的向量。 如果是的逆的行中的一行,则该线性组合实际上等于独立分量之一。 现在的问题是:我们如何使用中心极限定理来确定等于的倒数的一行? 在实践中,我们不能精确地确定这样的w,因为我们不知道矩阵,但是我们可以找到给出良好近似的估计方法。

为了看到这是如何导致ICA估计的基本原理,让我们改变变量,定义。 然后,我们有。 因此是的线性组合,其中权重由给出。 由于偶数两个独立的随机变量的和比原始变量更高斯,因此比任何更高斯,并且当它实际上等于中的一个时变为最小高斯。 在这种情况下,显然的元素中只有一个是非零的。 (注意,这里的假设具有相同的分布)。

因此,我们可以取为最大化的非强度的向量。 这样的向量将必然对应于(在变换的坐标系中)仅具有一个非零分量的。 这意味着等于独立分量之一!

最大化的非高斯性给我们提供了其中一种独立分量。 事实上,在矢量的维空间中的非高斯矩阵的优化情形具有个局部最大值,对于每两个独立分量,对应于和(回想独立分量只能估计到乘法符号) 。 为了找到几个独立的分量,我们需要找到所有这些局部最大值。 这并不困难,因为不同的独立分量是不相关的:我们可以总是将搜索限制到给出与先前不相关的估计的空间。 这对应于在适当变换(即白化)的空间中的正交化。

我们在这里的方法是相当启发式的,但它将在下一节和第二章4.3中看到它有一个完美的严格的理由。

4.2 非高斯性的度量

为了在估计中使用非归一性,我们必须具有随机变量的非零性的定量测量,。 为了简化,让我们假设y居中(零均值),方差等于1。实际上,ICA算法中

预处理的功能之一(将在第5节中讨论)是使这种简化成为可能。

4.21 峰度

非高斯性的经典测量是峰度或四阶累积量。的峰度是经典的定义

(16)

实际上,由于我们假设是单位方差,右边简化为。这表明峰度只是第四矩的归一化版本。 对于高斯,第四力矩等于。 因此,峰度对于高斯随机变量为零。 对于大多数(但不是全部)非零随机变量,峰度是非零的。

峰度可以是正的或负的。 具有负峰度的随机变量称为亚高斯,而具有正峰度的那些称为超高斯。 在统计文献中,也使用相应的表达式platykurtic和leptokurtic。 超高斯随机变量通常具有“尖刺”pdf,即,在零和大的变量值处,pdf相对较大,而对于中间值较小。 一个典型的例子是拉普拉斯分布,其pdf(归一化为单位方差)由

(17)

该pdf在图1中示出。 另一方面,亚高斯随机变量通常具有“flat”pdf,其在零附近相当恒定,并且对于较大的变量值非常小。 一个典型的例子是均匀分布在等式(7)中。

非峰性通常由峰度的绝对值测量。 也可以使用峰度的平方。 这些对于高斯变量为零,对于大多数非强制随机变量为大于零。 有非零的随机变量具有零峰度,但它们可以被认为是非常罕见的。

峰度或者其绝对值已经被广泛用作ICA和相关领域中非概率的度量。 主要原因是它的简单,计算和理论。 在计算上,峰度可以简单地通过使用样本数据的第四矩来估计。 理论分析由于以下线性特性而简化:如果x和x是两个独立随机变量,则它成立

(18)

(19)

其中是标量。 这些属性可以很容易地使用定义证明。

为了在一个简单的例子中说明峰度的优化情形,以及如何通过峰度最小化或最大化找到独立分量,让我们看一个二维模型。 假设独立分量,分别具有都不同于零的峰度值,。 记住,我们假设他们有单位方差。 我们寻求一个独立分量为。

让我们再次进行变换。 然后我们有。 现在,基于峰度的加性,我们有。另一方面, 基于相同的假设,的方差等于1

关于,。 这意味着对的约束:。几何上,这意味着矢量被约束到2维平面上的单位圆。 优化问题现在是:函数的最大值是什么? 在单位圆? 为了简单起见,您可以考虑峰度具有相同的符号,在这种情况下,可以省略绝对值运算符。 这个函数的图形是问题的“优化情形”。

不难显示(Delfosse和Loubaton,1995),最大值正好在向量的一个元素为零而另一个非零的点; 由于单位圆约束,非零元素必须等于或。 但是这些点正好是当等于独立分量之一时的问题,并且问题已经解决。

然而,峰度在实践中也具有一些缺点,当其值必须从测量的样品估计时。 主要问题是峰度对异常值非常敏感(Huber,1985)。 其值可能仅取决于分布尾

全文共18774字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[144493],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。