偏最小二乘回归:一个教程外文翻译资料

 2022-08-22 10:08

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


186(1986) l-17 爱思唯尔科学出版社,阿姆斯特丹-印刷在荷兰

偏最小二乘回归:一个教程

PAUL GELADI*a and BRUCE R. KOWALSKI Labomtory for Chemometics and Center for Process Analytical Chemistry, Department of Chemistry, University of Washington, Seattle, WA 98195 (U.S.A.) (Received 15th July 1985)

摘要

提供了一个关于偏最小二乘(PLS)回归方法的教程。概述了其他回归方法的不足之处,提出了偏最小二乘回归方法来弥补这些不足。给出了一种预测偏最小二乘回归的算法,并给出了实际应用的注意事项。

偏最小二乘回归方法(PLS)在化学的许多领域得到了重视,分析、物理、临床化学和工业过程控制可以受益于该方法的应用。在偏最小二乘法的开创性工作是在六十年代后期由霍尔德在经济指标领域。使用偏最小二乘法的化学应用是由 s.Wold 和 h.Martens 小组在 70 年代后期开创的,在此之前 Kowalski 等人进行了初步应用[11。尽管有大量 的文献从这些群体中出现,大多数描述 PLS 的文章给出的算法和理论是不完整的,往往难以理解。最近的两篇文章[2,31]表明,PLS 是更经典的多线性回归回归和主成分回归方法的一个很好的替代方法,因为它更加健壮。强壮意味着当从总体中提取新的标定样本时,模型参数变化不大。

这篇文章是作为一个教程。读者可参考线性代数[4,51],如果需要的话。目前关于 PLS 的两篇最完整的文章是 s.Wold 等人的[4,61]。这里将使用科瓦尔斯基[6]中使用的术语。此外,所有向量都是列向量。将相应的行向量指定为转置向量。符号要尽可能严谨。 表 1 列出了使用的符号。关于多元线性回归、主成分分析和主成分回归的段落被包括在内,因为它们对于理解 pls 是必要的。它们并不代表对这些问题的完整处理。

地址:化学计量学组,有机化学系,于默奥大学,s-90187乌梅尔,瑞典。

0003-2670 / 86 / $03.5001986 Elsevier Science Publishers b.v.

图表1

符号

II II弗里贝尼乌斯或欧几里德范数

i 用于计算样本(对象)的虚拟索引

j 计算独立(x)变量的虚拟索引

k 计算相关(y)变量的虚拟索引

h 用来计算成分或因子的虚拟索引

n 校正(训练)组的样本数目

m 独立(x)变量的个数

p 相依(y)变量的个数

a 使用的因子数(等级 x)

r 预测(测试)集中的样本数量

x 独立变量(尺寸 mtimes;1)特征的列向量

y 因变量特征的列向量(大小为 ptimes;1)

X 自变量特征矩阵(大小 ntimes;m)

Y 因变量的特征矩阵(大小 ntimes;p)

b (尺寸为 mtimes;1)的柱

B 灵敏度矩阵的 MLR 方法(规模 mtimes;p)

X 块分数的列向量,因子 h (大小为 ntimes;1)

X 块载荷的行向量,因子 h (尺寸1times;m)

X 块的一行权重向量,因子 h (大小为1times;m)

T X 分数矩阵(大小 ntimes;a)

X 载荷矩阵(尺寸为 mtimes;a)

Y 块得分的列向量,因子 h (尺寸 ntimes;1)

Y 区块载荷的行向量,因子 h (尺寸1times;p)

U Y 分数的矩阵(大小 ntimes;a)

Y 载荷矩阵(尺寸 atimes;p)

一个秩1矩阵,th 和 pi 的外积(尺寸 ntimes;m)

减去 h 分量(尺寸 ntimes;m)后 x 的残余量

减去 h 分量后 y 的残留量(ntimes;p)

一个偏最小二乘回归分量的回归系数

N 大小的单位矩阵

M 大小的单位矩阵

Calibration (training) and prediction (test) steps

W; l T P

校正 ( 训练 ) 及预测 ( 测试 ) 步骤

化学分析通常包括两个步骤。首先,研究一种方法或工具的特性,并试图找到其行为的模型(模型是两组变量之间的关系 yf(x),通常称为相依 y 和独立 x)。这是校准或训练步骤。用于此步骤的数据集称为校准或训练集。模型参数称为回归系数或灵敏度。第二步是获得一个或多个样本的独立变量。这些与敏感性一起用来预测因变量的值。这是预测或测试步骤。此步骤中使用的数据集是预测或测试集。

对于相依变量块和自变量块,分别引入了相依块和独立块的概念。

变量的均值居中和缩放

在建立模型之前,为了使计算更加简单,可以方便地对校准集中的数据进行裁剪。为了便于解释,每个变量的值都采用以均值为中心的形式。每个变量的平均值从校准集中计算,然后从每个对应的变量中减去。在文本的其余部分,所有的变量,无论是相关的和独立的,都被假定为均值为中心。

也有不同的方法来扩展变量。应该指出的是,因变量和独立变量可以不同的比例,因为敏感性吸收了比例方面的差异。基本上有三种处理变量的方法。其中之一是,当一个块中的所有变量都以相同的单位测量时,不需要缩放,就像在规格测量中那样。在第二种情况下,当一个块中的变量以不同的单位(例如,ppm,%,km)测量时,使用方差缩放;缩放是通过将某个变量的所有值除以该变量的标准变差来完成的,因此每个变量的方差都是一致的。第三,一个人可以决定某些变量是不重要的,因此不应该影响模型很多,所以他们被赋予较小的权重。

图1 给出了缩放和平均中心的示意图。在进一步的文本中,假定所有变量都具有某种类型的缩放,以被认为最合适的为准。

多功能线性回归

多重线性回归(MLR)问题可以说明如下。测量 m 变量和变量 y 的特征,目的是建立它们之间的线性(或一阶)关系。这在数学上可以表示为:

(1a)

图一 数据预处理。每个变量的数据由一个方差条及其中心表示。(A)大多数原始数据都是这样的。(B)仅中间定心后的结果。(C)只结果后方差缩放。(D)结果后,均值中心和方差缩放。

(1b)

(1c)

在方程式L(a)中。,称为自变量, y为因变量, 为灵敏度, e为误差或残差。

在方程式L(c)中。, y是标量, b是列向量, x是行向量。

方程 1 仅描述了一个样本的多线性依赖关系。如果有 n 个样本,可以写成列向量 y, b 保持不变,而向量 构成矩阵 x 的行:

(2)

为了更好地理解这些矩阵方程,它们也以图形形式给出:

在这种情况下,n 是样本数,m 是自变量数。

现在可以区分三种情况。

(1) m>n变量多于样本。在这种情况下,b 有无限多个解,这些解都符合这个方程。这不 是我们想要的。

(2) m=n.样本数和变量数是相等的。这种情况在实际情况中可能不经常遇到。然而,在 x 具有满秩的条件下,给出了 b 的唯一解。这使我们能够写作:

(3)

E 称为残差向量,在这种情况下,它是零的向量:0。

(3)m<n.样本多于变量。这样就不能给出 b 的精确解。但是可以通过最小化下面公式中剩 余矢量 e 的长度得到解:

(4)

最常用的方法叫做“最小二乘法”,最小二乘法是:

(5)

(完整的解释可在其他地方找到[5,7,81]方程 5 暗示了 MLR 中最常见的问题:xrsquo;x 的倒数 可能不存在。共线性、零行列式和奇异性都是同一个问题的名称。这种情况有一个很好的描述[91]。

在这一点上,似乎总是有至少与变量一样多的样本,但是还有其他方法来表述这个问题。其中之一是删除案例中的一些变量。有许多方法可以选择删除哪些变量[7,8]。

具有多个因变量的多个线性回归

一个流行的误解是,MLR 只可能为一个因变量。这种情况几乎总是出现在教科书中。 此外,大多数软件包以这种方式运行 MLR。对于更多的因变量,扩展 MLR 是很容易的。这里给出的例子是两个变量,但是扩展到两个以上是很简单的。

假设有两个因变量, 和。在这种情况下,一个人可以简单地写两个 MLR 并找到两个灵敏度向量,和:

(6)

但是我们可以把 和 并排放在一个 ntimes;2 矩阵中,对 和 以及 和 做同样的事情。所以能得到:

(7)

其中 ,和。 2-p 因变量的一个更图形化的表示是

这是将在以后的案文中提到的一般情况。

摘要: MLR

  • 对于 m gt; n ,除非删除独立变量,否则没有唯一的解。
  • 对于 m = n ,有一个唯一的解。
  • 对于 m lt; n ,最小二乘解是可能的。对于 mn和 mn ,矩阵求逆可能会引起问题。
  • MLR可能有一个以上的因变量。

主成分分析:NIPALS 方法

主成分分析 (PCA) 是一种将秩为 r的矩阵 x写成秩为 1的 r矩阵之和的主成分分析:

(8)

或以图示方式说明:

(秩是一个数字,它表达了一个矩阵的真正的维数。)这些秩为 1 的矩阵 都可以写成两个向量的外积,一个得分和一个加载:

(9)

或者等效的rsquo;(是由 作为行,T 作为列)或者图形化:

为了说明 和 的意思,图 2A 中示出了二维平面上两个变量的例子。扩展到更多的维度是容易的,但很难在纸上显示。对于图 2A 中的例子,主分量是图 2B 中所示的数据点的最佳拟合线。 最佳拟合意味着 3c1 和;y~残差的平方和最小。这也是两条回归线的平均值。它从-infin;到 infin;。是一个 1times;2 的行向量。它的元素, 和,是方向余弦,或单位向量沿主分量轴的投影

图二

两个变量情况下的一个主分量:(a)载荷是方向向量的角余弦;(b)分数是样本点(l-6)在主分量方向上的投影。请注意,数据是以均值为中心的。

情节。分数向量 是一个 n1 列向量。它的元素是主分量线上各点的坐标(图 2B)。对于这个例子, 很容易理解为什么一个人希望 的长度为

对于两个以上的维度也存在类似的规则。

一般来说,我们需要的是一个将 X 的列投影到单个维度上的操作符,以及一个将 X 的行投影到单个维度上的操作符(见图 3)。在第一种情况下,X 的每一列由一个标量表示; 在第二种情况下,X 的每一行由一个标量表示。在本节的其余部分中,我们将展示这些 运算符具有非常简单的性质。

非线性迭代偏最小二乘(NIPALS)不能同时计算所有的主成分。它从 X 矩阵中计算 和 。然后从 X中减去外积,即尖端rsquo;,并计算剩余的。这个残差可以用来计算 和 :

(10)

Nipals 算法如下:

(1)取X的一个向量,称为,

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[409493],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。