螺旋分析的统计形状方法论外文翻译资料

 2022-08-14 02:08

英语原文共 25 页,剩余内容已隐藏,支付完成后下载完整资料


螺旋分析的统计形状方法论

Mai F. Alfahad, John T. Kent and Kanti V. Mardia

University of Leeds, Leeds, UK

Kanti V. Mardia

University of Oxford, Oxford, UK

摘要

考虑一个三维空间中的螺旋线,沿着该螺旋线可以观察到一系列等距的点,并且受到统计噪声的影响。对于来自单个螺旋的数据,开发了一种基于轮廓似然的两阶段算法来计算螺旋参数的最大似然估计值。研究了估计量的统计性质,并与该估计量中的其他估计量进行了比较。接下来,开发似然比测试以测试螺旋中是否存在变化点,从而将数据分为两个子螺旋。蛋白alpha;-螺旋的形状用于说明该方法。

关键词:更改点,螺旋轴,扭曲螺旋,主成分分析,结壳分析,形状分析

1 介绍

蛋白质及其形状是所有生物的主要组成部分特定于其功能。 最常见的形状是alpha;螺旋这是右撇子螺旋(例如,请参阅Campbell和Farrell(2014),Wilman(2014a),以及下面的第2节)。许多螺旋都有扭结,即一个点螺旋轴局部改变方向(Wilman等,2014b; Mardia,2014)。 文献中已经开发了各种统计方法来将扭结分析为局部变化点,例如Bansal等人的Helanal。 (2000),Wilman等(2014a)的Kinkfinder和Mardia等人的Kink-Detector。 (2018)。Kinkfinder使用螺旋上的所有原子,而Helanal和Kink Detector仅使用Calpha;原子。 这些方法估计扭结位置通过在螺旋轴方向上寻找局部变化点。 对于有关该主题的进一步评论,请参见Mardia(2013)和Mardia等。 (2018)。

Blundell (1983)和Barlow and Thornton(1988)提出了根据曲率研究螺旋结构; 他们使用的主要分类为:笔直,扭结和弯曲。 有几种方法可以定义这些分类阳离子,但最好记住Wilman等人(2014b)为他们制定了这些实验。

·扭结:在一个清晰的位置,螺旋的方向变化。 螺旋线仅涉及一小部分。

·弯曲:螺旋线方向缓慢但稳定。这可能会在很大一部分甚至全部螺旋上发生。

·直线:螺旋线的整体方向没有变化。

Mardia等人所作。 (1999年)是另一篇有关曲率估计和螺旋扭曲的早期论文。

螺旋结构的研究属于统计形状分析的范围。 形状分析处理欧氏空间中的几何对象并关注在以下情况下保持不变的性质转变。 现在有丰富的形状统计工具集合数据(例如Dryden和Mardia,2016年)。 最简单的对象类型包括点或地标集合中,最重要的组是相似变换(位置,比例和旋转)和刚体转换(位置和旋转)。 在本文中,一个对象包括R3中位于一个螺旋上或附近的一组点,相关组是刚体转换。

该函数定义了三个维度的螺旋:

其中r和2pi;c表示半径和螺距。 在这种表示中螺旋线作为独立变量的函数以恒定速度移动t,可将其视为将螺旋投影到前两个坐标的平面,或作为某种时间,即使螺旋线作为静态对象存在。 此外,螺旋线在R3可以通过刚体运动来更改。 用统计螺旋线表示沿螺旋线的测量可能会出现统计误差。

本论文有两个主要目的。 首先,我们回顾一下统计螺旋的估计问题,并表明最大似然在某些假设下,估计可以简化为优化的最小二乘问题。 其次,我们提出了应对变化的新的全球方法点问题并研究使用特征统计量来突出显示变更点的特征。

更详细地,本文的组织如下。第2节介绍了统计螺旋模型(与Mardia等人(2018)类似,但更多)几何上明确的)。第3节提供了优化后的详细信息最小二乘算法。此算法需要对螺旋轴开始迭代,并且有很多方法在Christopher等人描述的Rotfit等文献中。 (1996)和Enkhbayar等人撰写的HELFIT。 (2008)。两种估算初始值的方法第4节:Rotfit和基于修改后的新方法进行了比较主要成分。第6节提出了一种新的似然比检验全局变化点的存在,两者都在潜在的变化点是已知的,需要在何处进行估算。我们将此过程命名为ChangePoint-Detector。引导程序建议评估统计显着性。此程序进行了调查根据第7节中的模拟数据。在第8节中,将其应用于几种蛋白质实例并与Kink-Detector进行比较(Mardia等人,2018)。

2 统计螺旋模型

如果在公式1.1中合并了任意旋转和位置。 然后规则间隔的“时间”上的数学螺旋采用以下形式:

因此,螺旋上的点数为n = n2 minus; n1 1。允许n1 lt;n2作为起点和终点,以便于存在更改点时进行参数化; 参见第6节。这里

·Gamma;=[ u v w ] 是一个3times;3正交矩阵,其三列定义螺旋线的方向。 特别是向量w定义螺旋轴,向量u和v定义垂直于螺旋轴。

·r gt; 0 定义螺旋半径

·2pi;c gt; 0 定义螺旋螺距,即一圈的垂直高度螺旋线

·bisin;R3是一个截距

·ti =ibeta;是一个规则间隔的时间序列,在该时间序列上,螺旋是观察到,其中beta;gt; 0定义了以弧度为单位的螺旋的转角(即螺旋上两个连续点之间的角度)。

可以将螺旋视为右撇子或左撇子,具体取决于分别是det(Gamma;)= 1还是-1(例如Campbell和Farrell,2014)。出于本文的目的,我们在很大程度上限制了右手使用的螺旋。

常规(统计)螺旋是点或界标的集合

通过添加噪声从数学螺旋获得三个维度,

这里假设

误差项服从独立的各向同性正态分布。 形容词“常规”用于将模型(2.2)与更改点区分开螺旋模型将在第4节中介绍。

这也方便的让

所以g(t)minus; b表示中心真螺旋函数的投影f(t)-b到螺旋轴w上。 特别是让

表示数据时间ti处的轴值。

出于本文的目的,我们将以已知的角度对待转角beta;。在蛋白质结构文献中众所周知,转角beta;沿螺旋线可被视为具有非常接近于beta;= 100°; 例如 Dickerson和Geis(1969)给出的值为1.75弧度=100.3◦。 最近的确认可以从对以下内容的详细分析中获得对129个直螺旋进行beta;的最大似然估计从Web增补(Web图5(d))中的众包数据到Mardia等。 (2018); 对于该数据,发现beta;的平均估计值为99.1°标准误差为1.2°。

所有其他参数将被视为未知且需要估计。 但是,出于开发估算算法的目的,我们将首先处理轴w已知的情况。

螺旋的参数可以分为两种类型。 注册参数是正交向量u,v和w,以及截距向量b =(b1,b2,b3)^T 形状参数是半径r和螺距c

考虑2.2等式中的右手螺旋,带有取向矩阵Gamma;,Gamma;^T·Gamma;= I,det(Gamma;)= 1。 以下定义对Gamma;进行了进一步限制。 螺旋线在

H.1. 如果Gamma;=Gamma;0,则为标准坐标,其中

是单位矩阵,因此三个方向向量由R3中的三个标准坐标方向; 特别地,w0 =[ 0 0 1 ]^T在垂直方向上。

H.2. 如果且没有进一步对u和v的限制,则称为半规范坐标。这一点在3.1中将被用到

H.3 如果对Gamma;没有进一步限制,则成为一般坐标。这一点将在3.2中被用到

对于规范坐标中的左手螺旋,定义起来很方便

因此,以正则或半正则坐标从上方看水平面,右旋螺旋线绕随着t的增加,逆时针方向; 左旋螺旋风缠绕在顺时针方向。

3 常规螺旋的参数估计

3.1 已知的垂直螺旋轴始于以下假设:右手数据螺旋位于半规范坐标中,因此已知w = w0 =[ 0 0 1 ]^T是垂直的。 然后u和v采取形式

对于某个角度tau;。 在这种情况下,模型(2.2)可以重写为

此处alpha;1= r costau;,alpha;2= r sintau;

等式3.2中的模型可以看作是多元线性回归对n个观测值具有三维响应的模型。 回归参数为alpha;1,alpha;2,c,b。 由于误差项是各向同性的,因此模型可以也可以表示为具有3n标量响应的多元回归模型,堆叠3列用于响应后。 此外,最大可能性估计减少到最小二乘回归。 3ntimes;6设计矩阵为

此处

设然后最小二乘估计量采用以下形式

就中心变量而言

此处

我们可以推导和为

其中atan2是两个参数的arctan函数,因此我们有

此外,估计的偏移向量由以下式子给出

其中和是每个坐标的平均值,最后,残差平方和(RSS)由下式得出:

是一个维度为3,的拟合值。残差平方和取决于螺旋轴的选择,这里用w0表示。如果是左撇子螺旋,只需更改等式3.1中一个列的符号。例如,让

对于某个角度tau;,随后的代数会有相应的变化。 如果它未知螺旋是右旋还是左旋,是否适合两种型号并选择残差平方和较小的模型。 除非sigma;2为极大,正确的选择将显而易见。

另外,如果在等式3.4中估计俯仰参数c是负数,那么有必要更改螺旋轴w的符号(加上u或v保留det(Gamma;))的符号。

3.2 常规位置的已知螺旋轴接下来,让右手螺旋的轴w为已知单位矢量,但不一定垂直。 令G =G(w)是一个3times;3旋转矩阵,其第三列等于w。 令z i =GT yi表示旋转后的数据,因此{z i}的已知螺旋轴是垂直的。 那么上一节的估计过程可以是应用于{z i}。

G的前两列所跨越的平面由w确定,而不是这两列本身。 该平面绕w旋转轴对应于在3.2等式中改变角度tau;的含义。

将螺旋线最小二乘法拟合后,拟合的质量为用残差平方和概括,表示为RSS(w)。 的RSS(w)的值不取决于tau;含义中的不确定性。

3.3 未知的螺旋轴 如果w未知,则基于轮廓上的似然可用于找到最大似然估计。该过程如下:

(a)首先确立一个初步估计omega;init。在下一节中有两种建议的可能性。、

(b)给定w,相对于其余参数的最大似然度(称为“轮廓似然度”),

是RSS(w)的单调递减函数。非线性优化算法,例如 R中的常规nlm(R核心团队,2014年)可以是用于在数值上最小化单位球面上w上的RSS(w)在R3中。没有数学保证RSS(w)具有唯一的最小值。 因此,选择一个好的开始很重要。 对于本文中的所有示例,均为收敛。

对于(b)中的优化,对旋转初始估计值Winit到北极点很有帮助,,并用R2中的无约束坐标系,例如,立体投影(p1,p2),当

和其逆

由于(p1,p2)的范围是R2,w覆盖了单位球面减去南极,[ 0 0 -1 ]^T。 实际上,w的最小值通常为非常接近最初的估计.

所有参数的最终MLE可以称为“优化最小平方”(OptLS)估算值。 误差方差的估计为

在分母中,我们从3n中减去8个自由度,因为常规螺旋模型包含8个回归参数(线性回归模型为6个,螺旋轴为2个)。

4 螺旋轴的初始估计

文献中已经建立了几种方法来估计螺旋轴 参见,例如,克里斯托弗等。 (1996)和Wilman(2014a)。在这里,我们将讨论限于获得初始估计的两种方法:螺旋拟合(在Christopher等人,1996年有所描述)以及一种基于修改后的新方法,最小二乘。

螺旋拟合背后的原理很容易描述。 从ntimes;3开始数学螺旋Y,令Y-1表示不带第一行的Y,而Yn表示Y没有最后一行。 然后通过移位将Y-1映射到Y-n回转。 另外,旋转矩阵的固定轴是期望轴w。

使用统计螺旋时,可以拟合旋转矩阵使用结壳分析(例如Mardia等,1979,第416页)。 令Hn-1 =Inminus;1 minus; 1/n-1·11^T表示(n-1)times;(n-1)定心矩阵。 分解矩阵使用奇异值分解,B =MLN^T,其中M和N是3times;3正交矩阵,L是对角线具有正条目的矩阵。 然后可以将结壳旋转矩阵设为由R = MNT估计。 此外,R的固定轴是具有特征值1,并且可以通过频谱分解找到(其他两个特征值很复杂)。

修改后的最小二乘法可以描述如下。 开始从Y构造增量

并将它们组合成(n minus; 2)times;3矩阵D

设E = D^T·D。在数学螺旋中,E的特征值将为零w给出的特征向量 在统计情况下,将有一个小特征值和两个更大的近似相等的特征值。

回想一下,如果w是特征向量,则-w也是如此。 因此,我们需要指定它的标志。 也就是说,我们需要选择w的符号,以使w的拟合值螺旋模型(2.1)–(2.2)中的螺距参数c将为正。 这个任务当噪声水平sigma;2不太高时,它很简单。 只要确保选择w的符号,以使端点之间的差在螺旋轴上的投影为正,

实际上,使用这两个初始估计中的哪个并不重要。然而,模型(2.2)的模拟表明螺旋拟合通常是更准确的。

5 关于转角beta;的假设

转角beta;是统计螺旋模型中的关键参数,并且有几种方法可以对其进行处理。

模型A:确切地说,螺旋转角beta;= 100°。 这是本文所做的选择; 请参阅第2节。但是,正如前文所强调的那样,考虑违反此假设会发生什么。 自然有两种可能性:

模型B:转角beta;在一个螺旋内是恒定的,但未知究竟。 一种措施是将其作为参数之一如Mardia等人所述,估计单个螺旋的可能性等 (2018)。 另一个是进行敏感性分析以评估对变化的beta;结论的影响。 我们进行了一个小对模拟数据进行敏感性分析后发现,98o-102°范围对统计分析的影响可忽略不计。 这个范围选择为大约100oplusmn;2s,其中s =1.2◦是Mardia等人在第2节中报告了标准错误。(2018)。

模型C:更严重的违规行为是允许转弯角度沿螺旋 即xj和xj 1之间

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235764],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。