KRLMM:对于常见的和低频率变异的一种自适应基因族群类型调用方法外文翻译资料

 2022-10-13 11:10

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


KRLMM:对于常见的和低频率变异的一种自适应基因族群类型调用方法

RuijieLiu、ZhiyinDai、MeredithYeager, RafaelAIrizarry and MatthewERitchie

摘要

背景:SNP基因族群输入微阵列已经彻底改变了复杂疾病的研究。当前可用的商业范围基因族群输入产品含有广泛的低频率的目录和罕见变异。现有的SNP调用算法很难处理这些低频变异,作为底层模型依赖每个基因型合理的数量的观察,以确保准确的聚类。

Illumina公司是基于数组的大型和小型件的SNP芯片目前使用最广泛的遗传学研究平台。Illumina公司最大的BeadChips包含250万至430万个snp和并行处理多个样本(目前4、8、12或24 / BeadChip)。英飞纳姆二世化学标签在这个平台上分别使用红色和绿色染料表示不同等位基因A和等位基因B。许多算法可用于处理成对等位基因的原始信号强度离散基因型调用(AA、AB、BB)为每个SNP在每个样本。当前的方法包括:GenCall,Illumina公司在GenomeStudio软件专有的方法;GenoSNP;Illuminus;CRLMM;鸟饵和BeagleCal。最近为了迎接挑战的Illumina公司平台上调用低频/罕见变异(M3,zCall和OptiCall)三个新举措被提出。

结果:这里我们开发KRLMM,将原始强度转化为基因型的新方法调用,旨在克服这个问题。我们方法的独特之处在于,它适用于小心样本归一化,并允许一个变量之间数量的集群k(1、2 or3)对于每一个SNP,k预计使用可用的数据。我们比较方法四个基因算法(GenCall、GenoSNP Illuminus和OptiCall)在几个Illumina公司的数据集,包括样本的人类基因组单体型图计划提前知道基因型。所有方法整体精度都很高(gt; 98%),而KRLMM一直在最好的。小等位基因频率较低,KRLMM,OptiCall和GenoSNP算法始终比GenCall和Illuminus测试数据有更准确的观察。

结论:通过不同数量的集群(KRLMM)或使用从其他单核苷酸多态性(OptiCall和GenoSNP)得到的信息调整自己的方法调用低频变异的措施提高精度,而不是(GenCall和Illuminus)的方法。KRLMM算法实现的开源crlmm包经由Bioconductor项目。(http://www.bioconductor.org)

关键字:基因型、集群、微阵列数据分析

背景

大规模的病例对照研究在过去7年内完成,从而微阵列技术使复杂疾病的遗传学的研究发生了革命性变化,发现成千上万关于自身免疫、精神和心血管疾病和癌症很宽领域的新易感性位点。这些发现使在编目多个人类基因变异的开创性研究人类基因组单体型图计划变得可能。最近由于1000人基因工程增强了低频率和罕见变异,所以已经扩展这个集合(定义为多态性与未成年人等位基因频率(MAF)分别为-5%和0.5% lt; 0.5%)。由两大制造商的Affymetrix Illumina公司提供的低频率和罕见变异增加微阵列单核苷酸多态性(SNP)与覆盖率是可用的。之前的基因分型方法的比较表明,许多流行的算法减少了这些snp准确性。因此优化分析的新内容将取决于调用算法能够进行合理的调用,即使很少有观察,类似于涉及小等位基因的基因型。

Illumina公司SNP芯片目前使用最广泛的基于数组的大型和小型件的遗传学研究平台。Illumina公司最大的BeadChips包含250万至430万个snp(表1)和并行处理多个样本(目前4、8、12或24 / BeadChip)。在这个平台使用的英飞纳姆二世化学上分别用红色和绿色染料(9、10)标签等位基因A和B等位基因。许多算法可用于为每个样本的每个SNP处理成对等位基因的原始信号强度离散基因型调用(AA、AB、BB)。当前的方法包括:GenCall[11],Illumina公司的专有方法实现GenomeStudio软件;GenoSNP[12];Illuminus[13];CRLMM(14 - 16);鸟饵[17]和BeagleCall[18]。三个newmethods最近提出了迎接挑战的Illumina公司平台上调用低频/罕见变异(M3[7],zCall[19]和 OptiCall[8])。

在本文中,我们介绍KRLMM,一个新的基因型调用Illumina公司BeadArray数据的方法,它接受一个新颖的方法,允许变量数量的集群(k = 1、2或3)之间安装的样本归一化强度数据的其他方法。我们分析数据集的平台和突出的好处小心样本之间信号调整优化精度。我们这种比较四个现有算法(GenCall,GenoSNP Illuminus,和OptiCall)的方法通过分析数据集覆盖越来越多的低频/罕见变异,并比较这些方法的精度性能的不同等位基因频率。KRLMM执行显示在大多数比较积极,特别是在低MAF时。

措施

数据集

Illumina公司内部在3高密度SNP平台上运行人类基因组单体型图样本得到的数据使用5种不同的基因分型方法进行了分析。每个芯片类型、独立基因型电话(AA、AB、BB)从人类基因组单体型图下载ftp服务器(ftp://ftp.ncbi.nlm.nih.gov/hapmap/genotypes/2010-08_phaseII 3 /向前/)。snp的数量至少有1 non-missing调用不同的芯片类型(Omni2.5-Quad Omni1-Quad 851225、851225和851225年Omni5-Quad)。这些数据为我们提供一个独立的事实可以用来比较调用不同的基因分型方法的准确性。

特征值

在下面的描述中,我们使用X和Y Illumina公司命名的引用相应的等位基因的强度(一般X =等位基因/红色通道,Y =等位基因B /绿色通道)。对于展示良好的有正常拷贝数的snp来说 log-ratios(M = log2 Xlowast;minus;log2 Ylowast;)或其他的归一化强度之间的对比(lowast;X,Ylowast;)往往也分为不同的集群的主要基因型。这种分离是单核苷酸多态性之间的变化而变化,可以依靠整体的信号强度。各种内部和之间的样本提出了建模方法调整这些影响和强度转换为基因型电话,用适当的叫信心措施(指里奇et al。(2011)[6]审查)。

KRLMM算法

预处理

两种不同的预处理方法被认为是用于KRLMM。第一个涉及样本分位数之间每个通道正常化(X,Y)分别调整为系统从不同的阵列信号之间的差异。虽然这导致更一致的分布之间的log-ratios样本相对于没有正常化,仍然有一个基因多态性intensity-dependent趋势。要克服这一点,一个额外的黄土校正应用于每个主要集群,添加了集群中心的一致估计回上层(AA)和低(BB)集群(作为AA和BB中心获得的中位数与k = 3 k - means聚类后每个SNP)。

回归选择k

KRLMM算法是一种一维聚类方法,它使用k - means聚类(如kmeans R函数实现的)数量可变的集群,在k的选择是由SNP-specific信号决定的。一个理想的聚类可能相对较紧(即低残差平方和),而不是扩散具有较低的集群中心偏见时AA的共识的立场相比,AB和BB集群获得通过所有snp(如下Mahalanobis距离测量的定义)。它还应该指定一个适当数量的调用每个基因型,以服从哈迪温伯格平衡。集群执行根据这些标准可能比一个更精确的一个或多个领域的得分更低。利用这些潜在的信号特征和遗传原理,我们应用这些变量逻辑回归来独立预测每个SNP k。获得集群中心的初始估计,k=3的kmeans集群是第一个应用于每个SNP的规范化log-ratios。

包含中间值的向量AA,AB和BB集群(mu;k)作为价值共识,和variance-covariance矩阵(circ;V k)估计。SNP-specific(i)预测计算所有样本(样本指数j)中使用回归模型包括剩余平方和(里克= kj(Mijminus;circ;mu;ik)2 k集群,其中Mij是规范化log-ratio),Mahalanobis距离(Dik =(xikminus;circ;mu;k)circ;Vk(xikminus;circ;mu;k)T,xik是一个向量的集群中心从一个给定的k - means聚类)和协议哈迪温伯格平衡。(Hik = kl = 1(Nilminus;niril)2(niril)ri1 = p2i ri2 = 2pi;(1minus;pi;)ri3 =(1minus;pi;)2,Ni1 = AA的电话,Ni2 =号码(AB)和pi;= 2 Ni1 Ni2)2ni实证主要基于给定数量的集群等位基因频率,k)。每个变量计算出每个SNP使用集群作业获得通过k - means聚类k = 1,2,3与哈迪温伯格平衡(协议没有计算k = 1,这个量不是信息)离开8变量的回归。系数为每个参数估计从10000年的人类基因组单体型图数据集这个模型拟合训练集的随机选择snp。独立的基因型对这些snp为我们提供真正的k。有序逻辑回归(假设组织k = 1、2、3是有序,符合增加剂量(0、1或2张)的替代等位基因),或普通逻辑回归(没有命令假定)中可分别用polr(质量R包)和vglm函数(VGAM R包)。一旦回归coefficientsare可用,并给予一套完整的协变量(里克,Dik,Hik k),k是最好的决定为每个SNP得到拟合值模型和选择k以最大的概率。之后应用k - means聚类使用k的预测价值获取基因型。这种方法适用于所有从常染色体snp pseudo-autosomal(XY)的基因组区域。

寻求有用的措施

轮廓的宽度(SWij =circ;bijminus;wcirc;ij max (wcirc;ij,circ;bij),在circ;bij是ijth集群之间的平均距离最小的观察和在不同的集群中所有其他的观察和wcirc;ij是ijth集群内的平均距离观察和所有其他观测同一集群)在PAM集群计算[21]作为调用信心的措施。

这个值将在1要求高的信心(wcirc;ij将小相对于circ;bij)和1低确定性调用(wcirc;ij大相对于circ;b ij和主导着计算)。

选择一个最佳的预处理/回归组合

使用独立的人类基因组单体型图,中间值和平均绝对偏差(疯狂)的每个集群(AA、AB、BB)

决定要获得的SNP-level视图正常化的影响。相对于没有规范化,少一些变量,中心更一致的与一个额外的分位数调整后黄土校正相比单独分位数正常化,对变化的影响是一个混合的纯合子的集群,集群越来越不同。分位数正常化通常降低了样本之间的差异始终比没有正常化和分位数正常化的总和与黄土修正。

评估的性能不同的回归/预处理组合,基因型之间的一致性要求由每个方法进行了比较从HapMapdatabase获得独立的电话。snp比例的下降率已经从寻求有用的措施时的精确计算中移除。对于每个数据集,常规逻辑回归应用分位数正常化后log-ratios giveshigher准确性。

在本文的其余部分,这种最优预处理组合选中默认实现KRLMM。

调用性染色体snp

snp pseudo-autosomal以外的地区的X和Y染色体代表特殊情况,男性和女性分别称为允许适当数量的集群(Y染色体:不要求女性,k = 1或2集群允许男性,因为他们有一个复制的染色体。X染色体:k = 1、2、3集群允许女性,因为他们有正常的拷贝数,k = 1或2允许男性因为它们半合)。对于没有指定性别(男/女)时的样本,Y染色体上snp的平均强度用于转嫁这些信息。应用k - means聚类2 k =集群分别所有染色体,Y标记应该分配女性低信号组(即。背景杂交只从这些探测器,因为女性没有男性Y染色体)和第二个高强度组对应于信号从一个Y染色体的副本。样品被指定为女性或男性通过观察哪些集群(低强度=女,高强度=男性)更接近平均集群通过比较中间位置由k - means和中位数为这些snp s值在每个样本。这种简单的方法被发现能在3平台上100%准确的估算比较性别与人类基因组单体型图提供的信息数据库。

实现

概述KRLMM算法和回归分析用于确定每个SNP的 k。基因型。Illumina公司crlmm包中可用函数R(15、16)[22]/ Bioconductor[23]实现调用此方法。=“krlmm”方法,允许用户在使用功能可以通过illuminaio IDAT文件包[24],用一个简单的命令得出基因型。导入数据的另一个选择是通过readGenCallOutput功能,提供处理选项卡或csv分隔GenomeStudio报告。回归系数和参考分布分位数规范化X和Y渠道可以从分析Illumina公司内部的人类基因组单体型图样本获取的数据,也可以从Bioconductor(http://www.bioconductor.org)获得存储在数据包中。Affymetrix KRLMM方法目前不支持数据基因序列。

其他算法

眼镜算法是一种混合GenoSNP和Illuminus之间。它首先利用50000随机选择强度值的数据做一个初始聚类使用一个混合模型4州(AA、AB、BB和“NoCall”)。这一步是类似于GenoSNP之间SNP基因分型方法。眼镜然后集群SNP-by-SNP使用模型类似于一个用于Illuminus、添加层次结构包括先验来自初始聚类。在集群几个观察,之前确保集群合理放置,从而克服Illuminus的缺点之一。我们选择眼镜代表的方法更新调用方法为低频/罕见变异。

M3[7],也是可以考虑的,但是它的实现在MATLAB(这需要一个许可证)禁止我们使用这个软件。另一个选择是zCall算法[19],与其他方法相比,始于GenCall的输出而不是原始强度数据。这样一个post-calling修正方法大概可以适应提高一次调用任何方法调用和信心值可从原始数据。

结果与讨论

基因型之间的性能比较,一致性调用由每个方法和独立调用从人

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[151311],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。