流式细胞术数据分析:最新的工具和算法外文翻译资料

 2022-08-11 10:08

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


流式细胞术数据分析:最新的工具和算法

摘要:

流式细胞术(FCM)允许科学家快速量化每个样本中数百万个细胞的50个参数。该技术应用的瓶颈是数据分析,而目前这一代仪器测量的大量参数要求使用先进的计算算法来充分利用它们的能力。这篇综述总结了FCM数据分析的主要步骤,重点介绍了为基于编程环境开发的最新生物信息技术工具的使用。特别地,对于数据分析的每个阶段,列出了目前可用的库和包,并简要说明它们的功能。

关键字:自动门控,生物信息学,聚类,数据分析,流式细胞术。

1 | FCM数据分析框架

FCM数据分析的步骤可分为六个主要阶段:

1.数据预处理

a.一个补偿

b.质量评估

c.正常化

d.转换

2.细胞群识别

3.交叉样本比较(群体映射或匹配)

4.特征提取

5.解释(发现或诊断)

6.可视化

在这里,我们描述了一个自动化的分析管道,该管道已用于分析来自多中心研究的流式细胞术数据。

2 |数据格式和数据预处理

flowCore包为任何基于R的FCM分析提供基础架构,编程语言的选择基于可用的功能和免费可用的工具的数量。表1列出了本文中讨论的所有包以及它们在FCM数据分析框架中的相关阶段。flowCore允许用户表示和操作FCM数据。它实现了计算有效的数据结构定义的数据标准工作组(DSTF)国际社会促进血细胞计数直接督导下的这个基础设施,本文中讨论的所有包可以处理在目前市场上的由所有生成的数据流血细胞计数器机器。在flowCore中,FCM数据被组织在流程图和流程图中。通常,一个流集包含多个流帧,每个流帧报告一个实验的数据(它代表一个单元样本)和相关的元数据(即关于数据的信息)。在每个flowFrame对象中,事件沿着行建立索引,而参数(即实验的标记)沿着列布置(图1)。该包实现了一组专门的功能,用于处理典型的FCM分析工作流的主要组件。特别是,在flowCore包中实现了数据预处理阶段的补偿和转换步骤,以及门控阶段。

通常,计算工具的用户正在分析大型数据集。然而,为了执行数据操作,flowFrame和flowSet对象要求所有数据元素都驻留在RAM中,如果flowSet包含的数据集克服RAM空间限制,处理就会失败。ncdfFlow包允许处理这样的数据集在内存中,它能够执行与flowCore包相同的预处理步骤。为了做到这一点,ncdfFlow创建了一个ncdfFlowSet(类似于标准的flowSet对象),它将大量的数据存储在硬盘驱动器的存储器上,并且只将文件处理程序和元数据保存在RAM中,这大大降低了内存需求。

表1 图1

2.1 |补偿

补偿与flowUtils包一起在flowCore包4和8中实现。8 flowUtils是一个R包,旨在读取门控——ML文件,门控——ML(门控标记语言)文件,描述可在不同软件包之间转移的门的可扩展标记语言(XML)文件。门控——ML存储门、补偿和转换数据,因此它们在计算上是可重复的。

2.2 |质量评价

数据质量评估的目的是检测样本间测量差异是由仪器变化引起的还是由生物学原因引起的。由于技术误差而改变了测量值的样品应从分析中去除。限定符包使用FlowJo中创建的门控模板(用于手动门控的包),并对不同的门控种群进行质量检查。有两种可用的方法来检测和消除事件级异常。flowAI评估三种不同的属性:流量、信号采集和动态范围。flow- Clean通过跟踪采集时间内样品的荧光测量波动来检测数据中的异常。

2.3 |正常化

归一化是对一组样本进行预处理的步骤,其目的是消除技术差异而非生物学差异所造成的影响。这样,分析就可以集中在样本之间重要的和相关的生物变化上。仪器的变化、实验方案的变化和试剂的变化(例如,使用不同公司的抗体)都是非生物因素的例子,这些因素会引入数据的变化并改变细胞群的位置。然而,自动化的FCM数据分析需要统一的、定量的和可比较的原始数据,这些数据可以通过开发标准化方法获得。数据标准化还有助于跨样本群体匹配阶段,该阶段的目标是在一组样本中检测生物学相关的细胞群体,而技术上的变化会使这一过程更具挑战性。flowStats包包含实现FCM数据统计分析算法的函数、方法和类。它包括用于数据规范化的函数。guassNorm和fdaNorm函数通过识别和校准每个通道的高密度区域(地标或峰值)来对一组FCM数据样本进行归一化处理。每个通道的数据都以这样一种方式移动:被识别的高密度区域被移动到被称为基础地标的固定位置。这两个功能的不同之处在于实现了算法的三个主要步骤:地标标识、地标注册和地标对齐。

2.4 |转换

FCM数据的精确自动门控由于不对称和重叠的细胞群、频繁的离群事件、方差依赖于其平均荧光强度的细胞群以及荧光通道中的错误而变得复杂。所有这些特性都会影响手动和自动的输出门控,以及随后的下游分析。最优转换过程是一种算法,它可以促进细胞种群门控、可视化和样本间比较,以便在整个数据范围内很好地解析细胞种群。有许多转换用于FCM数据。对数变换常能稳定荧光通道中细胞群的方差,但不能代表未染色细胞群的负数据值。这导致对轴的数据压缩和低质量的低强度或未染色的人群。因此,可以应用其他的变换,包括线性—对数(linlog)变换、双指数(logicle)、广义arcsinh变换和广义Box—Cox变换。所有这些转换都在BioConductor flowCore包中实现。转换算法的参数是可调的,其效果对FCM分析的不同步骤的质量有重要影响。然而,正确设置这些参数并不是一项简单的任务。flowTrans是一个R包,用于优化最常用的FCM数据转换的参数。参数—优化的数据转换显示与默认参数转换相比,下游分析步骤的质量得到了改善。

3 |细胞群体鉴定

人工分析中最关键和最耗时的步骤是识别数据中的同质细胞群,这个过程通常称为门控。特别是,在单个样本中识别多个总体并在样本之间进行比较(也称为总体匹配步骤)。一个细胞群是一个样本内的一组事件,它们具有相同的特定特征(例如,它们是相似的细胞),由实验中使用的标记来测量。门控方法可分为两大类:顺序(手动)门控和自动门控。

3.1 |顺序手动门控

传统的基于门控的分析是手动进行的,它是基于一维或二维图的视觉比较。必须使用一个门序列来分析多维数据集。这种细胞群识别方法目前依赖于使用软件来应用一系列手动绘制的门,这些门在数据图中选择区域,这些区域代表两个轴上的两个参数。这个过程是基于操作者的专业知识,而不是标准化的统计推断。它也忽略了FCM数据的高维性,它可能包含的信息无法在1D或2D plot .1,16中显示。商业软件包传统上被研究小组用于顺序选通。这些工具支持有限形式的软件——辅助门控,其中用户通过顺序选择一组轴(即两个标记)来可视化数据,手工绘制边界(门),迭代地构建门控模型单元格的子集,然后将下一个可视化限制为所选门中的单元格。因此,顺序选通的特点是有许多限制。

  1. 在选通步骤中,边界的确定不一定是由规则(主观性)指导的。
  2. 传统的门控系统最多只能在二维平面上工作。因此,分析忽略了多维空间中包含的信息。
  3. 分析高维数据集非常耗时。

基于这些原因,人们对基于统计模型的门控策略的研究产生了浓厚的兴趣,目前已经开发了38种以上的自动化方法。这些方法能够直接从多维数据集自动推断细胞数量,克服了顺序访问的限制。

3.2 |自动选门

自动门控是基于细胞群体荧光强度分布的数学模型。流式细胞术:群体鉴定方法(FlowCAP)项目为比较FCM.21中涉及的计算方法的性能提供了一组挑战。这些技术可以用来解决前面所描述的手工插销所面临的问题。

3.2.1 |监督细胞群识别

在监督分析中,操作员需要有两个不同元素的数据集。

  1. 每个事件的标记度量。标记测量值构成了数学模型中的解释变量。
  2. 由标签表示的单元格类型,它与每个事件(即每个单元格)相关联。换句话说,标签表示每个事件所属的类,而属于同一类的所有单元格表示单个单元格种群。单元类型构成数学模型的因变量。

这个标记的数据集包含训练数据,算法将在训练阶段使用这些数据来学习解释变量和因变量之间的关系,因变量包含一组由标记表示的类。该算法将使用在训练阶段学到的信息,将未标记的事件分配给训练数据集中定义的一个类(即单元格类型)。

flowDensity是一个使用监督算法实现自动门控的工具。该工具将预定义的手动选门方法自动化。需要强调的是,用户必须知道门策略。该算法基于连续双变量门控方法,生成一组预定义的细胞种群。flowDensity通过标记密度分布的特征来估计细胞群体周围的区域,flowDen- sity对每个标记进行了最优截割OpenCyto框架是一个包含ncdfFlow、flowCore、flowViz、flow工作空间和OpenCyto包的R包集合。openCyto包内部实现了一个分层的自动选通管道,它执行数据预处理和数据驱动的自动选通。该框架可以使用高维门控算法或传统的顺序门控进行门控分析。特别是,可以导入由外部软件(如flowJo)生成的门控方案。或者,可以使用数据驱动的方法来定义门,利用R或生物电导中可用的各种门控算法。

3.2.2 |无监督细胞群体识别

在非监督方法中,操作符不需要任何标签、任何预定义类作为引用。换句话说,没有因变量。FCM中最常用的无监督算法是基于聚类的。一般来说,聚类算法识别同一簇中的事件。相似的事件在同一个集群中,不同的事件在不同的集群中。聚类在多维数据集上工作,克服了顺序门控的限制。1确定聚类的策略取决于具体的算法,可以是基于模型的(如高斯混合模型聚类),也可以是非基于模型的(如K表示聚类)一些使用无监督算法的自动选门,包括基于模型和非基于模型的方法,包括以下几点:

  • flowMeans使用改进版的K-means算法进行聚类,该算法可以通过合并多个集群来识别凹形种群(与传统的K-means不同),从而获得最终的种群。
  • SPADE(密度标准化事件的扩展树级数分析)算法允许将FCM数据划分为许多层次组织的集群,这些集群反映了数据中的所有维度。利用最小生成树的可视化,用户可以识别和标注已知的和新的单元格类型。

柑橘类是一种使用层次聚类(如SPADE)来识别细胞种群的工具。然而,CITRUS使用已知的“端点”(例如,样本的特定状态,比如患病和健康的样本)结合一个正则化的监督算法来确定与样本与特定端点组的关联相关的种群和特征基于人工神经网络的工具在无监督环境下的应用是最近才发展起来的,以FlowSOM为例。FlowSOM使用最小生成树可视化作为SPADE算法。然而,SPADE使用层次聚类,而FlowSOM基于人工神经网络的自组织映射用于非监督的上下文中。最近将flowSOM与其他17种聚类方法进行了比较,发现从运行时的角度来看,flowSOM是性能最好的算法。特别是,对

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237658],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。