小鼠UVB损伤皮肤组织恢复过程免疫应答模型构建:Alloferon扰动分析外文翻译资料

 2022-08-07 02:08

英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料


目录

读前须知: 1

1 摘要 2

2 介绍 3

3 Trinity RNA-seq汇编程序概述 4

4 非模型生物的转录组分析软件包 4

5 比较样品中的转录组 5

6 转录本丰度估算 5

7 差异表达的转录本分析 6

8 Trinity转录本的蛋白质编码区预测和功能注释 6

9 Trinity在转录组分析中的局限性 7

10 替代分析包 7

11 协议概述 8

12 参考程序 8

12.1 装备 8

12.2 装备设置 8

12.3 程序 9

13 图片汇总 18

14 专栏汇总 25

14.1 专栏1 组装的输入序列数据要求 25

14.2 专栏2 计算要求 26

14.3 专栏3 基本Trinity操作 26

14.4 专栏4 高级Trinity操作 28

读前须知:

转录本(transcript):也称为剪切体,由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。一条基因通过内含子的不同剪接可构成不同的转录本。设计转录本实验可以研究内含子剪切机制、表观遗传、RNA编辑等。通常是考察一条基因对应的不同转录本的调节机制等。

基因座(locus,loci):又称座位。基因在染色体上所占的位置。在分子水平上,是有遗传效应DNA序列。形象地说,一对染色体可想象为两条平行线,染色体上一个给定的位置,好比两平行线上的一点或一段,叫做基因座。一个基因座可以是一个基因,一个基因的一部分,或具有某种调控作用的DNA序列。基因座与位点(site)不同,后者是一个顺反子内部的突变位置,可以小到一个核苷酸对。

重叠群((contig):彼此可以通过末端的重叠序列相互连接形成连续的DNA长片段的一组克隆。

RPKM(Reads Per Kilobase per Million mapped reads):代表每百万reads中来自于某基因每千碱基长度的reads数。RPKM是将map到基因的read数除以map到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位)。

RNA-seq是二代测序技术中用来表示基因表达量或丰度的方法。在衡量基因表达量时,若是单纯以map到的read数来计算基因的表达量,在统计上是不合理的。因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表现量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。

FPKM(Fragments Per Kilobase of exon model per Million mapped reads):每1百万个map上的reads中map到外显子的每1K个碱基上的片段个数。

FPKM计算的是片段(fragments),而RPKM计算的是数据(reads)。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。FPKM和RPKM RPKM代表每千个碱基的转录每百万映射读取读取。 FPKM代表每千个碱基的转录每百万映射读取的碎片。

利用Trinity平台从RNA-seq进行从头转录本序列重建以生成参考信息并分析

摘要

从头组装RNA序列数据可以使研究者在不需要基因序列的情况下研究转录组学。这种方法可以被有效利用,比如,在非模式生物的生态和进化重要性,癌症样本或者微生物组。在这个协议中我们介绍了Trinity平台在非模式生物RNA序列数据的从头转录组组装的使用。我们也展示了Trinity支持的配套工具,用于下游应用,包括RSEM(转录丰度估算),R/Bioconductor 包用于在样品中鉴定差异表达的转录组,以及提供鉴定蛋白质编码基因的方法。在程序中,借助Trinity平台,我们提供了一种不需要基因组的转录组学分析工作流程。软件,文件和演示可以在http://trinityrnaseq.sourceforge.net免费获得。该协议的运行时间高度依赖于被分析数据的大小和复杂度。在本文详述的过程中分析的示例数据集可以在不到5小时的时间内处理完成。

介绍

基因组(DNA-seq)和转录组(RNA-seq)的高通量测序为研究存储在任何生物体中的基因和功能信息以前所未有的规模和速度开辟了道路。例如,RNA-seq原则上可以同时研究转录物结构(例如可变剪接),等位基因信息(例如SNP)和高分辨率和宽动态范围的表达[1]。这些进展极大地促进了遗传信息或研发资金有限的物种(包括许多非模式生物)中的功能基因组学研究,尽管这些生物被广泛研究,但仍具有重要的生态或进化意义。

尽管许多基因组学应用传统上依赖于高质量基因组序列的可用性,但此类序列仅针对极少数的已知生物体。此外,由于基因组的大小和重复内容,在许多情况下对基因组进行测序和组装仍然是一项昂贵的工作。相反地,由于仅转录了基因组的一小部分,RNA测序数据可提供迅捷且便宜的“快速通道”(任何实验室都可以达到),以描绘出用于下游应用的参考转录组,例如比对,系统发育或标记构建。确实,即使在全基因组测序项目中,RNA测序也已成为鉴定转录基因和注释外显子结构的重要证据。

要充分发挥RNA-seq的潜力,就需要一种计算方法,即使在没有基因组序列的情况下也可以组装转录组。存在两种将原始RNA-seq数据转换成转录本序列的主要方法:在基因组序列的指导下组装或从头组装[2,3]。基因组指导下的转录组研究方法已迅速成为模型生物RNA测序分析的标准方法,并且有一些对应的软件包[4,5]。但是,这种方法不能应用于不存在完整组装的基因组的生物,即使对于具有良好组装的基因组的生物,结果也可能因基因组组装版本而异。在这种情况下,需要一个从头开始的转录组汇编程序。但是,转录组的组装过程违反了许多为应用基因组DNA数据而开发的组装程序所依赖的假设。例如,一致的覆盖范围和“一个基因座-一个重叠群”范式对RNA是无效的:准确的转录组汇编程序将为每个不同的转录本(异构体)而不是每个基因座生成一个重叠群,并且不同的转录本具有不同的覆盖率,反映了它们不同的表达水平。

现在有几种可用于从头组装RNA序列的工具。Trans-ABySS[6],Velvet-Oases[7]和SOAPdenovo-trans(http://soap.genomics.org.cn/SOAPdenovo-Trans.html)都是早期开发的基因组组装程序的扩展。之前我们介绍了一种新型的转录组组装替代方法,称为Trinity[8]。 Trinity将RNA-测序数据划分为许多独立的de Bruijn图(理想情况下一个图有一个表达的基因),并使用并行计算从这些图重建转录本,包括可变剪接的异构体。 Trinity可以利用特定链的Illumina末端配对库,但也可以容纳非特定链的和单末端读取的数据。Trinity通过一个简单直观的界面即可准确地重建转录本,几乎不需要参数调整。几项独立研究表明,Trinity与替代方法(例如,参考文献[9-11];DREAM项目的替代剪接挑战,http://www.thedream-project.org/result/alternative-splicing)相比,非常有效。Grabherr等[8]在相对较短的时间内(自2011年5月在线发布以来)获得了大量引用,进一步证实了Trinity的可用性。Trinity的使用者研究了来自生物界的各种模式生物和非模式生物,它们来自小型实验室和大型基因组计划(例如,豌豆蚜基因组注释v2; Fabrice Legeai(国家农学研究所(INRA)) )和Terence Murphy(参考序列国家生物技术信息中心(NCBI),和A.P.的个人通讯)。

Trinity也拥有活跃的开发人员社区,极大地增强了其性能和实用性(请参见http:// trinityrnaseq.sourceforge.net)。例如,尽管第一个发行版的运行时表现在计算上效率不高[11],但Trinity开发人员社区通过提高并行度和改进算法,提高了效率,将内存需求减少了一半,并提高了处理速度(Henschel等人[12]和M.O.,未发布的数据)。此外,Trinity已转换为模块化平台,该平台可无缝使用第三方工具(如Jellyfish[13])来构建初始k-mer目录。集成到Trinity中的其他第三方工具增强了其重组转录组的实用性。例如,Trinity现在支持工具(例如RSEM[14],edgeR[15]和DESeq[16]),这些工具可以获取其输出记录并测试差异表达,同时考虑变异的技术和生物学来源[17-19]并校正多个假设检验。鉴于Trinity自发布以来的受欢迎程度和重大改进,提供利用其各种功能的详细程序是非常重要的。我们在此介绍的程序将进一步扩大Trinity在非模式生物研究中的用途。

Trinity RNA-seq汇编程序概述

Trinity的组装流水线由三个连续的模块组成:Inchworm,Chrysalis和Butterfly(图1)。我们强烈建议用户首先阅读Trinity的第一本出版物[8],以详细了解该方法,我们将在此简要介绍一下。

首先,从RNA-seq读数中提取所有重叠的k-mers。然后,Inchworm检查每个独特的k-mer的丰度降序,并使用基于(k-1)-mer重叠的扩展来生成转录重叠群。Inchworm通常会生成占优势的异构体的全长转录本,但只报告选择性剪接的转录本的独特部分。这种操作方法适用于重复序列(例如转录组)大量不足的数据集。

接下来,Chrysalis首先将相关的Inchworm重叠群群集为组件,并使用原始读取在共享读取支持和配对读取链接的基础上(如果可用)对脚本进行分组。此过程将可能源自选择性剪接的转录本或紧密

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[246023],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。