antiSMASH:快速鉴定、注释和分析细菌和真菌基因组序列中的次生代谢产物生物合成基因簇外文翻译资料

 2022-08-07 02:08

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


antiSMASH:快速鉴定、注释和分析细菌和真菌基因组序列中的次生代谢产物生物合成基因簇

Marnix H. Medema1,2, Kai Blin3, Peter Cimermancic4, Victor de Jager5,6,7, Piotr Zakrzewski1,2, Michael A. Fischbach4, Tilmann Weber3, Eriko Takano1,* and Rainer Breitling2,8

1格罗宁根大学格罗宁根生物分子科学与生物技术学院格罗宁根生物信息学中心,2格罗宁根生物信息中心,9747AG荷兰格罗宁根,Nijenborgh 7,3微生物学/生物技术学,互助研究中心bingbingen,Auf der Morgenstelle 28,72076 Tu bingbingen,德国,4加州大学旧金山分校生物工程与治疗科学研究所和定量生物科学研究所,1700 4th Street,旧金山CA 94158,美国,5微生物实验室,Wageningen大学,6703HB瓦赫宁根,6荷兰生物信息学中心和7分子与生物分子信息学中心,奈梅亨分子生命科学中心,拉德布德大学奈梅亨医学中心,6500HB奈梅亨,荷兰和8分子,细胞和系统生物学研究所,医学院,兽医学大学生命科学英国格拉斯哥,格拉斯哥,G12 8QQ

摘要

细菌和真菌的次级代谢是新型生物活性化合物的丰富来源,具有潜在的药物应用前景,例如抗生素,抗肿瘤药或降胆固醇药。为了寻找新的候选药物,微生物学家越来越依赖于多种微生物的基因组测序。然而,由于它们的生化异质性,未知酶的存在以及必要的专门生物信息学工具和资源的分散性质,因此快速,可靠地确定数十个新测序基因组中所有次级代谢产物的潜在基因簇具有极大的挑战性。在这里,我们介绍了antiSMASH(抗生素和次级代谢产物分析外壳),这是第一个全面的管道,能够识别生物合成基因座,涵盖所有已知的次级代谢产物化合物类别(聚酮化合物,非核糖体肽,萜烯,氨基糖苷,氨基香豆素,吲哚并咔唑,羊毛硫抗生素) ,细菌素,核苷,beta;-内酰胺,丁内酯,铁载体,黑色素等)。它将基因簇级别的已鉴定区域与包含所有其他已知的基因簇,并在一个交互式视图中整合所有先前可用的次级代谢物特异性基因分析方法。 antiSMASH可http://antismash.secondarymetabolites.org获得。

1.介绍

微生物次生代谢产物为开发新药提供了巨大潜力。它们属于多种化学类别,其中许多具有降胆固醇,抗肿瘤或抗生素活性。现在,基因组测序成本的快速下降允许发现数百个甚至数千个编码这些化合物生物合成机制的基因簇(1)。但是,实验室研究不能跟上基因组发现的速度,因为每个基因簇的实验表征仍然非常费力。因此,有效地计算机基因组学鉴定最有希望的靶标对于成功挖掘可用的基因组财富至关重要。手动注释非常费力且费时,导致注释不完整。次要代谢物簇的自动注释可以提高注释的准确性和完整性。迄今为止,已经公开了一些计算机方法,以自动分析细菌基因组中的次级代谢。第一个是ClustScan(2),它允许将基因组数据上传到服务器,以半自动检测和注释聚酮化合物合酶(PKS)和非核糖体肽合成酶(NRPS)基因簇。此外,阿南德等。 (3)最近发布了SBSPKS工具箱,用于基于结构的PKS分析。 Li等。 (4)构建了NP.searcher Web服务器,该服务器专门用于预测由基因簇类型的子集导致的可能的化学结构。不幸的是,所有这些工具在很大程度上仅限于分析I型聚酮(PK)和非核糖体肽(NRP)生物合成的核心基因。到目前为止,尽管有一些非常好的但也非常特定的工具可用于细菌素(5)和III型PKS(6)的检测,但许多其他次级代谢产物支架的辅助基因和核心基因在计算方法中已被大大忽略。对于真菌基因组,最近可以使用SMURF工具(7),该工具能够生成次要代谢物生物合成基因簇的更为全面的列表,但是该工具提供的详细分析很少。 CLUSEAN(8)当前通过提供完整的基因组注释来提供最全面的分析,但是对于非专业人士来说很难操作,并且需要对输出进行大量的手动分析。在这里,我们介绍了用于次级代谢产物基因簇鉴定,注释和分析的软件管道,该管道全面,快速且用户友好(图1)。它可以从Web服务器(http:// antismash .secondarymetabolites.org /)上运行,也可以作为标准台式计算机上的独立版本运行。它可以快速检测所有已知类别的次级代谢物生物合成基因簇,提供详细的NRPS / PKS功能注释,并以比现有方法更高的准确性预测NRPS / PKS产品的化学结构。此外,通过构建整个生命树中所有当前已知的次级代谢产物生物合成基因簇的数据库,我们能够为该工具配备比较基因簇分析模块。在该模块中,检测并可视化了查询的基因簇和其他基因簇之间的进化相似性,以便能够基于同源性快速推断基因和操纵子的功能。最后,根据该基因簇数据库中的基因,我们构建了直系同源群体(smCOG)的次级代谢簇。这些在另一个模块中用于预测和分类辅助基因的功能,并通过其smCOG蛋白家族的种子比对来计算每个基因的系统树。我们的基准结果表明,我们的方法能够可靠地检测多种生物合成类型的基因簇,并且能够显着增强次级代谢物生物合成的手动基因组注释。

2.方法

2.1文件和输入选项

antiSMASH Web服务器的输入前端允许上传各种类型的序列文件(FASTA,GBK或EMBL文件)。或者,可以提供GenBank / RefSeq登录号,Web服务器使用该登录号从GenBank自动获取相关文件。如果用户选择使用FASTA输入文件,则通过Glimmer3(9)(使用其long-orfs工具根据输入序列本身构建基因模型)或GlimmerHMM(10)进行真核输入数据来进行基因预测。已提交。在开始antiSMASH分析运行之前,用户可以选择他或她想要搜索的基因簇类型。此外,他可以选择要包括哪些下游分析模块。对于那些例如与专有数据一起使用时,具有Java图形用户界面的独立版本可提供与Web版本相同的输入选项。最后,专家用户可以选择直接从命令行运行基于Python的管道程序,以便批量分析大量输入。

图1.次生代谢物基因组分析的管线概要。 从输入的核苷酸序列中提取或预测基因,并用签名基因pHMMs鉴定基因簇。 随后,可以进行一些下游分析:NRPS / PKS域分析和注释,PKS和NRPS的核心化学结构预测,ClusterBlast基因簇比较分析以及smCOG二级代谢蛋白家族分析。 输出在交互式XHTML网页中可视化,所有详细信息都存储在EMBL文件中,以便在基因组浏览器中进行其他分析和编辑。 还将生成一个Microsoft Excel文件,其中概述了所有检测到的基因簇及其详细信息。

2.2次生代谢产物生物合成基因簇的检测

使用HMMer3工具(http://hmmer.janelia.org/),基于实验性特征蛋白或蛋白质的多个序列比对,使用隐式马尔可夫模型(pHMM)搜索所有蛋白质编码基因的氨基酸序列翻译结构域(蛋白质,蛋白质亚型或蛋白质结构域,它们各自仅存在于某种类型的生物合成基因簇中)。利用现有的pHMMs(5,11–13)和来自种子比对的新pHMMs,我们构建了I,II和III型PK,NRP,萜烯,羊毛硫抗生素,细菌素,氨基糖苷/氨基环糖醇,beta;-内酰胺,氨基香豆素,吲哚,丁内酯,ectoine,铁载体,磷酸糖脂,黑色素和氨基糖苷生物合成特征基因。另外,我们构建了许多针对假阳性的pHMM,例如与PKS同源的不同类型的脂肪酸合酶。最终检测阶段采用负和正pHMM及其截止值的过滤逻辑。该逻辑基于对科学文献中每种基因簇类型的最小核心成分的了解。当针对NCBI非冗余(nr)蛋白序列数据库(ftp://ftp.ncbi.nlm.nih.gov/ blast / db)运行时,通过手动研究pHMM结果确定临界值。有关pHMM库和检测规则的所有技术细节,分别在补充表S1和S2中提供。基因簇的定义是通过定位签名基因pHMM命中簇的相互间隔小于10kb。为了包括侧翼辅助基因,根据检测到的基因簇类型,在最后一个签名基因pHMM命中的每一侧将基因簇扩展5、10或20kb。由于这种贪婪的方法,非常紧密地排列在一起的基因簇可能会合并为“超级簇”。这些基因簇在输出中表示为“杂种簇”。它们可以代表一个单一的基因簇,该簇产生结合了两种或多种化学支架类型的杂合化合物,或者它们可以代表两个单独的基因簇,它们恰好间隔非常近。

2.2NRPS / PKS结构域结构分析

使用另一个包含现有模型(8,11–15)以及专门针对NRPS / PKS蛋白质结构域和这些结构域的功能/系统发生亚组的新构建模型的pHMM库,分析了NRPS / PKS结构域架构(图2)(图2) )。也可以使用CLUSEAN软件包(8)中先前描述的pHMM检测关键PKS和NRPS域内的保守基序,并将其写入详细的可下载EMBL输出中。 PKS / NRPS基因名称会根据基因所包含的域和域亚型进行注释(例如“杂化NRPS-PKS”,“烯二炔PKS”,“糖肽NRPS”,“反式AT PKS”等)。

2.3底物特异性,立体化学和最终结构预测

基于PKS和NRPS模块各自的酰基转移酶(AT)和腺苷酸化(A)域的活性位点,可通过多种可用方法进行底物特异性预测。使用活性位点的24个氨基酸签名序列(16)以及基于Minowa等人方法的pHMMs预测PKS AT域的特异性。 (17),这也可用于预测辅酶A连接酶结构域的特异性。 NRPS使用签名序列方法和基于支持向量机的NRPSPredictor2方法(18,19)以及Minowa等人的方法来预测域特异性。 (17)。最后,所有预测都将以多数票的形式纳入共识预测。还进行了基于酮还原酶结构域的PKS立体化学预测(2)。基于PKS对接域序列残基匹配[对于I型模块化PKS,(3)]或假定的共线性,可以预测PKS / NRPS模块的生物合成顺序,并最终以SMILES字符串的形式生成最终的预测核心化学结构( 20),即化学结构的唯一文字描述,并在图片文件中可视化(图2)。为了提高核心结构预测的可靠性,在预测中没有达成共识的单体表示为具有未指定R基团的通用氨基酸或酮化物。

2.4直系同源群的次生代谢物簇

为了快速注释各种次级代谢物生物合成基因簇中检测到的核心特征基因周围的辅助基因,我们构建了最新NCBI nt数据库(2011年2月15日)中包含的所有基因簇的数据库。为此,上述pHMM用于检测nr数据库中的所有次级代谢产物生物合成基因簇签名基因。提取所有符合所述截断值的命中编号,并将其下载用于下载相应的GenPept文件。如果分类识别符包括“细菌”或“真菌”,则提取核苷酸来源登录号。然后也下载了相应的核苷酸GenBank文件,并交叉检查了所查询蛋白质的登录号。如上所述,对于每个核苷酸GenBank文件,都检测到基因簇。将基因簇中包含的所有基因的氨基酸序列写到带有关键信息标题的FASTA文件中,并写出所有检测到的基因簇的摘要(核苷酸登录,核苷酸描述,簇编号,簇类型,蛋白质登录编号)。到文本文件。为了构建smCOG,使用OrthoMCL(21)对所有基因簇蛋白进行聚类,并根据GenBank中每个smCOG的五个最普遍注释的频率手动分配共有注释。对于每个smCOG,使用MUSCLE 3.5(22)从100个随机选择的序列中创建种子比对,并根据每个比对的保守核心生成每个smCOG的pHMM(补充图S1)。在antiSMASH软件管道中,smCOG pHMM用于注释基因簇中所有辅助基因的功能。将smCOG分配给一个基因后-根据高于某个e值阈值的序列上得分最高的pHMM-将预测的蛋白质序列与smCOG种子比对进行比对,并使用FastTree 2计算出粗糙的邻居结合系统树(23)并用TreeGraph 2(24)可视化(补充图S1)。

图2.交互式XHTML可视化结果。标语下方的数字表示检测到的基因簇,其类型在鼠标悬停在其左侧显示。选择基因簇后,“基因簇描述”标签将显示SVG图像,其中包含近似基因簇中的所有基因,并且检测到的签名基因以红色显示。轨迹标记出现在鼠标悬停时,并且在单击基因时,会弹出一个带有注释信息和与其他Web服务的交叉链接的小面板。如果PKS / NRPS蛋白编码在基因簇中,则其域注释在“ PKS / NRPS域注释”标签中给出。鼠标悬停时会提供更多详细的域注释信息和交叉链接。在“预测的核心结构”选项卡中,根据显示在下面的预测,给出了PKS或NRPS基因簇的核心化学结构的预测。所有选项卡均包含指向弹出窗口的各种链接,这些链接进一步详细说明了预测信息。

2.5 ClusterBlast比较基因聚类分析

次生代谢产物生物合成基因簇是高度模块化的,它们的基因在进化过程中经常从一个基因簇转移到另一个基因簇(25,26)。因此,当试图获得对基因簇的功能性理解时,能够将其与其他与它具有相似性并且可能已经通过实验表征的基因簇(的一部分)进行比较是非常有益的。为了促进这一点,我们应用了带注释的基因簇数据库,将蛋白质序列与其亲本基因簇连接起来,并基于最新的BLAST 实现(27)创建了一个比较工具,该工具按与查询的相似性对基因簇进行排名基因簇。首先根据经验相似性得分S = h H s S B对聚类进行排序,其中h是命中率高的查询基因数,H是命中率高的核心查询基因数,s是具有保守保守性的基因对的数量,S是涉及核心基因的具有保守保守性的基因对的数量,B是核心基因加成(当至少一个核心基因在受试者簇中命中时给出3分)。如果相似性分数相等,则根据基因簇之间的累积BlastP位分数对命中进行排序。此功能可以快速评估每个带注释簇的比较基因组学(图3)。

2.6基因组范围的BLAST和Pfam分析和潜在的未知次级代谢产物生物合成基因簇类型的预测

为了促进进一步彻底的手动基因组分析,anti

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[246022],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。