突出报告:“3R中的大数据:前景和建议” 圆桌会议总结外文翻译资料

 2022-04-15 08:04

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


突出报告:“3R中的大数据:前景和建议” 圆桌会议总结

引言

随着动物替代测试方法的进步,计算模型以及综合测试策略的出现,3R中的大数据状态(替换,减少和退役)已经显现出来。第十届世界可替代选择大会(WC-10)即圆桌会议在西雅图召开,该会议着手研究3R大数据的含义和回顾在该方面正在取得的进展。大数据确实带来了对生物学进行更深入了解的可能性,而生物学最终可能发挥作用重新确定我们在化学品安全方面的决策过程评估,但这个话题并非没有挑战。现在和将来都有机会解决这些问题。正如本文所讨论的那样。

数据共享举措:FAIR原则

在大数据时代,数据存储、访问和分析的格式和方法变得越来越重要,同时计算能力和实力的迅速扩张也在促进多种类型数据的综合与分析朝着3Rs的目标。这些考虑不仅适用于新的数据如来自下一代测序技术的高维数据,还包括现有的遗留数据如代表数十年工作的体内毒理学研究数据,广阔动物数量和数百万美元的相关数据。各种各样的团体在数据可以共享方面对创造数据共同空间和确定可以数据共享时应当遵守的原则有着强烈的兴趣。科学研究人员想发表他们的论文数据和相关分析并提供翻译机会给那些需要可替代的翻译文献的人员。为保证出版物得到透明,易于访问的数据源和资助机构最近加强了对正确数据管理的关注以确保赠款用来支持有价值的研究这三个方面,杂志编辑出版商也面临着内部和外部的压力。例如,Holdren备忘录要求:得到美国联邦纳税人美元支持的工作应以公开的方式向公众公开。类似的裁决应由欧洲各国和欧盟委员会提供并被支持研究。最后,包括软件和工具构建者在内的数据科学界需要有权限访问广泛的,标准化的数据库以有效地处理、分析和整合多种信息来源,从而有效地推进科学发现。最近的一些举措和活动将这些不同的利益相关者聚集在一起,他们进行资源和经验的汇合、讨论分享数据的挑战和机会,并在可以统治这个共同理想进程方面达成一致。

这样的一个倡议导致了用于科学数据和工作管理的FAIR原则(表1)的出版(Wilkinson 等人作于2016)。这四个原则已经成为包括健康研究所(NIH)以及更广泛的科学研究社区在内的国家数据实践的主要目标。 对于NIH,其数据对象是联邦存储的,在内部和外部数据都必须经由如数字对象标识符(DOI)才可以被发现和访问,这意味着它们可以同时被人和机器所读取和翻译。数据集应该用元数据来描述,使用标准化的本体论可互操作的方式,允许适当的编目和存储以确保它们可以与其他数据集成来源,因此可以重复使用。国家环境卫生科学研究所(IEHS)和相关的国家毒理学计划(NTP)正在进行不断的努力,随着数据科学家正努力将这些原则付诸实践,他们提供了大型研究社区的一种快速缩影。NIEHS和NIH的其他部门旨在处理数据系统和技术,数据管理实践,元数据捕获和标准,资金建立和维持系统的机制和资源,以及围绕数据使用的政策等问题。 NIEHS正在建设中一个Data Commons,它将作为一个通用平台用于管理研究数据,并且正在开发一个用于策划新的和现有的数据集术语/本体的元数据目录。对数据来源​​的捕获,搜索功能和可视化分析,可以同时使用用户界面和Web应用程序编程接口(APIs)的研究正进行巨大的努力。该接口将提供生物系统的化学作用CEBS(包含所有生物系统NTP的数据以网页访问格式https://www.
niehs.nih.gov/research/resources/databases/cebs
)和其它资源例如美国环保局的化学仪表板(https://comptox.epa.gov/dashboard),PubChem(https://pubchem.ncbi.nlm.nih.gov/)和NLM ToxNet(https://toxnet.nlm.nih.gov/)数据库之间的桥梁。

表1 FAIR科学数据和工作管理的指导原则 Wilkinson 等人作于2016年

公平原则

可查找

数据对象应该是唯一且永久可识别的

可获得

数据可由授权用户(人员和机器)通过定义完善的协议访问

可操作

(元)分配给数据对象的数据在语法上可以解析并且可以在语义上机器可访问

可重复使用

数据对象必须符合上述三项原则,并且已经充分记录以允许与其他数据源进行集成/链接

针对与3Rs相关的数据共享,NTP替代毒理学方法评估机构中心(NICEATM)已经建立了综合性的化学环境(ICE:https://ice.ntp.niehs.nih.gov/)并将FAIR原则应用于非动物体外和体外硅片数据以及传统的动物体内数据(Bell等人作于2017年)。ICE的数据集成商是门户网站用户可以通过它比较可替代方法和使用现有的动物数据建立预测模型锚定端点,以帮助建立科学依据采用新方法的一部分。

通过与可替代方法验证机构协调委员会(ICCVAM)以及参加该委员会的16个联邦机构的协调,NICEATM还协助制定了美国化学品和医疗安全检测现代化战略路线图产品(https://ntp.niehs.nih.gov/go/natl-strategy)。 该路线图的战略目标之一是促进有效,灵活和强大的实践的使用,以建立对新方法的信心(Casey作于 2016年)。与此目标相关的一些具体目标包括识别和整理高质量人类毒理学的来源和暴露数据,创建可公开获取且易于访问的集中式数据访问点,积极征求现有动物研究和新替代方法的并行数据的提交和整理,并利用合作伙伴关系和补充举措,所有这些目标都需要FAIR数据共享实践。

对于NIH和更广泛的科学界而言,FAIR原则的某些方面特别具有挑战性。 数据的互操作性和可重用性很大程度上取决于当前的问题,需要许多方面的一致和协调。还有其他一些纯粹实际的问题,这些问题是由于敏感信息数据集和策略的大小造成的,这些问题会导致数据可能无法移动,并且必须将计算移至数据。 此外,在现有资源的情况下,科学界必须指导数据的存储、访问、分析和维护的优先级。

数据使用:大数据与信息数据

生物学的中心教条的经典观点是DNA中的编码遗传信息被转录成信使RNA(mRNA),其含有用于蛋白质合成的程序。现代生物学正在扩展这一点,并将所有尺度视为互动网络的复杂系统。例如,尽管细胞组分最终由基因组通过调节性RNA和蛋白质序列编码,细胞表型从信号转导和控制蛋白质 - 蛋白质相互作用和代谢网络的基因调控网络的相互作用中出现。器官和生物体表型从发育途径中出现,细胞(连接体)和由这些细胞沉积的细胞外基质以及环境条件之间的结构连接。

最后,生态系统网络从进化,有机体营养关系和环境条件出现。对这些数据的认识和理解需要生物信息学和先进的分析技术。然而,对这些数据的深入了解迄今尚未成为毒理学领域,其侧重于了解化学物质对生物体的不利影响。历史上毒理学家应用后者的数据来解决安全评估问题。无论我们是否考虑采用旧方法还是新方法,该流程都始于一个问题表述,该表述必须确定要解决的问题。下一步是建立一个测试策略来解决这个问题的解决方法,并且确定可能需要哪些类型的数据来解决这个问题。越来越多的科学和监管机构正在采用新的方法,为如何构建,存储和分析带来挑战。专家们正在引入生物学,暴露和毒理学的数据结构,而这些大型概念被认为是大数据。将这些数据应用于毒理学相关问题需要将社区聚集在一起,以确定需求并提供必要的数据。

在新方法中,评估新化学品的最初挑战是确定毒性假设来测试。毒理学已经有概念框架确定解决这个问题的方法。阅读和化学分类可能表明已知与特定类型化学有关的毒性终点。大数据方法可能对此有所帮助,但实际上,示例的数量非常有限。通常对于预测性毒理学,我们需要回答以下问题:(1)化学物质可能的目标是什么;(2)干扰目标的已知或推断的毒性效应是什么?目前的Ensembl人类基因组数据库(https://www.ensembl.org/index.html)有20338个编码基因,ChEMBL(https://www.ebi.ac.uk/chembl/)拥有大约170万种不同的化合物,在许多物种的11,538个目标上测量了1400万次活动。我们可能会考虑使用这些数据来构建化学结合蛋白质靶标的QSAR模型,以帮助回答我们的第一个问题。实际上,虽然这看起来像一个大数据集,但实际情况是,数据深度超出了目标的范围,对更多目标而言很浅,而且大多数目标都不存在。然后使用这样的数据进行大数据分析的挑战就是通过从现有数据中学习并将其应用于其他目标来弥补差距。一旦我们确定了化学物质可能与之相互作用的潜在目标,鉴于现代分子生物学揭示的复杂性,对哪种毒性可能发生的预测是具有挑战性的。相反,毒性的目标解卷积也是具有挑战性的,因此大多数毒性的机制尚未确定。建立毒性和附属机制的纲要可能有助于我们处理这种复杂性,而先进的机器学习方法对获得这些见解很重要。一些大数据的趋势可能会使未来的毒理学中断,并为3Rs带来潜在收益。越来越多的人将通过个性化医疗应用生成数据来构建“量化自我”。用于实时检测的传感器越来越便宜,并且可以与移动电话连接,从而创建GPS位置数据的数字唤醒。同样,与物理设备网络相比,“事物”网络越来越多,并且更多地使用精确方法,例如,农业可以探索跟踪商业物品的信息。如果我们可以学习整合这些数据,那么我们是否可以更好地了解暴露和健康的关联,从而提高对流行病学的理解,同时能够测量实际的人体毒性通路扰动?

整合大型数据流进行毒性预测:重组毒理学

大数据已经以多种方式用于预测毒理学。关于化学品的毒性,暴露和其他相关信息(如物理化学性质)存在大量的数据。这些数据已经汇编成数据库,可以通过各种手段进行搜索,特别是通过化学结构进行搜索。这通过类比(read-across)方式促进了风险评估,并创建了毒理学相似的化学品分组。例如,EPA的ACToR(https://actor.epa.gov/actor/home.xhtml)汇总了来自数百种来源的成百上千种化学品的数据(Judson等人 作于2012年)。这些大量的数据汇总有可能以一致、系统的方式进行解读,其中可以考虑所有相关类似物(Shah等人作于2016年)。来自ToxCast等高通量测试系统的数据或来自毒素基因组学的高含量数据正在被用于生成比通过传统方法测试的化学物质更多的生物效应数据,这使得可以考虑生物效能来确定化学品需要更多关注的优先事项。以前,只能使用基本的接触代用品(如生产量或潜在的广泛使用)或最简单的毒性试探法来优先考虑化学品。估算暴露量的大数据和计算方法大大提高了我们处理需求评估化学品积压的能力(Wambaugh 等人作于2013年)。也就是说,正如前面所强调的那样,在编制数据,确保数据质量,优化数据集的互操作性以及确定如何解释这些数据以进行风险评估方面仍然存在重大挑战。

其中一个主要挑战是表征生物效应的大数据流覆盖分子或细胞水平,而风险评估是基于器官或生物体水平的不利影响进行的。解决这一挑战需要大量的研究来确定和量化初始效果和最终结果之间的关键步骤。这样做的第一个基本步骤是重新组织基于终点的药物毒理学到基于作用模式的毒理学。创建行动模式本体的项目(ECETOC作于 2016年)将作为组织结构以及划定可能的行动模式的范围。拥有这样的本体论将确定高吞吐量电池中存在差距的地方,并且将允许基于针对特定化学结构的合理行动模式来定制测试。通过构建本质上多层次的本体论(即化学,基因表达,细胞反应,不良结果),已经充分研究了化学物质,将行动方式与不良结果联系起来的挑战将至少得到部分满足。然而,确定和量化从机制到结果的途径中的关键事件将需要复杂的体外模型和计算模拟以迭代的方式进行。根据作用模式组织的多个数据流也应该通过机器学习来促进数据中的模式的识别。

细胞信号的大数据和动力学:毒物学(家)的未来

尽管公有领域有大量数据可供使用,包括美国环保局的化学仪表板(https://comptox.epa.gov/dashboard),LINCS(http://lincsportal.ccs.miami.edu/dcic-portal/

和TGGATE(http://toxic

全文共7200字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13807],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。