材料信息学的新方法:数据挖掘助力发现隐藏规律外文翻译资料

 2022-01-06 09:01

英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料


New opportunities for materials informatics: Resources and data mining techniques for uncovering hidden relationships

材料信息学的新方法:数据挖掘助力发现隐藏规律

Abstract文摘:

数据挖掘让各行各业都发生了巨大变革,从新药研发到金融行业,从临床医学到市场预测——同样也会改变和它们有着相同发展潜力的材料科学领域。在这篇文章中,我们会说明基于模拟计算的材料数据库,开源的软件工具以及机器学习算法,并且合用它们为材料信息学创造新的机遇。在这篇综述中,我们讨论了的数据挖掘方法包括有:探索性数据分析(exploratory data analysis),聚类(clustering),线性模型(linear models),内核岭回归(KRR),树形回归(tree-based regression)和建立推荐引擎(recommendation engine)。我们将上述数据挖掘方法运用在数种不同应用领域的材料上了,包括:材料组分预测、锂电池组分设计、压电材料、光催化材料和热电材料。最后我们用在Material Project数据库中使用数据挖掘分析超过2500种化合物的化学价态和化合物的导带性质的变化趋势的例子来佐证新数据和工具可以让数据挖掘如何简易而高效的运行。

材料科学传统意义上是一门基于实验的学科。最近几年,理论发展与计算能力提升为材料性质预测和设计提供了新的思路。让计算机设计材料,并交由实验室使其成功复现,可数的成功案例使这种方式已成为发现和优化材料的新常态。现正值计算方法趋于成熟的时候,基于统计分析和机器学习的新的和互补的技术已经做好了令材料科学发生巨大变革的准备。

虽然现代“材料信息学”这一术语的使用可以追溯到10年前,但化学和材料科学中使用信息学方法可追溯到元素周期表建立的时代。当门捷列夫根据元素性质将它们分类的时候,电子还没有被发现,用于支撑化学的电子构型和量子力学的仍在数十年之后才出现。然而门捷列夫的方法不仅是一个很有用的分类方式而且有效的预测了元素周期表上缺失的位置,那些缺失的元素也在之后的实验中被发现和证实。不仅如此,门捷列夫还通过元素周期表发现部分原子的原子量不准确。尽管自门捷列夫的工作以来,这些工具已经有了很大的发展,但如今搜索数据模式仍然是材料信息学的目标。

相比于其他的领域,材料信息学方法才刚刚起步,但是近十年来材料数据库和软件正在迅速发展。在这篇文章中,我们讨论了最近材料信息学的发展,在忽略了微观结构和加工手段的情况下,找出材料的晶体结构组分与其性质的联系。首先,我们先简短的回顾一下基于结晶学的经典研究历史。接着,我们要描述基于计算的数据库的最新的介绍和他们对这个领域的潜在影响。随后,会讨论现代材料信息学的技术和示例。最后,我们举出了一个新的基于开源的数据库和工具的材料信息学研究例子,该研究用于预测新材料的价带和导带特性。值得一提的是,虽然本综述主要讨论数据挖掘研究周期性的固体,但是分子系统也通过数据挖掘方法进行了广泛研究。

I.数据挖掘结晶学数据库的早期例子

材料科学中最早的也是迄今为止最系统化的最有组织的数据集就是基于晶体学的数据。观察化合物的晶体结构可以在无机晶体数据库(ICSD),剑桥结构数据库和鲍林文件等数据库中找到。数十万种的无机化合物的元胞,原子占位和对称性的信息可以从这些数据库中访问获得。

晶格结构数据已经被广泛的用于数据挖掘研究,甚至在“数据挖掘”这个词汇出现之前就已经存在。例如元素的离子半径就是上世纪70年代初的Shannon从大量的晶体学数据集中整理得出的。随后便是通过价键理论对化学键有更加复杂的描述,阳离子的正价与总键强通过阳离子和阴离子联系起来,并用数学表达式描述:

其中sij项是通过简单数学表达式得出的:

或者

其中参数,或者是根据阴阳离子对是特定的,必须通过拟合程序从数据集中提取出来。通过使用ICSD的数据库,Brown等人提取出750个原子对的参数建立了价键表,至今此表仍然被广泛使用。

关于固体中键合的更加具体的问题,比如硼酸盐中氢键和氢键的性质,也可通过使用大型结构数据集得到解答。此外,这些数据有助于研究无机化合物的空间群分布情况,以寻找具有特定晶体学特征和对称性要求的材料(比如铁电材料),以及筛选基于结构的特性(比如扩散路径)。

其他有关晶体学数据库的早期应用还包括晶体学结构预测。早期,人们使用了结构图,它是根据直观的化学特征(电负性,原子序数和离子半径)再通过实验观察得到的晶体结构绘制而成。这些结构图上形成的分组可以用来推断新化合物结晶时的结构。(以图一为例,A1B1即当两种元素化学计量比为1:1的时候。)

Figure 1关于化学计量比为1:1的化合物的结构图的例子。每个符号表示特定的晶体结构原型。 组标轴格式根据“化学尺度”标注的,根据每个元素的原子序数所占周期表的位置而定的。

最近,Morgan一行人使用了现代的交叉验证技术去说明这些结构图它们具有预测的能力并且量化了预测性能,结构图也结合了现代的数据挖掘技术去建立一个可预测的模型用于信息熵和决策树预测二元卤化物闪烁体的模型。

II.新的资源:计算材料,数据库和开源

虽然可以单独使用晶体结构执行数据挖掘,大多数的信息学研究仍需要测量其他材料性能结果。即使很多基于实验得出材料性质的数据库,但是很难从这些资源中提取出大规模的结构-性能的关系。虽然计算数据库也有很多重要的局限性,但仍可补充实验数据库的功能,并促进信息化方式的材料设计。

A.实验材料数据库

一种实验材料数据库时先前提到的结晶学结构数据库,包括了:ISCD、鲍林文件、CRYSTMET和Pearson晶体数据,这些资源最近被Glasser重新整理和总结。材料性质的数据库同样可以获得到,最大的数据库可能是来自于Springer出版社的,该出版社拥有全面的Landolt–Bouml;rnstein数据库。然而大多数的材料性质的信息仍然分散在不同的数据库中间,包括FactSage数据库套件,国家标准与技术研究所数据库,MatWeb数据库,MatNavi数据库和分布在不同出版物之间,比如:Kubaschewski表和三元合金相图手册。我们发现Citrine Informatics (http://www.citrine.io)是一个商业性的信息网站,致力于集中来自于不同的信息源收集到的信息,无论该数据是从实验还是从理论计算得到数据。

这些多样的数据源都在历史上经过了专业的整理和验证,而且是材料研究行业内重要而可信的宝贵资源。虽然可以对这些数据库进行数据挖掘,但存在着完整性和编程访问的限制的问题。从完整性的角度来说,许多材料只测量了一小部分已知晶格结构的材料性质,例如材料的形成能、带隙和弹性张量。但是我们特别缺乏可用于阴性结果的数据,包括失败的尝试性合成和常规的材料特性测量。退一步说,即使可以测量该物质的物性,又会发现材料物相中他们和其他物质共存的情况,人们缺乏对于被测材料的如晶体结构,微尺度结构,掺杂水平等特性的严格描述。缺乏材料的特定描述对于建立数学模型而言很有难度。最后,从数据获取的角度来看大多数的数据库只是被设计成“单一搜索式”而不是方便对数据库的大部分进行系统数据挖掘的样子的。所以现在数据库仍有改变提升的空间,需要让其他种类的数据库可以帮助解决试验记录中的空白。

B.计算材料的数据库

近几年,通过使用高通量计算(典型的基于密度泛函理论,或者被叫做DFT方法处理薛定谔方程)生成材料数据的能力让我们有了新的机会去高效高质量的去数据挖掘。这些有计算驱动的数据库,利用实验数据库中的晶格结构的信息,提供了迄今为止不可用的数据中提取模式和关联的手段。比如说,一个全弹性张量矩阵之测量了大约150个分离的组分,但是现在的高通量计算机可以将这个数量扩大到超过1000种材料。

这些计算驱动的数据库包括:Materials Project, AFLOWlib, Open Quantum Materials Database, Harvard Clean Energy Project, the Electronic Structure Project, NoMaD, NRELMatDB, Computational Materials Repository.其中部分数据库又可以扩展开来,比如Materials Project。时至今日,该数据库有了超过60000种混合物的性质数据也包括了许多不同的性质。AFLOWlib包括了600000关于材料性质的记录。也有针对某一特性集中收集的数据库比如,CatAPP专门收集催化性质相关数据,PhononBD专门收集声子性质相关数据,TEDesign专门收集热电材料相关数据,ESTEST用于验证与确认物理软件。在某些情况下,分开整理的数据库也有做的很好的,比如Harvard Clean Energy Project专门做小分子方向的,AFLOWlib做无机化合物的。也有些数据库会重叠,Materials Project, AFLOWlib和Open Quantum Materials Database就是这样。当然这是后话了,使用人员仍然可以从多个数据库的数据中受益,比如验证结果者是他们主要使用的数据库里找不到数据至少还有备用的数据库可以弥补。不幸的是,现在这里有些数据库没有搜索引擎或者类似的工具去协助从整个数据库搜索,在spirit of ChemSpider数据库中就是如此。着很大可能是程序性访问这些数字源当前存在很多问题,在Sec.II A也就是下一章中Lin对这些不同的计算数据库数据的成果进行了总结和对比。

基于模拟的数据的提升增多的一个主要促进因素是可以获取软件库,这些软件库将大规模的数据生成和数据挖掘带到了更多的研究小组的中去了。比如pymatgen(用于材料分析,绘图,输入/输出到DFT的软件),ASE(用于结构计算和DFT计算接口程序),AFLOW(高通量的DFT框架),AiiDA(高通量DFT的工作流管理),FireWorks(产生工作流并用于高通量计算的软件),这些代码库不断提升着计算的理论精度,也涌现出更强更可靠的DFT软件,计算能力的指数级增长可能会使基于仿真的数据集在未来更加有价值和普遍。

C.程序数据访问

无论是实验数据库还是计算数据库,从数据库下载数据资源去用于材料信息学分许需要一个十分有效率的方法。有许多方法可以公开数据包括直接下载原始和处理过的数据集得到数据。一个更加《现代的方法是对这些公开数据源进行表征状态转移(representational state transfer, REST)并遵从该思想创建数据库应用程序编程接口(application programming interface, API)用于以后的而数据传输转移。此方法在计算机科学界首创,并通过材料项目的材料API(materials API, MAPI)引入了材料世界。到目前为止,MAPI已经为300多个不同的用户提供了超过1500万份材料数据,支持新类型的应用程序和分析。

在基于REST思想(用RESTful表示这个意思)设计下,每个对象都表示为一个唯一的资源标识符(URI),可以使用超文本传输协议(hypertext transfer protocol, HTTP)以统一的方式进行查询。每个文档或对象(如计算任务、晶体结构或材质属性)都由一个唯一的URI(参见图2中的示例)和一个可以作用于该对象的HTTP动词表示。

Figure 2 URL的例子,是MAPI的结构

在大多数情况下,此操作返回表示对象的结构化数据,例如,以JavaScript对象表示法格式(javascript object notation format, JSON)。在基于RESTful设计接口还有一些优点,它包括:

  1. 抽象:RESTful接口使用可以被许多编程语言访问的通用协议。它们隐藏基础数据的详细信息存储实现(即数据是否存储在SQL或NoSQL数据库中),通过公开一组可以对数据执行的干净、一致的操作和查询。
  2. 灵活性:因为它们将实现细节抽象化,所以RESTful接口对底层基础设施的更改具有灵活性。它们还允许在一致的API下,在具有不同内部架构的几个数据库之间进行联合,原则上用户可以为不同的资源编写相同的代码。这种灵活性在构建对不同数据源的通用访问模式时可能变得尤为重要。
  3. 功能:高级接口可以建立在RESTful API之上,这样就可以以面向对象的方式访问和操作非现场数据资源。例如,pymatgen代码库中提供了与mapi的高级接口,允许用户获取材料性质,如晶体结构,电子能带结构,使用内置函数而不是显式地发出HTTP请求。
  4. 保持更新:数据集有可能过时。所以RESTful接口允许随时公开最新版本的数据和查询,而无需用户执行任何操作。用户总是可以选择保留数据,并且URI方案也可以用于保留数据的多个版本。然而,RESTful的API使获取给定分析的最新相关数据变得简单,无需重新下载整个数据库。

对于初学者用户而言,尽管REST接口起初可能很难上手,精心设计的REST接口可提高数据的可发现性,并使最终用户无需了解特定数据库的实现细节,而是通过干净一致的API进行数据分析。

III.现代数据挖掘和实例

随着不断扩展的材料数据集的产生,剩下的主要挑战是开发材料的描述符(有时称为“特征”或“预测器”)并将它们与测量的属性(有时称为“输出”或“响应”)相关联。 通过适当的数据挖掘算法。 在过去的几十年中,已经开发了许多新的方法来使用精细的数学算法从大数据集中提取

全文共17882字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[2046]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。