用强化学习方法求解二维蛋白质折叠问题的一种新的状态空间表示法外文翻译资料-外文翻译网

英语原文共 11 页，剩余内容已隐藏，支付完成后下载完整资料

用强化学习方法求解二维蛋白质折叠问题的一种新的状态空间表示法

Berat Dog˘an lowast;, Tamer Ouml;lmez

土耳其伊斯坦布尔技术大学电子与通信工程系

摘要：在这项研究中，提出了一种新的状态空间表示的蛋白质折叠问题，用于强化学习方法的使用。在现有的研究中，定义状态作用空间的方法阻止了代理为任何氨基酸序列学习状态空间，但是，定义的状态作用空间只对特定的氨基酸序列有效。此外，在现有的方法中，状态空间的大小严格依赖于氨基酸序列的长度。新提出的状态操作空间减少了这种依赖性，并允许代理确定特定长度的任何序列的最佳折叠。此外，通过利用基于蚂蚁的强化学习算法，Ant-Q算法，与标准Q学习算法相比，可以快速找到蛋白质的最佳折叠。实验表明，采用基于蚂蚁的强化学习方法的新状态作用空间更适合于二维网格模型中的蛋白质折叠问题。

关键词：强化学习；蚁群优化；蛋白质折叠；二维HP模型;

文献信息: 2013年8月22日收到，2014年6月13日收到修订版，2014年9月16日接受，2014年10月17日在线提供。

1 引言

蛋白质折叠问题是广泛研究的优化问题，已知其为NP完全的。一旦蛋白质合成，它们就会折叠出独特的三维结构，使其具有功能性或生物活性。折叠过程背后的机制仍然是未知的，但是有一些数学模型被提出来模拟折叠过程并从其氨基酸序列中找到蛋白质的正确折叠。也许最广泛研究的模型是疏水极性（HP）晶格模型，这是Dill首先提出的[1]。在该模型中，每种氨基酸被处理为疏水性（H）或极性（P），并表示为二维或三维晶格结构上的点。

格子是网格状结构，引导算法形成自我避免的蛋白质配置，其中序列中的每个氨基酸仅映射到网格上的特定点。该映射过程通常以两种不同的方式处理。在第一个中，氨基酸序列被认为是恒定链，并且通过迭代地修改网格上每个氨基酸的位置而不破坏该链来进行折叠。而在第二个中，序列中的每个氨基酸被连续添加以在网格上形成连续的和自我避免的氨基酸链，这可以被认为是导航问题或机器人路径规划问题。

结果表明，强化学习方法在解决机器人路径规划问题方面表现良好[2,3]。因此，在本研究中，强化学习方法用于解决二维晶格模型中的蛋白质折叠问题。文献中存在许多研究[4-9]，提出了解决这一问题的不同方法，但强化学习方法的使用是相当新的。在[10-13]中，作者使用Q学习算法来解决二维疏水极性（2D-HP）模型中的蛋白质折叠问题。

为了在2D-HP模型中使用强化学习方法解决蛋白质折叠问题，首先应该正确定义状态 - 动作空间。因此，网格上代理的每次移动都可以很容易地映射到定义的状态 - 动作空间。

在现有研究[10-13]中，为此目的定义了一个国家行动空间。然而，在这些研究中，定义的状态 - 作用空间的大小受氨基酸序列长度的高度影响。随着氨基酸序列长度的增加，所提出的状态 - 作用空间的大小也显着增加。因此，即使对于小尺寸的氨基酸序列，在算法开始时也不可能在计算上创建状态 - 动作空间。唯一的方法是在学习过程中动态创建状态 - 动作空间，这是不可取的。此外，在这些研究中，分别为所有氨基酸序列创建状态 - 作用空间。因此，所有氨基酸序列都具有独特的状态 - 动作空间，算法必须分别学习所有这些状态 - 动作空间。通过这种方式，在学习过程之后，所提出的方法无法找到另一个氨基酸序列的最佳折叠，这与“学习”一词的哲学相矛盾。

在该研究中，为了克服上述缺点，提出了一种新的状态 - 作用空间。建议的状态 - 作用空间允许试剂找到具有特定长度的任何氨基酸序列（蛋白质）的最佳折叠。这是通过使用新提出的状态 - 动作空间将“学习”概念结合到2D HP蛋白质折叠问题来实现的。此外，通过利用基于群的增强方法（Ant-Q算法），与传统的Q学习算法相比，可以快速找到最佳折叠。

本文的其余部分安排如下：在下一节中，介绍了2D-HP模型中的蛋白质折叠问题。在第3节中，给出了2D-HP模型中蛋白质折叠问题的现有状态空间表示。然后，介绍新提出的状态 - 行动空间。在第4节中，给出了增强学习算法，Q学习算法和Ant-Q算法。第5节介绍了所提方法的实验，结果和讨论。最后，第6节总结了这项工作。

2 二维疏水极性模型中的蛋白质折叠问题

已知氨基酸序列（或链）是蛋白质的主要结构，利用基因编码的信息合成蛋白质。然后，这个初级结构被折叠成一个独特的三维结构，使蛋白质起作用。在文献中，从氨基酸序列推断这种三维结构（三级结构）的挑战被称为“蛋白质折叠问题”。由于蛋白质三维结构的发现可以提供有关蛋白质功能的重要线索，因此蛋白质折叠问题对生物界至关重要。

有两种主要的实验方法来确定蛋白质三维结构：X射线结晶学和核磁共振光谱。示波器，两者都能提供原子分辨率的信息。不幸的是，有一类蛋白质是不能用这些实验方法进行三维结构重建的。此外，这些实验方法非常昂贵，用这些方法获得蛋白质的三维结构通常非常耗时，为此，本文提出了从蛋白质的氨基酸序列中找出蛋白质三维结构的计算方法。然而，在计算上寻找最佳折叠序列也是一个有问题的任务。因为，随着氨基酸序列长度的增加，可能的蛋白质构象数量显著增加。因此，所提出的计算方法应能在合理的时间内有效地探索搜索空间。为了实现这一点，在计算方法中，用一些数学能量函数对蛋白质折叠过程进行了建模。人们认为，蛋白质的三维结构是其天然状态，具有最低的能量构象。因此，这个问题发展到通过最小化这些能量函数来找出最低的能量构象。

也许最广泛研究的模型是二维和三维的疏水 - 亲水（HP）晶格模型，这是Dill首先提出的[1]。在该模型中，每个氨基酸侧链被分类为“H”疏水性（被水排斥）或“P”亲水性或极性（喜欢的水）。 Dill对蛋白质的调查确定了疏水性残基（氨基酸）之间的相互作用是蛋白质折叠的主导力量[14]。

让我们定义一个由n个氨基酸组成的蛋白质的基本结构为p。在2d-hp格点模型中，该蛋白质的数学定义如下：

P = p₁p₂p₃....p_n, pi isin; {H, P}, forall;1 le; i le; n (1)

这里，piisin; {H, P}表示链中疏水性或亲水性（极性）的每个氨基酸。一个有效的蛋白质结构用函数C来定义，这样氨基酸链的每个残基都被这个函数映射到笛卡尔坐标中的晶格点。这可以在数学上定义为等式（2）。

B = {P = p₁p₂p₃....p_n|pi isin; {H, P}, forall;1 le; i le; n, n isin; N}

G = {G = (xi, yi)|xi, yi isin; R, 1 le; i le; n} （2）

C : B → G

这里，C:B～G表示笛卡尔坐标中的piisin; {H, P}到格点(xi, yi)的映射过程。在这个映射过程之后，对于1le;i，jle;n且iminus;jge;2，2D-HP晶格模型中产生的蛋白质结构的能量定义如等式（3）所示。

其中(xj, yj) 表示氨基酸piisin; {H,P} 和(xj, yj) 的位置表示氨基酸pjisin; {H,P} 在笛卡尔坐标中的位置。更清楚地说，对于由C在晶格中相邻位置上映射但在一级结构P中不连续的两个氨基酸，能量函数每降低1。这两个氨基酸被称为拓扑邻居[12]。在图1中，给出了蛋白质P = HPHPPHHPHPPHPHHPPHPH 的能量minus;9的样品配置。

图1 P=HPHPPHHPHPPHPHHPPHPH 映射标记后

蛋白质的能量为-9的简单样本结构

3 二维疏水极性晶格模型中蛋白质折叠问题解的状态空间表示

一个有效的蛋白质结构形成了一个自我回避的路径，这意味着两个不同氨基酸在二维网格中的映射位置不能相同。通过考虑所得到的自回避路径，可以用方向的n-1长度序列表示解，该序列编码当前氨基酸与前一个氨基酸的相对位置。让我们考虑图1中给出的配置。由此产生的蛋白质序列可以表示为pi;=RDDLULDLLURURULURRD。

图2 [11]中给出的强化学习方法的状态空间

为了用增强学习方法研究二维HP格点模型中的蛋白质折叠问题，首先提出一种编码上述方向序列的状态作用空间。在以下章节中，分别给出了现有研究[10-13]中定义的状态动作空间和本研究中定义的状态动作空间。（注意，在整个文件中，参考文献[11]使用了相同的符号。）

3.1 现有状态空间表示

Czibula等人提出的状态空间。[10–13]由种状态组成，即，如图2所示。开始时，试剂处于状态。在代理访问了状态，之后的给定时刻，代理到达状态。如果代理在当前序列中访问的状态数为n-1，即k=n-2，是一个终端状态。从初始状态到最终状态的路径形成了蛋白质P的配置。在表1中，给出了每个步骤的结果状态作为蛋白质序列P=HPHPPH的示例。

表一序列P=HPHPPH的现有状态空间表示示例

动作空间A由4个动作L（左）、R（右）、U（上）、D（下）组成，它们是代理当前位置相对于前一个位置的相对方向。因此，作用空间可以给出为，其中=L，=R，=U和=D。在给定时刻，从一个状态sisin;S代理可以通过执行4个可能的动作之一，在4个后继状态中移动。因此，状态s和每个相邻状态s之间的转换概率等于0.25。

3.1.1 对现有状态空间表示的评述

在现有的方法中，状态空间S（代理的环境）由个状态组成，即。让我们考虑图1中给出的序列，它有20个氨基酸。因此，对于这个序列，状态空间s由状态组成。因此，即使在序列长度为20的情况下创建状态动作空间，所需的计算时间也是巨大的，一般PC无法创建如此大的空间。唯一的方法是动态创建状态空间，但在上述研究中没有提供任何关于这一点的信息。综上所述，在现有的方法中，状态空间S的大小严格取决于氨基酸序列的长度。随着氨基酸序列n长度的增加，状态空间的大小也急剧增加。

另一个值得评论的问题是现有方法的学习阶段。让我们再次考虑图1中给出的氨基酸序列。由于状态空间S编码当前氨基酸与前一个氨基酸的相对位置，在学习过程之后，我们所拥有的是一个方向序列，其中最佳的一个被给出为图1中给出的序列的RDDLULDLLURURULURRD 。在这里，应该注意的是，在学习过程结束时，没有任何信息p概述了氨基酸的疏水性和亲水性。这些信息在学习过程结束时完全丢失。因此，对于另一个蛋白质序列，必须重新初始化状态操作空间，并且代理必须了解这个新序列的环境。这种情况与“学习”一词的哲学相冲突。因为在学习过程中，必须保存以前的信息。

3.2 提出的状态空间表示

前一节讨论了现有的强化学习方法的缺点。为了克服这些缺点，本文提出了一种新的状态空间表示方法，与现有的状态空间表示方法不同，所提出的状态作用空间包含了氨基酸的特征。这样，存储在状态动作空间中的信息就得以保存。因此，不需要为另一个氨基酸序列重新初始化状态操作空间。

本节主要介绍拟议状态行动空间的定义。为了与现有方法进行比较，在两种不同的情况下研究了所提出的状态-动作空间。

场景1：在第一种情况下，代理试图只为特定的氨基酸序列找到最佳策略，这也是上述现有方法中的情况。在图3中，给出了这种情况下的建议状态动作空间。如图3所示，新的状态作用空间具有矩阵式结构，其中每个列表示疏水或极性氨基酸序列的元素。还有四个可能的方向L、R、U、D当代理处于S状态时，它可以移动。

图3 建议的方案1的状态空间

表2 序列的状态动作空间（场景1）

在这种情况下，n长度氨基酸序列的状态总数仅由[4·（n-1） 1]个状态组成。让我们再次考虑图1中给出的氨基酸序列P1= HPHPPHHPHPPHPHHPPHPH 。状态总数为[4·（20-1） 1]=77个状态，与现有状态（3.665times;）相比非常小。为了更好地理解表2中给出了短序列P2= HPHPPH的所有状态-动作对。

注意，与现有的方法一样，也不可能谈论实际的“学习”。因为，代理只为相应的氨基酸序列学习空间，因此，Q表只包含这个单独的氨基酸序列的状态-动作对。然而，与现有方法相比，新的状态动作空间仍然具有优势。首先，状态操作空间的大小大大减小，从而允许在算法开始时创建Q表。对于第二个优势，让我们考虑序列P2= HPHPPH 。由于，无需再学习p2的空间。为序列p1创建的Q表已经包含p2的解决方案。但是，由于现有的方法只对方向进行编码，因此无法推断p1是否包含p2。

场景2：在前面的场景中

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[441533]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

用强化学习方法求解二维蛋白质折叠问题的一种新的状态空间表示法外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章