一、用神经网络方法由蛋白质一级序列预测其二级结构含量(英文)(论文文献综述)
张凯[1](2021)在《基于深度学习的假禾谷镰刀菌蛋白质预测研究》文中进行了进一步梳理
张凯[2](2021)在《基于深度学习的假禾谷镰刀菌蛋白质预测研究》文中研究指明生物学是自然科学领域中的一个分支,其研究的天平已经渐渐由实验剖析、数据累积倾斜至生物现存数据解析连同其实验证实,随着生命科学发展思维已经从分析还原到系统的整合,寻找一些强有力的数据分析方法和工具逐渐成为生命科学的发展重点。当前,以生物数据的处理、分析为科研基础的计算机科学技术以及机器学习算法,在生物信息领域取得了卓越的成绩,技术与算法的双剑合璧逐步浸透到生信领域的每个角落。通过计算机预测的方法模拟到的蛋白质模型结构,在蛋白质结构特性、分子间互作机制、抑制病菌药物设计等多方面都发挥着重要作用。本文的主要研究对象是假禾谷镰刀菌,想要解开一个菌种的遗传学奥秘,仅对其基因组中碱基的排列规则探究往往是不够的,还需了解菌种基因的产物―蛋白质。文章方向旨在探索目的菌种的蛋白质层面,基于深度学习的方法研究目标菌种假禾谷镰刀菌的二级结构并展开预测,有助于更深洞悉与探究蛋白质的特殊性能、三维立体构造,以及与之密切相关的重要功能和它们之间是如何互相作用的。截至当前,通过晶体的X射线衍射以及核磁共振试验的方式,在达到一定标准时能够获得蛋白质的构象,但是这些解析方式对于本体的前提要求高,实验条件苛刻,操作费用昂贵并且必须要求专业人员操作,实验耗时长,结果也往往不能保证能解析出结构,所以融合算法的方式估测结构非常有必要。本文采用深度学习中卷积神经网络算法,其能够对选用的公共数据集Cull PDB 6133和CB513进行处理,有效地从大量样本中学习到相应的特征,得到预想的预测精度,最终能够利用CNN训练的模型,预测自己的实验数据,达到期望的结果。
逯畅[3](2020)在《基于序列的膜蛋白配体交互研究》文中研究指明生物信息学是以计算机为辅助工具,通过数学及统计学方法对生物学领域内问题进行建模、分析和仿真的一门交叉学科。随着生物学研究手段取得突破性进展,生物数据不断积累,计算机技术日新月异,生物大数据时代已然来临。生物信息学研究日趋成熟,成为生物学领域不可或缺的重要组成部分,为传统生物研究方法提供强有力的补充和支持。生物信息学在微观领域主要包括基因组学和蛋白质组学,本文研究内容属于蛋白质组学范畴,是用机器学习方法对膜蛋白及跨膜蛋白的结构和功能进行预测分析。膜蛋白是具有特殊结构和功能的一类蛋白质,这类蛋白质与生物膜关系密切,或永久地附着在生物膜上,或短暂地与生物膜发生交互。膜蛋白参与诸多重要的细胞生命活动,例如物质传递、信号传导、免疫应答、能量代谢等。跨膜蛋白是最典型且含量最多的膜蛋白种类,它们贯穿生物膜并永久稳定地嵌于生物膜上,其异常会直接导致疾病的产生。与此同时,跨膜蛋白是医药学领域的重点研究目标,目前市场上超过半数药物的靶蛋白为跨膜蛋白。鉴于膜蛋白及跨膜蛋白的重要生物学意义,科研工作者们一直孜孜不倦地对它们进行研究,并取得了丰硕的成果。利用生物信息学手段对膜蛋白及跨膜蛋白进行研究可以辅助蛋白质相互作用网络建立、代谢通路绘制、药物筛选等工作,针对膜蛋白及跨膜蛋白结构与功能的研究已然成为生物信息学领域的重要研究方向。本文围绕膜蛋白及跨膜蛋白开展一系列研究工作,主要目标是通过机器学习方法,从蛋白质一级序列中提取特征,预测并分析膜蛋白-配体的相互作用。首先,为了弥补一级序列信息不足的缺点,构造两个基于深度学习的跨膜蛋白结构描述符预测器,分别是残基表面可及性预测器(TMP-SSurface)和残基Z坐标预测器(TM-ZC)。残基表面可及性以及Z坐标是与功能密切相关的结构信息,可以为后续针对膜蛋白功能的研究提供帮助。接下来,将预测的残基表面可及性和Z坐标作为特征,构造基于随机森林的膜蛋白-配体结合位点预测器(MPLs-Pred),并根据不同配体类型训练配体特异性预测模型,从而进一步提高预测性能。在对膜蛋白-配体进行研究的过程中,笔者注意到一种典型的以膜蛋白作为靶蛋白的配体:泛醌,并构造了基于XGBoost的泛醌结合蛋白预测器(UBPs-Pred),并对泛醌结合蛋白进行生物信息学分析。根据上述研究思路,本文的研究工作如下:1)本文提出了基于深度学习的跨膜蛋白残基表面可及性预测器TMP-SSurface,残基的表面可及性用于描述残基暴露于外部环境的情况,用相对溶剂可及表面积进行衡量。TMP-SSurface适用于所有类型跨膜蛋白的全序列残基,对跨膜蛋白类型,残基拓扑结构均没有限制,即没有先验知识的约束。TMP-SSurface使用进化保守性、二进制编码以及序列终端标识符作为输入特征,分类模型是Inception与CapsuleNet相融合的复合型深度学习网络。实验证明TMP-SSurface是一个稳定、高效的模型,且具有良好的泛化能力。对不同类型的跨膜蛋白均可取得良好的预测效果。同时,预测器对特征依赖少,深度学习网络可以挖掘跨膜蛋白序列与结构之间的内在联系。2)本文提出了基于深度学习的跨膜蛋白残基Z坐标预测器TM-ZC,跨膜蛋白的残基Z坐标描述残基到生物膜中心平面的垂直距离,是定量衡量残基与生物膜之间相对位置关系的结构描述符。与TMP-SSurface相似,TM-ZC同样适用于所有类型跨膜蛋白的全序列残基,使用者不需要先验知识。TM-ZC使用的特征与TMP-SSurface相同,即进化保守性、二进制编码以及序列终端标识符。分类模型是包含七个卷积层的卷积神经网络。实验证明TM-ZC模型稳定,具有良好的泛化能力,且对各种类的跨膜蛋白预测性能良好。3)在前面工作的基础上,本文提出了基于随机森林的膜蛋白-配体结合位点预测器MPLs-Pred。蛋白质很多基本功能是依赖于与配体发生交互而完成的,配体结合位点预测是蛋白质功能注释的重要工作之一。MPLs-Pred使用四种特征对膜蛋白残基进行特征编码,分别为进化保守性、物理化学属性、表面可及性以及Z坐标,其中表面可及性和Z坐标分别由TMP-SSurface和TM-ZC预测得到。MPLs-Pred的分类器为随机森林,并使用多倍随机欠采样策略解决严重的样本不平衡问题。此外,考虑到不同配体存在巨大差异,将配体分为三种类型,分别为类药化合物、金属以及生物大分子,并分别训练得到配体特异性预测模型,进一步提高预测器性能。除此之外,本研究还对人类的类药化合物靶标膜蛋白进行了基因本体富集分析和KEGG通路富集分析。4)在对膜蛋白-配体交互数据进行整理分析的过程中,泛醌引起了笔者的关注,其靶蛋白中有86.9%为膜蛋白,其中68.5%为跨膜蛋白,是一种典型的以膜蛋白作为靶标的配体。本文提出了泛醌结合蛋白识别模型UBPs-Pred,并对泛醌结合蛋白进行生物信息学分析。UBPs-Pred使用氨基酸组成、二肽组成以及进化保守性三种特征对蛋白质进行特征编码,使用随机森林对特征重要性进行排序,并通过增量特征选择策略进行特征选择。UBPs-Pred使用XGBoost作为分类器,考虑到XGBoost涉及参数较多且性能对参数敏感,本实验使用多目标粒子群算法对XGBoost的参数进行优化。实验证明UBPs-Pred性能很好。为了对泛醌结合蛋白进行进一步了解,本实验对泛醌结合蛋白进行了生物信息学分析,包括:对泛醌结合域中的模体进行统计;对泛醌结合蛋白的超级家族进行分类统计;对人类的泛醌结合蛋白进行基因本体富集分析以及KEGG通路富集分析。
阚雯雯[4](2020)在《基于改进特征和深度神经网络的microRNA预测方法研究》文中提出非编码核糖核酸是一类不编码蛋白质的核糖核酸的总称,虽不编码蛋白质但在生物体生命过程中扮演着重要角色。微小核糖核酸是非编码核糖核酸中长度约为20个核苷酸的小分子,既能参与生命转录过程中的调控,也能参与转录过程后的调控,微小核糖核酸特别是病毒类型微小核糖核酸的异常表达还与疾病息息相关。因此,从有相似环状结构的发夹序列中区别出真正的微小核糖核酸具有重要意义。本文提出基于改进特征和有监督自组织映射神经网络的微小核糖核酸预测方法,将多级特征和有监督自组织映射的优势有效结合。对于给定的已知序列信息的待查询数据,使用二级结构预测软件得出结构信息,融合基于一级序列的特征和基于二级结构的特征形成方法的特征集。构建有监督的自组织映射三层神经网络,将抽取好的特征向量作为神经网络的输入层,自组织映射作为神经网络的隐含层,输入序列的类别标签两种输出值作为输出层。自组织映射层与输入层全连接,学习输入数据并将其高维空间分布信息映射到低维拓扑输出中。有监督输出层与自组织映射层全连接,前向传输中利用自组织映射层学习到的新特征计算输出标签和误差值,反向传输中将误差回送至神经网络以更新连接权重。结果表明:1)在人类类型和病毒类型的微小核糖核酸数据集上进行验证实验,证明了在序列特征基础上融合使用结构特征有助于提升预测方法的鉴别力;2)在病毒类型微小核糖核酸序列数据集合上同现有部分方法进行对比实验,交叉验证的各实验性能指标值说明了方法的有效性。本文还尝试延展方法至非编码核糖核酸的预测中,在多来源不同物种类型数据集上进行实验,对比说明方法对不同物种非编码核糖核酸预测工作的应用可能。实验结果表明,抽取多种特征并结合有监督自组织映射神经网络的预测方法能在一定程度上提升预测性能,有其应用前景。
赵兴海[5](2019)在《预测蛋白质二级结构的半监督对抗生成网络模型研究》文中进行了进一步梳理随着高通量测序技术的发展,只利用序列信息预测蛋白质二级结构成为计算生物学研究的热点问题之一。当前的机器学习方法使用大量的标注样本,通过构建监督学习模型实现二级结构的预测。然而获得二级结构的标注信息往往需要大量的生物学实验和人工纠正,是一项耗时且代价昂贵的任务。本文提出只利用较少标注样本来预测蛋白质二级结构的半监督对抗生成网络模型,主要贡献包括:(1)首先,对实验所用到的数据集进行数据清洗,对数据集的蛋白质一级结构进行特征提取,将一级结构的位置特异性评分矩阵作为本研究的数据特征。紧接着为了在训练过程中满足半监督学习的条件。为训练集设置一个向量(label_masked),其目的是为了遮挡有标签的氨基酸的二级结构类型的标签,从而达到半监督学习进行训练的目的。(2)其次,本研究提出一种利用较少标注样本来预测蛋白质二级结构的半监督对抗生成网络深度学习模型。该模型是基于生成对抗网络的思想进行搭建的。模型的训练数据利用大量无标签的数据进行半监督学习训练,避免了传统监督学习预测蛋白质二级结构需要进行繁琐标注的问题繁琐的工作。(3)最后,对模型进行训练调参,最终模型对于CullPDB6133的测试集数据在有缺失数据的训练后分别达到~70.2%的Q8预测精度和~81.8%的Q3预测精度。在独立数据集CB513上获得的Q8和Q3预测精度分别达到~66.2和79.8%。
李艳萍[6](2019)在《基于决策森林的蛋白质二级结构预测算法研究》文中指出蛋白质是人类机体的重要组成并且机体内几乎所有的活动都需要具有特定功能的蛋白质参与。蛋白质的空间结构决定其主要功能。因此对于蛋白质结构的研究有助于更好的了解它的功能。但并不能直接通过模拟蛋白质的折叠过程来了解它的空间结构。然而蛋白质是由氨基酸序列组成的,因此,通过氨基酸序列来预测蛋白质的二级结构进而了解它的三维构象便成为了一种常用的方法。在大数据、云计算和人工智能快速发展的时代背景下,采用机器学习的方法对蛋白质的二级结构进行预测已经成为生物信息学中的一个研究热点。基于决策树森林模型及机器学习技术,本文深入研究了蛋白质的八类二级结构预测,主要研究内容如下:针对蛋白质的八类二级结构预测问题,提出了一种基于梯度提升的决策森林预测算法。该算法基于氨基酸序列的PSSM谱特征采用交叉熵损失函数的二阶泰勒近似作为优化目标,以决策树确定的映射函数作为优化参数,通过贪婪地在特征值上选取最佳分裂点来构造决策树。此外,为了防止过拟合,进一步在目标函数中引入了2L正则化项,以便控制模型的复杂度。在标准的CB513蛋白质二级结构评估数据集上,本文提出的算法达到了64.89%的8Q准确率。针对梯度提升决策森林算法运行速度慢的缺点,本文基于直方图思想提出了一种快速梯度提升的预测模型。该模型通过直方图的方法将样本特征离散化,对于大量的样本数据采用单边梯度技术对数据进行采样,并采用特征绑定技术对多维特征进行降维,实现了样本数量和特征两个维度的并行。通过大量的实验对影响模型性能的指标进行分析,实验结果表明,基于本文所提出的快速梯度提升算法对蛋白质的二级结构进行预测,在测试集上的8Q准确率达到了66.35%。另外,在同样的数据集上,相对于其他算法来比较,本文所提出的算法运行速度非常快,时间复杂度很小。
王蕾蕾[7](2019)在《基于条件随机场与深度学习的蛋白质二级结构预测》文中进行了进一步梳理随着生物信息学的发展,蛋白质数据库中的蛋白质序列信息越来越多,尤其是生物信息学的出现,使得人们能够更好地利用这些蛋白质信息了解生物系统。生物信息学可以利用这些序列信息寻找相关的蛋白质,并收集其他信息推测未知蛋白质的结构和功能等可能的特性。蛋白质结构分析预测也经常被用在药物设计中。通过实验方法获取蛋白质二级结构所需的成本高,专业人才紧缺,所以目前面临的核心问题就是利用生物信息学找到一种能够高效地预测蛋白质二级结构的算法。本文使用深度学习算法和条件随机场算法对蛋白质二级结构进行预测。在蛋白质数据处理中,本文用到了位置特异性矩阵(Position-Specific Scoring Matrix,PSSM),同时为了更好的表示氨基酸序列,使用了滑动窗口技术。在蛋白质二级结构预测算法方面,本文提出了两种学习分类方法:第一种是卷积神经网络结合Softmax分类器的算法,此方法改进了卷积神经网络的模型结构,针对梯度消失问题在各卷积层之后添加了修正线性单元(Rectified Linear Units,ReLU)激活层,为了最大限度地保留原始数据的重要特征,提取了全连接层之前的特征数据作为Softmax分类器的输入,对蛋白质二级结构进行分类和预测,与传统的卷积神经网络方法比较,此方法提高了预测精度。第二种是基于集成学习的思想:使用了一种简单的集成策略把卷积神经网络和条件随机场模型进行了结合,使得这两种学习器最大限度的发挥自身的优势同时弥补彼此的缺点,最后用本文的集成分类器对蛋白质二级结构进行分类和预测,提高了预测的精度。实验证明,本文提出的两种方法在公开的蛋白质数据集25PDB数据集上准确率有所提高。实验证明,由卷积神经网络和条件随机场模型基于集成学习策略组成的集成学习器在25PDB数据集上的预测准确率高于CNN-Softmax网络模型,所以,深度学习算法与条件随机场模型结合可以更好地提高蛋白质二级结构的预测准确率。
潘彦园[8](2019)在《新型生物酶的挖掘算法研究》文中进行了进一步梳理卤醇脱卤酶是一类重要的蛋白质,它不仅能通过开环反应催化有毒污染物的降解,还能作为亲核试剂促进高价值药物中间体的生成。卤醇脱卤酶在自然界中的分布极为稀少,目前仅在少数菌株中发现过卤醇脱卤酶酶活性的表达。已有的生成卤醇脱卤酶的生物实验虽然可行,但存在成本高昂且效率过低的问题。因此,根据已测定的卤醇脱卤酶序列高效挖掘更多的新卤醇脱卤酶序列,丰富已有的卤醇脱卤酶数据集的需求显得尤为迫切。另一方面,深度生成模型在图像处理、语音识别和文本生成领域都取得了令人惊喜的成果,但在生物序列方面的应用仍然存在较大的空白。综合考虑以上两个因素,本文提出了一种新的研究思路——将深度生成模型应用于新型卤醇脱卤酶序列挖掘研究之中。为实现新卤醇脱卤酶序列的挖掘,本文首先根据已有相关的序列知识构建卤醇脱卤酶数据集,然后识别卤醇脱卤酶序列中的模体,再使用深度生成模型生成新卤醇脱卤酶序列,最后建立分类模型对生成的序列进行挖掘预测。本文主要内容及创新点如下:1)提出了将模体的判别能力考虑在内的模体识别算法。使用已有的MEME算法识别卤醇脱卤酶正样本包含的模体后,计算模体的判别式评分特征(MSC、MOR和MRE),并据此筛选过滤在卤醇脱卤酶正负样本中分布差异过小的模体。2)将深度生成模型应用于卤醇脱卤酶序列生成任务。本文首先使用LSTM网络生成卤醇脱卤酶序列,因为LSTM生成的卤醇脱卤酶序列的多样性差、序列长度过短,因此改用在文本生成领域取得了显着成就的SeqGAN模型进行序列生成,并在传统的SeqGAN模型中加入一个反馈回路以指导判别器的训练。SeqGAN模型生成的序列在序列多样性方面较LSTM有一定的改进,但其序列长度仍存在着均值过低、标准差过大的问题;为解决这一问题,本文使用在长文本生成领域有出色表现的LeakGAN模型作为序列生成模型,在传统模型的基础上为其加入了一个反馈回路以提高生成的序列的质量,实验结果表明改进后的LeakGAN模型能够高效生成具有生物学意义的卤醇脱卤酶序列。3)提出了一个可对生成的卤醇脱卤酶序列实行高效分类的判别模型。首先建立g-gap特征树确定需要提取的特征,再将从序列信息中提取出来的特征进行选择及离散化,最后使用多项式朴素贝叶斯模型对带反馈回路的LeakGAN模型生成的卤醇脱卤酶序列进行功能预测。
李宁波[9](2017)在《基于平衡分类算法的蛋白质二级结构预测》文中提出蛋白质在生命过程中起着非常关键的作用,是生命活动的物质承担者。而蛋白质的结构决定了其功能,因此通过蛋白质结构预测其在生命过程中的功能非常重要。蛋白质结构分为四个层次:一级结构是指蛋白质序列的氨基酸残基排列;二级结构是指蛋白质多肽链上的局部空间构象(螺旋helix、片层Stand和卷曲coil);三级结构蛋白质多肽链上所有原子的空间位置;而拥有多条多肽链的蛋白质还具有四级结构,也就是多条多肽链的相对位置。与蛋白质功能直接相关的是蛋白质的三级结构,然而本文很难直接获取蛋白质的三级结构信息,传统的物理化学检测方法耗时耗力,很难胜任,直接从蛋白质一级序列信息预测蛋白质三级结构又及其困难,因此蛋白质二级结构预测作为一级结构与三级结构的桥梁存在广泛的前景。不过由于蛋白质二级结构中片层结构含量普遍较低,加上传统机器学习分类器无法采集蛋白质一级结构中位点远端的相互作用,使得片层结构预测率不足,直接影响蛋白质二级结构预测的效果。本文试图改进已有的PSIPRED算法(一种基于人工神经网络的分类算法,以序列的位置特异性得分矩阵为样本输入),引入平衡的分类机制,使得算法预测更为平衡、有效,最后应用于蛋白质三级结构中蛋白质结构类的预测。本文做出的改进尝试及其创新点如下:1.尝试四种改进的策略,分别是:改变神经网络的输入编码,引入更多与远端相互作用相关的序列信息,例如残基分子量大小、等电点、亲水性等;采取平衡的抽样策略,在训练过程中对含量较低的结构重复抽样;在训练过程中采用加权的代价函数;对神经网络的输出进行加权评估以平衡分类器的输出。最终发现,采用对神经网络输结果进行加权的策略最为有效,本文在改进的CB513数据集上采用8折交叉验证得到的总体准确率为74.28%,相应的beta-sheet准确率为63.73,比原始方法高出2.34个百分点。2.以已经预测的蛋白质二级结构的混沌游戏表示chaos games representation(CGR)作为蛋白质结构类预测(structural classes prediction)的输入特征交于神经网络进行蛋白质结构类的预测。最终在Astral40数据集上获得了71%的准确率,比直接用一级序列信息的CGR方法高出许多。本文采用的方法能够较为有效地预测蛋白质的结构类。
张丽超[10](2015)在《基于序列的蛋白质结构预测的机器学习模型》文中研究说明从急剧膨胀的蛋白质序列数据信息中分析其结构和生物功能是后基因组时代面临的一个重要挑战。蛋白质结构类型能直观描述蛋白质的完整空间折叠结构模式,是解释蛋白质结构和功能的重要信息来源,为相关生物技术的发展提供了理论依据。然而确定蛋白质结构类型的传统生物实验方法不仅周期长而且成本高,所以利用数学方法和计算机技术开发快速有效的蛋白质结构类预测模型与实验方法互为补充将是一项非常有意义的工作。本文以蛋白质结构类预测为研究背景,基于统计模式识别的理论与方法,深入研究了蛋白质结构类预测中的特征表示问题,主要成果有:(1)本文提出了基于蛋白质二级结构信息的特征表示方法。该方法在预测的线性二级结构序列基础上,从二级结构含量、顺序和距离三个角度分别设计反映二级结构元素含量及其空间排列方式的特征,特别是大量与二级结构片段相关的距离特征。通过四个低序列相似性数据集上与其它基于二级结构的预测方法对比结果表明,这种基于二级结构含量、顺序和距离设计的特征表示方法更能有效地描述蛋白质二级结构的空间排布信息,其总体分类准确率以及α/β类和α+β类分类准确率有着不同程度的提高,是一种有效的特征表示方法。另外,为了研究蛋白质罕见二级结构对结构类预测性能的影响,设计了9个基于罕见二级结构的特征,实验结果说明罕见二级结构信息可以有效的改进蛋白质结构类预测模型的性能。(2)本文提出了基于蛋白质序列进化信息的特征表示方法。蛋白质进化信息反映了蛋白质序列中各个位置的氨基酸残基在进化过程中的保守性,这对揭示蛋白质的结构和功能有重要意义。从蛋白质氨基酸序列出发,由PSI-BLAST预测获取相应的位置特异性打分矩阵,设计了五种蛋白质氨基酸进化差异公式用于蛋白质序列特征表示。两个低序列相似性数据集上的预测结果显示了本文提出方法的有效性。此外,研究了基于二级结构和进化信息的多特征融合的蛋白质结构类预测方法,实验结果表明有效的特征融合确实可以显着改善原有基于单一信息来源的特征预测模型的分类准确率,这为基于多源信息特征融合来预测蛋白质结构类提供了新思路。
二、用神经网络方法由蛋白质一级序列预测其二级结构含量(英文)(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、用神经网络方法由蛋白质一级序列预测其二级结构含量(英文)(论文提纲范文)
(2)基于深度学习的假禾谷镰刀菌蛋白质预测研究(论文提纲范文)
致谢 |
摘要 |
1 绪论 |
1.1 引言 |
1.2 研究背景及意义 |
1.3 研究现状 |
1.3.1 深度学习研究现状 |
1.3.2 假禾谷镰刀菌研究现状 |
1.3.3 蛋白质二级结构之预测研究现势 |
1.4 本文主要研究内容及章节安排 |
1.4.1 研究内容 |
1.4.2 论文结构安排 |
2 蛋白质及其结构简介 |
2.1 蛋白质基本信息 |
2.2 蛋白质空间结构 |
2.2.1 蛋白质一级结构 |
2.2.2 蛋白质二级结构 |
2.2.3 蛋白质三级结构 |
2.2.4 蛋白质四级级结构 |
3 关键技术综述 |
3.1 蛋白质编码方式 |
3.1.1 正交编码方法 |
3.1.2 PSSM编码方法 |
3.1.3 Profile编码方法 |
3.1.4 PseAAC编码方法 |
3.2 蛋白质二级结构预测评价指标 |
3.3 蛋白质二级结构预测方法 |
3.4 蛋白质结构预测公共数据集 |
3.5 本章小结 |
4 基于卷积神经网络的蛋白质二级结构预测 |
4.1 卷积神经网络概要 |
4.2 卷积神经网络模型 |
4.2.1 网络结构 |
4.2.2 输入层 |
4.2.3 卷积层 |
4.2.4 池化层 |
4.2.5 激活函数 |
4.2.6 全连接层与Dropout |
4.2.7 梯度下降法与Softmax函数 |
4.3 实验过程及结果分析 |
4.3.1 环境搭建与重要参数 |
4.3.2 实验过程 |
4.3.3 基于CNN方法模型改进 |
4.4 基于CNN的假禾谷镰刀菌蛋白质二级结构预测 |
4.4.1 假禾谷镰刀菌简介 |
4.4.2 假禾谷镰刀菌氨基酸序列来源 |
4.4.3 氨基酸序列编码 |
4.5 本章小结 |
5 总结与展望 |
5.1 研究课题总结 |
5.2 研究工作展望 |
参考文献 |
ABSTRACT |
(3)基于序列的膜蛋白配体交互研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 生物信息学及蛋白质组学 |
1.1.1 生物信息学 |
1.1.2 蛋白质组学 |
1.2 膜蛋白及跨膜蛋白 |
1.3 研究相关数据资源 |
1.4 研究相关工具资源 |
1.5 本文工作 |
1.5.1 本文研究内容 |
1.5.2 本文组织结构 |
第二章 跨膜蛋白残基表面可及性预测 |
2.1 引言 |
2.2 研究背景与思路 |
2.3 实验方法 |
2.3.1 数据集 |
2.3.2 计算rASA |
2.3.3 特征编码 |
2.3.4 TMP-SSurface回归模型 |
2.3.5 从概率到rASA |
2.3.6 实验环境 |
2.3.7 评价指标 |
2.4 实验结果及讨论 |
2.4.1 模型稳定性测试 |
2.4.2 模型训练过程 |
2.4.3 参数选择 |
2.4.4 子网络消融实验 |
2.4.5 不同类型跨膜蛋白测试 |
2.4.6 预测器性能对比 |
2.4.7 短序列跨膜蛋白测试 |
2.4.8 预测器效率对比 |
2.4.9 案例分析 |
2.5 本章小结 |
第三章 跨膜蛋白残基Z坐标预测 |
3.1 引言 |
3.2 研究背景与思路 |
3.3 实验方法 |
3.3.1 数据集 |
3.3.2 计算残基Z坐标 |
3.3.3 特征编码 |
3.3.4 TM-ZC回归模型 |
3.3.5 实验环境 |
3.3.6 评价指标 |
3.4 实验结果及讨论 |
3.4.1 特征分析 |
3.4.2 滑窗尺寸调整 |
3.4.3 Z坐标阈值调整 |
3.4.4 模型稳定性测试 |
3.4.5 不同类型跨膜蛋白测试 |
3.4.6 预测器性能对比 |
3.4.7 拓扑结构相关性 |
3.4.8 案例分析 |
3.5 本章小结 |
第四章 膜蛋白-配体结合位点预测 |
4.1 引言 |
4.2 研究背景与思路 |
4.3 实验方法 |
4.3.1 数据集 |
4.3.2 特征编码 |
4.3.3 MPLs-Pred分类模型 |
4.3.4 实验环境 |
4.3.5 评价指标 |
4.4 实验结果及讨论 |
4.4.1 配体结合位点分析 |
4.4.2 特征分析 |
4.4.3 多倍随机欠采样测试 |
4.4.4 分类算法对比 |
4.4.5 配体特异性模型性能 |
4.4.6 独立测试结果 |
4.4.7 预测器性能对比 |
4.4.8 案例分析 |
4.4.9 人类药物靶标膜蛋白分析 |
4.5 本章小结 |
第五章 泛醌结合蛋白识别与分析 |
5.1 引言 |
5.2 研究背景与思路 |
5.3 实验方法 |
5.3.1 数据集 |
5.3.2 特征编码 |
5.3.3 特征选择 |
5.3.4 UBPs-Pred分类模型 |
5.3.5 参数寻优 |
5.3.6 实验环境 |
5.3.7 评价指标 |
5.4 实验结果及讨论 |
5.4.1 分类算法对比 |
5.4.2 特征选择结果 |
5.4.3 参数寻优结果 |
5.4.4 预测器性能 |
5.4.5 案例分析 |
5.4.6 泛醌结合域模体统计 |
5.4.7 泛醌结合蛋白超级家族分布 |
5.4.8 人类泛醌结合蛋白GO富集分析 |
5.4.9 人类泛醌结合蛋白KEGG通路富集分析 |
5.5 本章小结 |
第六章 在线服务平台 |
6.1 网站简介 |
6.2 服务器环境 |
6.3 在线预测 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
致谢 |
附录 |
在学期间公开发表论文及着作情况 |
(4)基于改进特征和深度神经网络的microRNA预测方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.1.1 微小RNA的定义 |
1.1.2 微小miRNA的重要功能 |
1.1.3 微小RNA的常用数据库 |
1.2 微小RNA的研究概况 |
1.2.1 非编码RNA的区分方法 |
1.2.2 微小RNA的区分方法 |
1.3 研究目标与研究内容 |
1.4 后续内容安排 |
2 微小RNA预测方法概述 |
2.1 微小RNA概述 |
2.1.1 microRNA组成 |
2.1.2 microRNA结构 |
2.1.3 microRNA命名规则 |
2.2 微小RNA相关预测方法 |
2.2.1 机器学习方法简述 |
2.2.2 基于机器学习的microRNA预测方法 |
2.3 评价指标及验证方法 |
2.3.1 性能评价指标 |
2.3.2 实验验证方法 |
2.4 本章小结 |
3 基于改进特征和有监督自组织映射网络的microRNA预测方法 |
3.1 特征抽取 |
3.1.1 基于microRNA一级结构的特征抽取 |
3.1.2 基于microRNA二级结构的特征抽取 |
3.2 有监督自组织映射神经网络 |
3.2.1 自组织映射 |
3.2.2 有监督SOM |
3.3 实验结果与分析 |
3.3.1 基准数据集 |
3.3.2 特征鉴别力判断 |
3.3.3 两输出阈值划分的比较 |
3.3.4 与现有方法的比较 |
3.4 本章小结 |
4 融合序列和结构信息的非编码RNA预测 |
4.1 引言 |
4.2 特征提取和模型构建 |
4.2.1 特征抽取 |
4.2.2 构建预测模型 |
4.3 实验结果与分析 |
4.3.1 基准数据集 |
4.3.2 多种类型物种的对比 |
4.4 本章小结 |
5 总结与展望 |
5.1 工作总结 |
5.2 研究展望 |
致谢 |
参考文献 |
附录 |
(5)预测蛋白质二级结构的半监督对抗生成网络模型研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状以及存在的问题 |
1.2.1 国内外研究现状 |
1.2.2 国内外研究存在的问题 |
1.3 本文研究内容 |
1.4 本文章节组织 |
第2章 相关技术综述 |
2.1 蛋白质和蛋白质结构的概念 |
2.1.1 蛋白质一级结构 |
2.1.2 蛋白质二级结构 |
2.1.3 蛋白质三级结构 |
2.1.4 蛋白质四级结构 |
2.2 蛋白质结构预测及其流程 |
2.3 蛋白质序列的特征编码方法 |
2.4 蛋白质二级结构常用预测算法 |
2.4.1 Chou-Fasman方法 |
2.4.2 GOR方法 |
2.4.3 蛋白质二级结构与机器学习算法 |
2.5 深度学习模型 |
2.5.1 深度学习背景 |
2.5.2 深度学习在生物信息学中的应用现状 |
2.5.3 半监督学习模型 |
2.6 本章小结 |
第3章 蛋白质二级结构预测模型总体框架 |
3.1 设计方案概述 |
3.2 基于对抗生成网络的缘由 |
3.3 实验数据与处理 |
3.4 预测模型及算法 |
3.4.1 基于半监督学习的对抗生成网络 |
3.4.2 反向传播算法的原理 |
3.4.3 模型的优化器 |
3.4.4 模型的损失 |
3.4.5 实验使用的深度学习框架以及参数调试 |
3.5 蛋白质二级结构预测 |
3.6 本章小结 |
第4章 实验结果及分析 |
4.1 实验环境 |
4.2 测试数据集和评价标准 |
4.3 实验的结果和分析与现有方法对比 |
4.3.1 不同有标签占比的实验结果以及与现有方法精度的比较 |
4.3.2 不同超参数设置对实验的影响 |
4.4 本章小结 |
第5章 总结与展望 |
参考文献 |
发表论文和科研情况说明 |
致谢 |
(6)基于决策森林的蛋白质二级结构预测算法研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景和意义 |
1.2 蛋白质二级结构预测的文献综述 |
1.3 研究内容 |
1.4 章节安排 |
2 蛋白质二级结构和决策森林基础知识 |
2.1 引言 |
2.2 蛋白质相关知识 |
2.2.1 蛋白质二级结构 |
2.2.2 蛋白质数据库 |
2.2.3 蛋白质特征提取方法 |
2.2.4 蛋白质二级结构预测模型评价指标 |
2.3 决策森林相关理论 |
2.3.1 决策树 |
2.3.2 决策森林 |
2.4 本章小结 |
3 基于梯度提升决策森林的蛋白质二级结构预测 |
3.1 引言 |
3.2 构建蛋白质二级结构数据集 |
3.2.1 氨基酸编码 |
3.2.2 基于滑动窗口构建数据集 |
3.3 基于梯度提升决策森林算法的蛋白质二级结构预测 |
3.3.1 梯度提升决策森林算法 |
3.3.2 实验数据 |
3.3.3 实验结果与分析 |
3.4 本章小结 |
4 基于快速梯度提升算法的蛋白质二级结构预测 |
4.1 引言 |
4.2 快速梯度提升算法 |
4.2.1 算法原理 |
4.2.2 基于单边梯度采样数据 |
4.2.3 基于特征绑定降维 |
4.3 基于快速梯度提升算法的蛋白质二级结构预测 |
4.3.1 实验数据 |
4.3.2 实验结果与分析 |
4.3.3 两种算法对比 |
4.4 本章小结 |
结论 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(7)基于条件随机场与深度学习的蛋白质二级结构预测(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景 |
1.2 研究目的及意义 |
1.3 研究现状 |
1.3.1 蛋白质二级结构预测相关基础 |
1.3.2 国内外相关技术发展现状 |
1.4 本文的研究内容和基本结构 |
1.4.1 研究内容 |
1.4.2 论文结构安排 |
第2章 蛋白质二级结构简介与相关预测方法 |
2.1 蛋白质简介 |
2.1.1 蛋白质结构分析 |
2.1.2 蛋白质的层次结构 |
2.1.3 蛋白质的结构与功能的关系 |
2.2 蛋白质二级结构预测有关技术 |
2.2.1 数据处理 |
2.2.2 特征提取和滑动窗口技术 |
2.2.3 蛋白质二级结构预测评价指标 |
2.3 蛋白质二级结构预测相关方法介绍 |
2.3.1 统计分析方法 |
2.3.2 基于知识分析方法 |
2.3.3 机器学习方法 |
2.4 蛋白质数据库介绍 |
2.5 本章小结 |
第3章 基于条件随机场的蛋白质二级结构预测 |
3.1 条件随机场原理 |
3.1.1 最大熵原理 |
3.1.2 隐马尔可夫原理 |
3.1.3 条件随机场模型 |
3.2 线性链条件随机场 |
3.3 条件随机场的基本算法 |
3.3.1 前向-后向算法 |
3.3.2 梯度下降法 |
3.3.3 维特比算法 |
3.4 实验工具介绍 |
3.5 实验及结果分析 |
3.5.1 数据集 |
3.5.2 实验过程 |
3.5.3 结果分析 |
3.6 本章小结 |
第4章 基于卷积神经网络的蛋白质二级结构预测 |
4.1 卷积神经网络原理及结构 |
4.1.1 卷积神经网络原理 |
4.1.2 卷积神经网络结构组成 |
4.2 Softmax回归模型 |
4.3 CNN-Softmax网络模型 |
4.4 实验及其结果分析 |
4.4.1 数据集 |
4.4.2 实验过程 |
4.4.3 结果分析 |
4.5 本章小结 |
第5章 基于集成学习的CRF与 CNN的蛋白质二级结构预测 |
5.1 集成学习 |
5.1.1 集成学习原理 |
5.1.2 集成学习中差异性分类器的构建 |
5.2 集成学习的合并策略 |
5.2.1 平均法和加权平均法 |
5.2.2 投票法 |
5.3 CRF 和 CNN 的集成策略 |
5.4 实验及结果分析 |
5.4.1 数据集 |
5.4.2 实验过程 |
5.4.3 结果分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 研究工作总结 |
6.2 研究工作展望 |
参考文献 |
致谢 |
在学期间主要科研成果 |
(8)新型生物酶的挖掘算法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 卤醇脱卤酶研究现状 |
1.2.2 生物序列信息研究现状 |
1.2.3 合成生物学研究现状 |
1.2.4 生成模型研究现状 |
1.3 本文主要工作与创新 |
1.4 本文的结构安排 |
1.5 本章小结 |
第二章 相关理论概述 |
2.1 蛋白质基础知识简介 |
2.1.1 蛋白质基本组成 |
2.1.2 氨基酸理化性质 |
2.2 基准数据集构建 |
2.3 蛋白质序列模体识别 |
2.3.1 模体表示方法 |
2.3.1.1 一致序列模型表示法 |
2.3.1.2 位置权重矩阵模型表示法 |
2.3.1.3 可视化logo表示法 |
2.3.2 模体识别算法 |
2.3.2.1 CONSENSUS算法 |
2.3.2.2 MEME算法 |
2.3.2.3 AlignACE算法 |
2.4 卷积神经网络 |
2.5 循环神经网络 |
2.6 生成式对抗网络 |
2.6.1 理论及模型结构 |
2.6.2 GAN在序列生成中的应用 |
2.7 强化学习 |
2.7.1 原理 |
2.7.2 蒙特卡洛搜索 |
2.7.3 策略梯度法 |
2.8 蛋白质序列生成 |
2.9 蛋白质功能预测 |
2.10 本章小结 |
第三章 蛋白质模体识别 |
3.1 问题描述及符号定义 |
3.2 模体识别算法设计 |
3.2.1 MEME算法识别模体 |
3.2.2 判别式评分计算 |
3.3 实验结果及分析 |
3.3.1 MEME模体查找结果 |
3.3.2 判别式特征计算结果 |
3.4 本章小结 |
第四章 蛋白质序列生成 |
4.1 问题描述 |
4.2 基于LSTM的蛋白质序列生成 |
4.3 基于SeqGAN的蛋白质序列生成 |
4.3.1 SeqGAN基本原理 |
4.3.2 模型设计 |
4.4 基于LeakGAN的蛋白质序列生成 |
4.4.1 LeakGAN基本原理 |
4.4.2 模型设计 |
4.4.2.1 生成器设计 |
4.4.2.2 判别器设计 |
4.5 实验结果与分析 |
4.5.1 新酶质量评估 |
4.5.2 基于LSTM的序列生成结果 |
4.5.3 基于SeqGAN的序列生成结果 |
4.5.4 基于LeakGAN的序列生成结果 |
4.6 本章小结 |
第五章 卤醇脱卤酶序列挖掘 |
5.1 问题描述 |
5.2 算法设计与实现 |
5.2.1 g-gap特征树 |
5.2.2 特征提取与选择 |
5.2.2.1 特征提取 |
5.2.2.2 特征选择 |
5.2.2.3 特征离散化 |
5.2.3 分类模型 |
5.3 实验结果及分析 |
5.3.1 模型评价指标 |
5.3.2 特征分析 |
5.3.3 模型分析 |
5.4 卤醇脱卤酶挖掘 |
5.5 本章小结 |
第六章 全文总结与展望 |
6.1 概述总结 |
6.2 未来工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(9)基于平衡分类算法的蛋白质二级结构预测(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 蛋白质二级结构研究现状 |
1.3 论文主要工作 |
1.4 论文结构安排 |
第2章 人工神经网络 |
2.1 人工神经网络 |
2.2 双层BP神经网络结构 |
2.3 随机梯度法训练具体过程 |
2.4 激活函数的选择 |
2.5 输入编码的归一化 |
2.6 训练过程及参数 |
2.7 神经网络的输出 |
2.8 小结 |
第3章 PSIPRED方法及其平衡性改进 |
3.1 引言 |
3.2 蛋白质二级结构相关知识 |
3.2.1 蛋白质一级结构(primary structure) |
3.2.2 蛋白质二级结构(secondary structure) |
3.2.3 蛋白质三级结构预测 |
3.3 蛋白质二级结构数据集 |
3.4 PSIPRED预测算法 |
3.4.1 特征编码 |
3.4.2 训练和测试 |
3.4.3 预测二级结构 |
3.5 PSIPRED算法的改进总结 |
第4章 蛋白质二级结构预测结果及分析 |
4.1 训练过程性能表现 |
4.2 结果评价方法 |
4.3 平行分类器的效果 |
4.4 各种改进算法的结果 |
4.5 蛋白质二级结构预测效果演示 |
4.6 小结 |
第5章 蛋白质结构类预测 |
5.1 蛋白质结构类相关背景知识 |
5.1.1 蛋白质结构类的划分 |
5.1.2 现有的分类方法介绍 |
5.1.3 通过已经预测的二级结构对结构类进行分类 |
5.1.4 蛋白质二级结构的混沌游戏表示Chaos Games Representation(CGR) |
5.2 数据集的选择 |
5.3 神经网络配置 |
5.4 训练和测试 |
5.5 试验结果评估方法 |
5.6 结果和分析 |
5.6.1 Astral40数据集上蛋白质二级结构预测准确率 |
5.6.2 相关算法比较 |
5.6.3 和原始PSIPRED算法的比较 |
5.7 小结 |
第6章 结论 |
参考文献 |
致谢 |
学位期间的研究成果 |
(10)基于序列的蛋白质结构预测的机器学习模型(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 引言 |
1.2 蛋白质基础理论知识 |
1.2.1 蛋白质的层次性结构 |
1.2.2 蛋白质结构类 |
1.3 蛋白质结构类预测概述 |
1.3.1 蛋白质结构类预测问题 |
1.3.2 蛋白质结构类预测国内外研究现状 |
1.4 本文的主要工作 |
2 材料和方法 |
2.1 数据集 |
2.2 分类算法 |
2.3 分类算法的性能评估 |
2.3.1 分类算法性能评估方法 |
2.3.2 分类算法的性能评估指标 |
2.4 本章小结 |
3 基于二级结构信息的蛋白质结构类预测方法 |
3.1 引言 |
3.2 基于二级结构信息的蛋白质特征表示方法 |
3.2.1 蛋白质二级结构预测 |
3.2.2 蛋白质特征表示 |
3.2.3 特征选择 |
3.3 蛋白质结构类预测分类算法设计 |
3.4 结果与讨论 |
3.4.1 本章蛋白质结构类预测方法的结果 |
3.4.2 特征分析 |
3.4.3 与现有其它方法比较 |
3.4.4 多种分类算法预测比较 |
3.4.5 罕见二级结构特征对蛋白质结构类预测性能的影响 |
3.5 本章小结 |
4 基于序列进化信息的蛋白质结构类预测方法 |
4.1 引言 |
4.2 基于序列进化信息的蛋白质序列特征表示方法 |
4.2.1 位置特异性打分矩阵 |
4.2.2 蛋白质序列特征表示 |
4.3 蛋白质结构类预测分类算法设计 |
4.4 结果与讨论 |
4.4.1 五种序列表示方法的比较 |
4.4.2 特征分析 |
4.4.3 与现有其它方法比较 |
4.4.4 多种分类算法预测比较 |
4.5 融合二级结构信息和进化信息预测蛋白质结构类 |
4.5.1 蛋白质序列特征表示 |
4.5.2 结果与讨论 |
4.6 本章小结 |
5 总结与展望 |
5.1 工作总结 |
5.2 研究展望 |
参考文献 |
附录 |
致谢 |
个人简历 |
攻读博士学位期间学术论文完成情况 |
四、用神经网络方法由蛋白质一级序列预测其二级结构含量(英文)(论文参考文献)
- [1]基于深度学习的假禾谷镰刀菌蛋白质预测研究[D]. 张凯. 河南农业大学, 2021
- [2]基于深度学习的假禾谷镰刀菌蛋白质预测研究[D]. 张凯. 河南农业大学, 2021
- [3]基于序列的膜蛋白配体交互研究[D]. 逯畅. 东北师范大学, 2020(01)
- [4]基于改进特征和深度神经网络的microRNA预测方法研究[D]. 阚雯雯. 南京理工大学, 2020(01)
- [5]预测蛋白质二级结构的半监督对抗生成网络模型研究[D]. 赵兴海. 天津大学, 2019(01)
- [6]基于决策森林的蛋白质二级结构预测算法研究[D]. 李艳萍. 河南大学, 2019(01)
- [7]基于条件随机场与深度学习的蛋白质二级结构预测[D]. 王蕾蕾. 齐鲁工业大学, 2019(09)
- [8]新型生物酶的挖掘算法研究[D]. 潘彦园. 电子科技大学, 2019(01)
- [9]基于平衡分类算法的蛋白质二级结构预测[D]. 李宁波. 河南科技大学, 2017(01)
- [10]基于序列的蛋白质结构预测的机器学习模型[D]. 张丽超. 中国海洋大学, 2015(10)