当前位置:主页 > 理工论文 > 生物学论文 >

氨基酸的分布式表示方法及其在蛋白质序列分析中应用

发布时间:2025-06-28 02:34
  蛋白质是一切生命的物质基础,没有蛋白质就没有生命,更谈不上人类的繁衍生息,氨基酸是蛋白质的基本组成元素,蛋白质是由不同种类的氨基酸按照一定顺序排列而成,称为蛋白质序列。通过对蛋白质序列进行分析可以进一步了解蛋白质的空间结构。这对于分析蛋白质功能和药物设计等应用至关重要,因为蛋白质生物学功能很大程度上依赖于其空间结构,并且蛋白质的生化性质及其功能等都与蛋白质序列密切相关,所以蛋白质序列分析是蛋白质结构甚至是功能分析的前提和基础。蛋白质序列分析的首要步骤是对蛋白质序列进行编码,目前较为常用的编码方式有one-hot编码方式、PSSM谱编码、氨基酸向量编码。one-hot编码方式将氨基酸残基转变为正交向量,不考虑词与词之间的顺序并且假设向量之间相互独立,虽然计算简单,但是不能很好地表达出上下文之间的依赖性和单词之间顺序不同所带来的区别,利用多序列比对打分方式构建的PSSM谱编码克服了这一缺点,但是其算法的迭代性质使其对序列数据库中的偏差非常敏感。特别是,容易将重复序列错误地结合到中间谱中。将氨基酸序列通过Word2vec生成氨基酸向量的编码方式虽然没有重复序列错误,但是并不能表达出同源序列之间...

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

图1-1幽门螺杆菌的部分氨基酸序列

图1-1幽门螺杆菌的部分氨基酸序列

第1章引言蛋白质具有一级、二级、三级和四级结构[3]。蛋白质的一级结构是由20种氨基酸残基在蛋白质肽链中通过排列组合形成的,也就是氨基酸序列。每种蛋白质的氨基酸残基的排列组合顺序都是唯一而确切的,可以说结构和功能不同的蛋白质的氨基酸序列是完全不同且不可改变的[4]。如图....


图1-2幽门螺杆菌的三级结构图

图1-2幽门螺杆菌的三级结构图

E0.01029C0.00018,肽链还按照一定的空间结构进继续以幽门螺杆菌为例,图1-2即就是图1-1所示的氨基酸序列所具有三级结构的多肽链按照一定空由此可见,蛋白质的一级结构,即结构和四级结构,进而决定了其功似,那么他们大概率具有相同的质中带负电荷的氨基酸的比....


图2-1Word2vec两种方法模型结构图

图2-1Word2vec两种方法模型结构图

图2-1Word2vec两种方法模型结构图2.1.1基于HierarchicalSoftmax的模型HierarchicalSoftmax最先由Morin和Bengio引入[32]。主要优点是,不需要计算神经网络中的W输出节点的概率分布,而是仅需要计算....


图2-2CBOW模型的网络结构示意图

图2-2CBOW模型的网络结构示意图

通过它们的出现频率将词组合在一起可以作为基于神型的加速训练技术。图2-2所示为CBOW模型的网络结构:输入层,投影层和输出层text(w),w)为例(这里假设(Context(w),w)由w前后各c个词构成要说明。输入层包含Context(w)中2c个词的....



本文编号:4054286

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/4054286.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户75e25***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com