基于Spark改进的AP算法并行化及其在蛋白质复合物识别应用研究
发布时间:2025-06-20 03:26
蛋白质是生物体实现生命活动的基础,单一的蛋白质难以实现生物体丰富多彩的生命活动,它们通过彼此相互作用并形成蛋白质复合物来实现特定的生物功能。因此在结构复杂、数据规模较大的蛋白质相互作用网络中,精准且高效的识别出蛋白质复合物对理解蛋白质相互作用网络的结构、分析细胞实现生命活动的过程以及生物医学的研究均有重要的意义。在现有的研究中识别蛋白质复合物主要分为实验方法和计算方法,一般采用实验方法花费的时间比较多、成本比较高且识别效率较低,而计算方法可以弥补实验方法这些方面的不足,目前已有学者开发设计众多的识别算法实现自动地从蛋白质相互作用网络中挖掘蛋白质复合物。随着蛋白质相互作用网络数据规模的不断增加,在蛋白质复合物的识别中,现有的算法识别速度有待提高,本文将蛋白质复合物识别算法与Spark技术相结合,提高算法运算效率。随着大数据时代的来临,各种分布式计算框架也得到了快速的发展,Spark由此诞生,Spark是基于内存计算的大数据计算框架,有其自己的核心RDD,减少并行计算时对磁盘的I/O操作。并且拥有丰富的生态圈,与其它分布式平台相比,表现出明显的优势,得到了大数据业内的广泛应用。在众多的算法中...
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
本文编号:4051355
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
图1.1组织结构图
第1章绪论7图1.1组织结构图
图2.1果蝇的蛋白质相互作用网络
第2章理论基础与技术8第2章理论基础与技术本文的主要工作是在Spark平台上并行化改进的AP算法,应用于蛋白质相互作用网络中识别蛋白质复合物。故在本章中首先对本文研究内容涉及到的蛋白质相互作用网络、蛋白质复合物等知识进行介绍。接下来对基于聚类的蛋白质复合物识别方法进行概述,并对比....
图2.2Spark架构
第2章理论基础与技术14图2.2Spark架构Spark和Hadoop都是应用最广泛的大数据的框架,但其实际性能有略微的差别。Spark更像是一个针对于大数据资源进行的专门的分布式计算的工具,并没有提供特定的分布式存储工具。Hadoop更像是一个具有完整资源的分布式大数据的应用设....
图2.3Spark子群结构
虻サ牡セ?J剑?泻芏嗵?件限制,内存不够大,CPU运算能力有限,所以不能满足大数据量的运算。Spark以集群的模式进行部署,一般Spark集群的部署方式有三种,即Standalone模式、Yarn模式、Mesos模式[46],每种模式有各自的独特之处。其中Standalone模式....
本文编号:4051355
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/4051355.html
最近更新
教材专著