摘要:蛋白质复合物的检测对于探讨细胞组成和细胞功能具有重要的作用。高通量实验技术的出现产生的许多大规模的蛋白质相互作用网络数据,这为我们探讨蛋白质相互作用网络的拓扑结构检测蛋白质复合物带来了一个契机。然而,由于当前实验策略的缺陷和生物体的复杂性,蛋白质相互作用网络中有着着大量的检测阳性和检测阴性,这为准确地检测蛋白质复合物带来了一些困难。近几年,出现了很多检测蛋白质复合物的策略,蛋白质复合物通常都被检测为蛋白质相互作用网络中一个稠密的子图。本论文提出了一个基于两级路径相似性的蛋白质复合物检测算法TLP(Two LevelPaths)。两级路径相似性即为,两簇蛋白质之间有着直接相连路径的概率和仅通过一个公共邻居节点相连路径的概率。用两级路径概率作为蛋白质对之间的初始相似性,再利用层次聚类算法贪婪合并具有当前最大相似性的两组蛋白质且合并后的蛋白质子图密度满足给定的阈值,合并蛋白质簇之后重新计算其与周围相邻接的蛋白质簇的两级路径相似性。直到图中当前没有符合合并条件的蛋白质簇为止,当前的蛋白质簇即为检测的蛋白质复合物。我们以标准蛋白质复合物数据库为参照,利用现有的和本论文提出的评价指标,将TLP算法和其他六种算法进行比较浅析。在三种不同规模和性质的酵母蛋白质相互作用网络上进行实验,我们的TLP算法都有着最好的体现,我们算法识别出来的蛋白质复合物和标准库有着很高的匹配率,可以作为进一步生物探讨的参考。关键词:蛋白质相互作用网络论文复合物论文检测论文评价论文
摘要3-4
Abstract4-6
第一章 绪论6-10
1.1 探讨背景6-7
1.2 探讨作用7-8
1.3 本论文内容和结构8-10
第二章 蛋白质相互作用网络相关基础10-16
2.1 蛋白质相互作用网络10-11
2.2 蛋白质复合物11
2.3 蛋白质相互作用网络拓扑性质11-13
2.4 相关检测算法13-16
第三章 基于路径相似性的算法16-36
3.1 路径相似性16-18
3.2 算法18-19
3.3 数据集19-20
3.3.1 蛋白质相互作用网络数据19-20
3.3.2 标准蛋白质复合物数据20
3.4 评价指标20-22
3.5 第二级路径的影响22-24
3.6 参数Td 的影响24-26
3.7 算法比较26-36
3.7.1 HC 数据上的比较27-29
3.7.2 DIP 数据上的比较29-32
3.7.3 Gin 数据上的比较32-34
3.7.4 算法比较总结34-36
第四章 总结与展望36-38
致谢38-39