您的位置: turnitin查重官网> 医药学 >> 生物药物 >注释五种双聚类算法在基因表达谱数据中比较和评价查抄袭率

注释五种双聚类算法在基因表达谱数据中比较和评价查抄袭率

收藏本文 2024-03-15 点赞:6236 浏览:14754 作者:网友投稿原创标记本站原创

摘要:随着近年来生物高通量技术的进展,基因微阵列数据呈指数增加走势,如何有效地以这些海量的数据中提取有价值的信息显得尤为重要。在微阵列数据剖析时,传统的聚类浅析是一个很重要的工具,但它们有着着一定的不足:1)传统的聚类策略只适合实验条件比较少的数据集,因为这些算法是在所有的实验条件下进行基因的聚类;2)传统的聚类策略生成的类之间没有重叠,一个基因最多只能出现在一个聚类结果中,由此难以识别那些参与多个功能的基因。针对这些不足,很多探讨者提出了一个改善的聚类思想:双聚类算法。目前已有很多识别bicluster的双聚类算法不断地被探讨和运用。Bicluster中的基因在某些实验条件下有着相似的表达方式,甚至是参与相似的功能历程。然而,不同的双聚类算法会生成不同的bicluster,进而会产生不同生物学作用的浅析结果。由此,对于这些双聚类算法的比较和检验显得尤为重要。在此探讨中,我们选择了五种不同的双聚类算法(BIMAX,FABIA,ISA,QUBIC和SAmba)和两组维数不同的拟南芥表达数据集(GDS1620和pathway),来比较这些算法的生物学体现。GO(Gene Ontology)注释和PPI(Protein-Protein Interaction)网络被用来检验这些算法生成的bicluster的生物学作用。为了客观、量化地比较各bicluster的作用和不同算法的体现,我们在探讨中提出了两种打分策略:加权富集(WE)得分和蛋白质-蛋白质互作(PPI)得分。对于每一种打分策略,通过把所有的bicluster按照得分大小综合到一个统一的排序中,我们可以很直观地浅析出这些双聚类算法的体现。WE和PPI这两种打分策略在验证bicluster的生物学作用时都被证明是有效的。两种策略得到的得分之间已被检验到有着显著的正相关,这也印证了这两种策略的一致性。对于这五种双聚类算法的检验和比较显示:(1)对于数据集GDS1620,ISA是五种算法中最有效的一个;对于数据集pathway,BIMAX的体现要优于其他四种算法;(2)ISA和BIMAX这两种算法都具有数据依赖性,前者不太适合基因数小的数据集,后者更适用于实验条件更多的数据集;(3)FAIBA和QUBIC在本探讨中体现的都不理想,或许它们更适合具有大量基因和大量实验条件的数据集;(4)SAMBA算法没有显著的数据依赖性,因为它在两个给定的数据集中体现的都不错。这些结果信息能够指导探讨者们根据自己的数据集选择合理的算法。关键词:基因表达数据浅析论文双聚类论文GO注释论文蛋白质互作网络论文

    摘要5-6

    ABSTRACT6-9

    第一章 文献综述9-14

    1.1 探讨的背景9-11

    1.2 探讨的作用11-12

    1.3 国内外探讨近况12-13

    1.4 探讨的思路与内容13-14

    第二章 材料与策略14-22

    2.1 数据的收集14-15

    2.2 算法的选择15-18

    2.2.1 BIMAX 算法16

    2.2.2 FABIA 算法16-17

    2.2.3 ISA 算法17

    2.2.4 QUBIC 算法17

    2.2.5 SAMBA 算法17-18

    2.3 Gene Ontology 加权富集打分策略18-20

    2.4 PPI 网络打分策略20-22

    第三章 结果浅析22-28

    3.1 比较 bicluster 的个数23

    3.2 功能富集浅析23-24

    3.3 PPI 网络浅析24-25

    3.4 与随机基因分组的比较25-26

    3.5 WE 得分与 PPI 得分的相关性浅析26

    3.6 结论26-28

    第四章 讨论与展望28-29

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号