您的位置: turnitin查重官网> 工程 >> 电气工程 >> 电气工程及自动化 >向量基于聚类特点树大规模分类算法

向量基于聚类特点树大规模分类算法

收藏本文 2024-02-25 点赞:26402 浏览:120059 作者:网友投稿原创标记本站原创

摘要:分类作为方式识别、机器学习以及数据挖掘的核心探讨内容,已广泛运用在文本分类、网页分类、语音识别、图像识别和生物信息处理等实际不足中。随着信息技术的飞速进展,互联网及数字设备带来海量数据的同时,也使传统的分类算法面对时间和空间上的挑战。由此如何处理大规模分类已成为相关领域备受关注的探讨不足。本论文在浅析了大规模分类算法的探讨进展和进展方向的基础上,采取局部学习或全局学习对策,利用聚类特点(CF)树来组织样本,对大规模有监督分类和半监督分类展开了探讨,获得了如下成果:第一,提出了带类标聚类特点(CFL)的概念,设计了基于CFL树和局部学习的大规模支持向量机分类算法(CFLL-SVM)。CF树原运用于无监督聚类,它可以高效地实现样本的划分和压缩。本论文首先利用无监督聚类和有监督聚类相结合对其进行改善,并设计了适合有监督分类的CFL树。然后运用局部学习的对策,通过CFL树将训练样本划分为多个小的局部子集,对每个子集利用SVM训练局部分类器,并通过该树将各个局部分类器组成一个总的分类器。最后对各个参数对算法的影响进行了浅析。大量实验结果表明,该算法可以在不损失精度的情况下,大大提升训练的速度。第二,提出了基于CF树与渐进标注的大规模半监督支持向量机分类算法(CFPL-S3VM)。现实不足往往只有少量的有标记样本和大量的无标记样本,为了利用大量无标记样本学习样本的内在几何结构,本论文采取CF树来层次组织大量的无标记样本。然后运用以粗到细的全局学习对策,利用半监督支持向量机以根到叶对树的每一层的各个簇中心(无标记样本的代表)和有标记样本进行学习。在每一层的学习中,获取影响决策面的潜在支持簇和剪去无用的簇以降低下一层的学习规模,同时为避开剪枝引起的信息丢失,采取标注的策略保留剪去的簇的总体信息以提升学习的精度。实验结果表明,对支持向量不多的样本集,该算法在保持精度的同时,只需更少的训练时间。第三,提出了基于CF树和局部图转导的大规模半监督分类算法(CF-LGT)。当样本集的分类界面比较复杂,支持向量比较多时,CFPL-S3VM算法不能有效地通过剪枝以降低学习规模。为此,本论文选用局部学习对策,利用CF树划分无标记样本为一系列的局部子集,对每个子集构造一种新的稀疏且具有除噪能力的近邻图后,采取基于图的半监督算法学习,以而降低了内存开销和加速了学习速度。实验结果表明,在有标记样本不是太少的情况下,CF-LGT在内存的开销、分类精度以及学习速度上都有良好的性能。第四,提出了整合全局结构的局部大规模半监督分类算法(LLGS)。当有标记样本很少或分布不均匀时,CF-LGT采取的局部学习对策可能会因为样本的全局结构遭到破坏而降低学习的精度。由此LLGS采取CF树划分无标记样本后,再提取全局结构信息,将其整合到各个局部不足中,最后采取图的策略进行局部学习。实验结果表明,该算法在有标记样本较少的情况下,具有较高的分类精度和较低的内存开销。此外,该算法还可以作为直推式的分类策略用于预测未知样本。关键词:大规模分类论文聚类特点树论文支持向量机论文半监督支持向量机论文图策略论文

    摘要5-7

    Abstract7-13

    图目录13-15

    表目录15-16

    主要符号表16-18

    第一章 绪论18-30

    1.1 选题背景及探讨作用18-20

    1.2 大规模分类的探讨进展与进展方向20-27

    1.2.1 大规模有监督分类探讨进展20-23

    1.2.2 大规模半监督分类探讨进展23-26

    1.2.3 大规模分类的进展方向26-27

    1.3 本论文的探讨内容及组织27-30

    1.3.1 本论文的探讨内容27-29

    1.3.2 本论文的组织29-30

    第二章 相关工作30-47

    2.1 聚类特点树30-33

    2.1.1 基本概念30

    2.1.2 聚类特点30-31

    2.1.3 聚类特点树31-32

    2.1.4 聚类特点树的建立32-33

    2.2 支持向量机33-39

    2.2.1 线性支持向量机34-36

    2.2.2 非线性支持向量机36

    2.2.3 多分类不足36-37

    2.2.4 支持向量机的求解算法37-39

    2.3 半监督支持向量机39-41

    2.4 基于图的半监督分类算法41-46

    2.4.1 图的构造41

    2.4.2 图的正则化框架41-42

    2.4.3 高斯随机场与调和函数算法42-43

    2.4.4 基于线性邻域的标记传播算法43-45

    2.4.5 原型向量机算法45-46

    2.5 本章小结46-47

    第三章 基于带类标聚类特点树和局部学习的大规模支持向量机分类算法47-70

    3.1 局部学习思想47-48

    3.2 带类标聚类特点树48-52

    3.2.1 带类标的聚类特点48-49

    3.2.2 带类标的聚类特点树49-50

    3.2.3 带类标聚类特点树的建立50-52

    3.3 基于带类标聚类特点树和局部学习的大规模支持向量机分类算法52-61

    3.3.1 算法总体流程53-54

    3.3.2 训练 CFL 树历程54

    3.3.3 样本测试历程54-55

    3.3.4 算法描述55-57

    3.3.5 参数影响浅析57-59

    3.3.6 算法复杂度浅析59-61

    3.4 实验结果与浅析61-68

    3.4.1 比较的算法及运转环境设置61-62

    3.4.2 实验所用数据集62-63

    3.4.3 中等规模数据集上的结果与浅析63-65

    3.4.4 大规模数据集上的结果与浅析65-67

    3.4.5 更大规模数据集上的结果与浅析67-68

    3.4.6 内存对算法影响浅析68

    3.5 本章小结68-70

    第四章 基于聚类特点树与渐进标注的大规模半监督支持向量机分类算法70-89

    4.1 采取聚类特点树层次聚类无标记样本70

    4.2 CCCP-S3VM 算法70-75

    4.3 基于聚类特点树与渐进标注的大规模半监督支持向量机分类算法75-83

    4.3.1 算法思想75-79

    4.3.2 算法描述79-82

    4.3.3 算法复杂度浅析82-83

    4.4 实验结果与浅析83-88

    4.4.1 比较的算法及运转环境设置83-84

    4.4.2 中小规模数据集的结果与浅析84-85

    4.4.3 大规模数据集上的结果与浅析85-87

    4.4.4 剪枝情况浅析87-88

    4.5 本章小结88-89

    第五章 基于聚类特点树和局部图转导的大规模半监督分类算法89-98

    5.1 采取聚类特点树划分无标记样本89

    5.2 局部与全局一致性算法89-91

    5.3 基于聚类特点树和局部图转导的大规模半监督分类算法91-94

    5.3.1 局部图构造91-92

    5.3.2 算法描述92

    5.3.3 算法复杂度浅析92-94

    5.4 实验结果与浅析94-96

    5.4.1 比较的算法及运转环境设置94

    5.4.2 中等规模数据集的结果与浅析94-95

    5.4.3 大规模数据集的结果与浅析95-96

    5.5 本章小结96-98

    第六章 整合全局结构的局部大规模半监督分类算法98-109

    6.1 锚图正则化算法98-100

    6.2 整合全局结构的局部大规模半监督分类算法100-103

    6.2.1 算法思想100-101

    6.2.2 算法描述101-103

    6.2.3 局部学习框架103

    6.2.4 算法复杂度浅析103

    6.3 实验结果与浅析103-108

    6.3.1 比较的算法及运转环境设置103-104

    6.3.2 中等规模数据集的结果与浅析104-105

    6.3.3 大规模数据集的结果与浅析105-108

    6.4 本章小结108-109

    结论与展望109-112

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号