您的位置: turnitin查重官网> 计算机 >> 计算机毕业题目 >谈述分词基于改善K近邻算法手机电子邮件内容自动分类

谈述分词基于改善K近邻算法手机电子邮件内容自动分类

收藏本文 2024-02-19 点赞:23139 浏览:99517 作者:网友投稿原创标记本站原创

摘要:最近几年,智能手机进展势头猛涨,已经成为继广播、电视、报纸和互联网之后的新一代的媒介形式。通过智能手机收发邮件的频率飞速增加,加之垃圾邮件的肆掠扩散并没有遏制反而愈演愈深,电子邮件运营商以几何级数的速度不断提升邮箱的容量。面对海量的邮件和频繁入侵的垃圾邮件,由此邮件自动分类就显得具有较高的实用价值。基于电子邮件内容的手机电子邮件自动分类技术,是数据挖掘中文本分类技术的一个重要运用。由此,首先以文本预处理、文本提取和中文分词等技术的概念以及文本自动分类的背景着手,系统地探讨电子邮件自动分类的流程和步骤,深入探讨了实现手机电子邮件自动分类系统所涉及的论述和技术。对于涉及到文本分类的关键技术,包括中文分词、特点提取、词频统计、向量空间模型和分类算法,本论文给出了详细的论述阐述和算法描述。由于是基于K近邻算法的改善算法,重点探讨了K近邻算法,并针对其缺点即选择阈值K的盲目性,提出了基于矩阵奇异值分解的K近邻算法。该改善算法基于矩阵奇异值分解技术,能够通过粗分和细分两个阶段快速获取训练样本和估计K值,然后有针对性的选取一定数目的样本作为训练样本,这种基于后验的训练样本训练出来的K近邻分类器,通过ja语言实现了一个具有海量运算能力的电子邮件自动分类器,最后进行实验,验证了该分类器的查全率和查准率。关键词:手机电子邮件论文文本分类算法论文中文分词技术论文矩阵奇异值分解论文

    摘要4-5

    Abstract5-6

    目录6-8

    第一章 绪论8-12

    1.1 探讨背景8

    1.2 探讨目的和作用8-9

    1.3 手机电子邮件分类技术探讨近况9-11

    1.3.1 贝叶斯分类策略9-10

    1.3.2 决策树分类策略10

    1.3.3 支持向量机策略10

    1.3.4 K近邻分类策略10-11

    1.4 本论文的探讨内容11-12

    第二章 手机电子邮件分类与指标选取12-20

    2.1 电子邮件12-13

    2.1.1 电子邮件的工作原理12

    2.1.2 电子邮件格式12-13

    2.2 手机电子邮件自动分类的必要性13-15

    2.3 手机电子邮件自动分类15-16

    2.4 手机电子邮件自动分类指标和评价指标16-19

    2.4.1 词频与反文档频率17-18

    2.4.2 查全率18

    2.4.3 查准率18

    2.4.4 互信息18-19

    2.5 本章小结19-20

    第三章 手机电子邮件分类算法与改善K近邻分类算法20-31

    3.1 分类算法概念20

    3.2 决策树20-23

    3.2.1 决策树的数学原理20-22

    3.2.2 决策树分支标准选取22-23

    3.2.3 决策树的剪枝与验证23

    3.3 贝叶斯分类23-26

    3.3.1 贝叶斯数学原理23-24

    3.3.2 贝叶斯算法24-26

    3.4 K近邻分类与改善K近邻分类26-30

    3.4.1 K近邻分类26-28

    3.4.2 非负矩阵奇异值分解28-30

    3.5 本章小结30-31

    第四章 改善K近邻分类算法进行电子邮件自动分类的实证浅析31-42

    4.1 电子邮件剖析31-32

    4.2 中文分词32-36

    4.2.1 中文分词策略33

    4.2.2 正向最大匹配法分词器33-35

    4.2.4 停用词过滤器35-36

    4.3 词频统计36

    4.4 改善K近邻分类器36-41

    4.4.1 特点词矩阵分解37-39

    4.4.2 K近邻分类39-40

    4.4.3 结果浅析40-41

    4.5 本章小结41-42

    第五章 总结与展望42-44

    5.1 总结42-43

    5.2 展望43-44

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号