摘要3-4
Abstract4-9
章 绪论9-16
1.1 的研究背景及9
1.2 垃圾短信知识9-14
1.2.1 短信基础知识9-11
1.2.2 垃圾短信的定义11
1.2.3 垃圾短信的特征11-12
1.2.4 垃圾短信产生的原因12
1.2.5 垃圾短信的危害及解决办法12-13
1.2.6 我国垃圾短信的13-14
1.3 垃圾短信分类技术的发展现状14-15
1.3.1 两种分类方式14
1.3.2 两种分类途径14-15
1.4 论文结构安排15-16
章 垃圾短信分类技术概述16-19
2.1 垃圾短信的分类方式16
2.2 基于关键词的分类技术16-17
2.3 基于黑白名单分类技术17
2.4 基于规则的分类技术17-18
2.5 基于内容的分类技术18-19
章 基于内容的垃圾短信分类技术19-35
3.1 文本分类技术概况19-20
3.2 文本预处理20-22
3.2.1 中文分词20-22
3.2.2 停用词过滤22
3.3 文本的表示22-25
3.3.1 布尔模型23
3.3.2 LDA生成模型23
3.3.3 向量空间模型(V)23-25
3.3.4 隐含语义索引模型(LSI)25
3.4 特征提取方法25-28
3.4.1 特征频度(TF)26
3.4.2 文档频度(DF)26
3.4.3 互信息(MI)26-27
3.4.4 信息增益(IG)27
3.4.5 期望交叉熵(ECE)27-28
3.4.6 文本证据权(WET)28
3.4.7 χ~2统计量28
3.5 特征权重表示方法28-29
3.5.1 布尔权重29
3.5.2 特征项频度29
3.5.3 反文档频度29
3.5.4 联合权重29
3.6 文本分类算法29-33
3.6.1 常用文本分类算法30-32
3.6.2 贝叶斯文本分类方法32-33
3.7 垃圾短信分类的评估指标33-35
章 基于改进贝叶斯算法的垃圾短信分类35-73
4.1 改进的贝叶斯算法35-40
4.1.1 朴素贝叶斯算法35-36
4.1.2 最小风险Bayes算法36-37
4.1.3 主动学习贝叶斯算法37-39
4.1.4 改进的贝叶斯算法39-40
4.2 短信预处理40-44
4.2.1 必要性分析40
4.2.2 实施方法40-41
4.2.3 短信分词41-43
4.2.4 短信表示43
4.2.5 特征选择43-44
4.3 短信分类模型44-45
4.4 实验45-73
4.4.1 实验数据介绍45
4.4.2 实验评价标准45-46
4.4.3 系统功能模块46-47
4.4.4 系统设计47-48
4.4.5 实验及实验结果48-61
4.4.6 实验结果分析61-62
4.4.7 分类器的个性化训练62-64
4.4.8 分类器黑白名单过滤机制64-66
4.4.9 不同参数的分类器训练及测试结果分析66-73
第五章 总结与展望73-75
5.1 总结73
5.2 展望73-75