基于内容中文垃圾短信分类技术-turnitin论文查重

摘要：移动通信技术的高速发展,手机用户的数量在膨胀,手机短信使用简单、快捷、费用低廉,已经日常生活中不可或缺的通信方式之一。,低廉的传输代价,使得每天收到不请自来的垃圾短信,垃圾短信危害社会安全、毒害社会风气、影响用户的正常生活。规则过滤、黑—白名单和基于关键词匹配的内容扫描等技术垃圾短信过滤主流技术。为了解决垃圾短信给的日常生活带来的烦恼,从垃圾短信的定义、特征、产生的原因、危害及我国垃圾短信做了的分析和介绍,对短信分类技术的现状了概述和分析；其次介绍了3种中文分词方法、4种文本表示方法、4种特征权重赋值方法、7种特征选取方法和7种具有代表性的文本分类算法；在此基础上,了改进的贝叶斯分类方法黑白名单过滤机制实现对短信的过滤,了的实验论证,实验中先对短信分词和停用词过滤等预处理,再DF等特征提取方式,训练分类器,优化分类器参数后短信测试,实验,分析数据,达到了较好的分类效果,分类器同时可以新的训练集,训练出个性化的分类器,适应短信变化,用户的个性化需求。实验证明,改进贝叶斯算法能在正确分类短信的同时,减少了正常短信的误判率。具体地说,工作内容主要包括以下几个：1、介绍了多种特征选取方法,实验中了3种特征提取方法,考查了各选取方法的优劣；2、在现有条件下,了一定数量的、要求的中文短信库；3、在短信语料库的基础上,实现一种提高正常短信率的改进的贝叶斯分类模型,并使用贝叶斯分类器应用于自建的短信语料库,分析、比较它的实验性能与效果；4、分类模型可以训练出个性化的分类器,适应短信变化,用户的个性化需求；5、文本分类的评价标准,实验对贝叶斯分类器了评估,评估结果,设定了分类模型的各项基本参数；6、总结成果,展望未来,为将来的工作打下基础。关键词：垃圾短信论文文本分类论文贝叶斯分类算法论文特征提取论文

摘要3-4

Abstract4-9

章绪论9-16

1.1 的研究背景及9

1.2 垃圾短信知识9-14

1.2.1 短信基础知识9-11

1.2.2 垃圾短信的定义11

1.2.3 垃圾短信的特征11-12

1.2.4 垃圾短信产生的原因12

1.2.5 垃圾短信的危害及解决办法12-13

1.2.6 我国垃圾短信的13-14

1.3 垃圾短信分类技术的发展现状14-15

1.3.1 两种分类方式14

1.3.2 两种分类途径14-15

1.4 论文结构安排15-16

章垃圾短信分类技术概述16-19

2.1 垃圾短信的分类方式16

2.2 基于关键词的分类技术16-17

2.3 基于黑白名单分类技术17

2.4 基于规则的分类技术17-18

2.5 基于内容的分类技术18-19

章基于内容的垃圾短信分类技术19-35

3.1 文本分类技术概况19-20

3.2 文本预处理20-22

3.2.1 中文分词20-22

3.2.2 停用词过滤22

3.3 文本的表示22-25

3.3.1 布尔模型23

3.3.2 LDA生成模型23

3.3.3 向量空间模型(V)23-25

3.3.4 隐含语义索引模型(LSI)25

3.4 特征提取方法25-28

3.4.1 特征频度(TF)26

3.4.2 文档频度(DF)26

3.4.3 互信息(MI)26-27

3.4.4 信息增益(IG)27

3.4.5 期望交叉熵(ECE)27-28

3.4.6 文本证据权(WET)28

3.4.7 χ~2统计量28

3.5 特征权重表示方法28-29

3.5.1 布尔权重29

3.5.2 特征项频度29

3.5.3 反文档频度29

3.5.4 联合权重29

3.6 文本分类算法29-33

3.6.1 常用文本分类算法30-32

3.6.2 贝叶斯文本分类方法32-33

3.7 垃圾短信分类的评估指标33-35

章基于改进贝叶斯算法的垃圾短信分类35-73

4.1 改进的贝叶斯算法35-40

4.1.1 朴素贝叶斯算法35-36

4.1.2 最小风险Bayes算法36-37

4.1.3 主动学习贝叶斯算法37-39

4.1.4 改进的贝叶斯算法39-40

4.2 短信预处理40-44

4.2.1 必要性分析40

4.2.2 实施方法40-41

4.2.3 短信分词41-43

4.2.4 短信表示43

4.2.5 特征选择43-44

4.3 短信分类模型44-45

4.4 实验45-73

4.4.1 实验数据介绍45

4.4.2 实验评价标准45-46

4.4.3 系统功能模块46-47

4.4.4 系统设计47-48

4.4.5 实验及实验结果48-61

4.4.6 实验结果分析61-62

4.4.7 分类器的个性化训练62-64

4.4.8 分类器黑白名单过滤机制64-66

4.4.9 不同参数的分类器训练及测试结果分析66-73

第五章总结与展望73-75

5.1 总结73

5.2 展望73-75

基于内容中文垃圾短信分类技术

相关论文

频道推荐

热门论文阅读

排行榜

猜你喜欢