您的位置: turnitin查重官网> 下载中心 >基于内容中文垃圾短信分类技术

基于内容中文垃圾短信分类技术

收藏本文 2024-03-16 点赞:33570 浏览:156708 作者:网友投稿原创标记本站原创

摘要:移动通信技术的高速发展,手机用户的数量在膨胀,手机短信使用简单、快捷、费用低廉,已经日常生活中不可或缺的通信方式之一。,低廉的传输代价,使得每天收到不请自来的垃圾短信,垃圾短信危害社会安全、毒害社会风气、影响用户的正常生活。规则过滤、黑—白名单和基于关键词匹配的内容扫描等技术垃圾短信过滤主流技术。为了解决垃圾短信给的日常生活带来的烦恼,从垃圾短信的定义、特征、产生的原因、危害及我国垃圾短信做了的分析和介绍,对短信分类技术的现状了概述和分析;其次介绍了3种中文分词方法、4种文本表示方法、4种特征权重赋值方法、7种特征选取方法和7种具有代表性的文本分类算法;在此基础上,了改进的贝叶斯分类方法黑白名单过滤机制实现对短信的过滤,了的实验论证,实验中先对短信分词和停用词过滤等预处理,再DF等特征提取方式,训练分类器,优化分类器参数后短信测试,实验,分析数据,达到了较好的分类效果,分类器同时可以新的训练集,训练出个性化的分类器,适应短信变化,用户的个性化需求。实验证明,改进贝叶斯算法能在正确分类短信的同时,减少了正常短信的误判率。具体地说,工作内容主要包括以下几个:1、介绍了多种特征选取方法,实验中了3种特征提取方法,考查了各选取方法的优劣;2、在现有条件下,了一定数量的、要求的中文短信库;3、在短信语料库的基础上,实现一种提高正常短信率的改进的贝叶斯分类模型,并使用贝叶斯分类器应用于自建的短信语料库,分析、比较它的实验性能与效果;4、分类模型可以训练出个性化的分类器,适应短信变化,用户的个性化需求;5、文本分类的评价标准,实验对贝叶斯分类器了评估,评估结果,设定了分类模型的各项基本参数;6、总结成果,展望未来,为将来的工作打下基础。关键词:垃圾短信论文文本分类论文贝叶斯分类算法论文特征提取论文

    摘要3-4

    Abstract4-9

    章 绪论9-16

    1.1 的研究背景及9

    1.2 垃圾短信知识9-14

    1.2.1 短信基础知识9-11

    1.2.2 垃圾短信的定义11

    1.2.3 垃圾短信的特征11-12

    1.2.4 垃圾短信产生的原因12

    1.2.5 垃圾短信的危害及解决办法12-13

    1.2.6 我国垃圾短信的13-14

    1.3 垃圾短信分类技术的发展现状14-15

    1.3.1 两种分类方式14

    1.3.2 两种分类途径14-15

    1.4 论文结构安排15-16

    章 垃圾短信分类技术概述16-19

    2.1 垃圾短信的分类方式16

    2.2 基于关键词的分类技术16-17

    2.3 基于黑白名单分类技术17

    2.4 基于规则的分类技术17-18

    2.5 基于内容的分类技术18-19

    章 基于内容的垃圾短信分类技术19-35

    3.1 文本分类技术概况19-20

    3.2 文本预处理20-22

    3.2.1 中文分词20-22

    3.2.2 停用词过滤22

    3.3 文本的表示22-25

    3.3.1 布尔模型23

    3.3.2 LDA生成模型23

    3.3.3 向量空间模型(V)23-25

    3.3.4 隐含语义索引模型(LSI)25

    3.4 特征提取方法25-28

    3.4.1 特征频度(TF)26

    3.4.2 文档频度(DF)26

    3.4.3 互信息(MI)26-27

    3.4.4 信息增益(IG)27

    3.4.5 期望交叉熵(ECE)27-28

    3.4.6 文本证据权(WET)28

    3.4.7 χ~2统计量28

    3.5 特征权重表示方法28-29

    3.5.1 布尔权重29

    3.5.2 特征项频度29

    3.5.3 反文档频度29

    3.5.4 联合权重29

    3.6 文本分类算法29-33

    3.6.1 常用文本分类算法30-32

    3.6.2 贝叶斯文本分类方法32-33

    3.7 垃圾短信分类的评估指标33-35

    章 基于改进贝叶斯算法的垃圾短信分类35-73

    4.1 改进的贝叶斯算法35-40

    4.1.1 朴素贝叶斯算法35-36

    4.1.2 最小风险Bayes算法36-37

    4.1.3 主动学习贝叶斯算法37-39

    4.1.4 改进的贝叶斯算法39-40

    4.2 短信预处理40-44

    4.2.1 必要性分析40

    4.2.2 实施方法40-41

    4.2.3 短信分词41-43

    4.2.4 短信表示43

    4.2.5 特征选择43-44

    4.3 短信分类模型44-45

    4.4 实验45-73

    4.4.1 实验数据介绍45

    4.4.2 实验评价标准45-46

    4.4.3 系统功能模块46-47

    4.4.4 系统设计47-48

    4.4.5 实验及实验结果48-61

    4.4.6 实验结果分析61-62

    4.4.7 分类器的个性化训练62-64

    4.4.8 分类器黑白名单过滤机制64-66

    4.4.9 不同参数的分类器训练及测试结果分析66-73

    第五章 总结与展望73-75

    5.1 总结73

    5.2 展望73-75

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号