试议垃圾邮件改善KNN算法在过滤垃圾邮件中运用-turnitin论文查重

摘要：随着互联网的广泛普及，电子邮件已经成为人们日常生活中最便捷、最经济的通信手段。但是电子邮件给用户带来便捷的同时，也带来了不可避开的副产品——垃圾邮件。由于实现比较简单以及受到利益的驱使，一些企业和个人采取了这种最经济的方式进行商业广告，一些也采取发送电子邮件进行违法行为：盗窃用户的机密资料，攻击用户的电脑等。电子邮件用户几乎每天都要收到几十、几百封垃圾邮件，每天都需要花费一定的精力与时间来判断是否为垃圾邮件，并进行清除。垃圾邮件不仅影响到了电子邮件用户，对网络运营提供商和网络管理员也带来了无尽的烦恼。这些所谓的垃圾邮件会占用用户的带宽、时间和存储资源，如果泛滥严重甚至会对网络通信造成堵塞，使得正常邮件不能正常发送和接收，垃圾邮件严重阻碍了互联网的健康进展。由此对垃圾邮件过滤技术的探讨具有很大的实用价值，也是亟待解决的不足。本论文全面浅析当前垃圾邮件的主要特点以及垃圾邮件过滤技术的进展情况；深入讨论了各种反垃圾邮件技术的相关论述和各自的优缺点。针对当前效果较好的KNN算法进行了深入的探讨，针对KNN算法的不足：传统的KNN算法只考虑到相似度之和，或者简单的利用相似度个数的多少来进行判断；将KNN算法运用于垃圾邮件的过滤中，而没有考虑到垃圾邮件本身的偏依赖特性，即用户情愿多收到一封垃圾邮件，也不愿意让垃圾邮件过滤系统将自己的正常邮件误判为垃圾邮件过滤掉；传统的KNN分类算法进行分类时，每次都需要将待测样本和训练样本集中的每个样本进行比较，计算相似度，计算量十分的大，不适合实时性要求比较高的垃圾邮件过滤系统。本论文针对上面陈述的KNN算法的不足之处进行改善，提出并设计一种考虑了偏依赖特性的基于平均相似度和相似度个数的KNN算法。该算法首先通过计算平均相似度而不是相似度之和来表示类权重值，同时考虑到相似样本的个数对分类性能的影响；其次引入了两个表示垃圾邮件本身的偏依赖特性的参数；最后，为了解决KNN算法的计算量大的缺点，本论文利用类中心向量法的思想，通过将将原始样本转化为一个个小类，并计算每个小类的中心向量，以代表原始训练样本建立分类模型，这就相当于将大样本转化为小样本，减少了比较次数，大大降低了KNN分类算法的计算量。实验表明，与传统的KNN算法进行比较，本论文提出的APC-KNN算法运用于垃圾邮件的过滤，具有高正确率，低误报率等优点；并且能够更好的实现垃圾邮件的过滤，起到了保护电子邮件用户以及节省宽带等效果。关键词：垃圾邮件论文KNN算法论文偏依赖特性论文类中心向量论文

摘要4-5

Abstract5-9

插图索引9-10

附表索引10-11

第1章绪论11-18

1.1 探讨背景与作用11-13

1.2 国内外探讨近况和热点13-16

1.2.1 垃圾邮件介绍13-14

1.2.2 垃圾邮件探讨近况14-16

1.2.3 小结16

1.3 探讨内容16

1.4 论文结构安排16-18

第2章垃圾邮件过滤技术的探讨基础18-31

2.1 电子邮件的工作原理18-20

2.2 邮件传输协议20-21

2.3 邮件的特点选取与提取21-25

2.3.1 中文分词21-23

2.3.2 特点向量空间23-24

2.3.3 特点项的提取24-25

2.4 基于内容的垃圾邮件过滤相关技术25-30

2.5 小结30-31

第3章 KNN 算法的改善与实现31-46

3.1 KNN 算法基本原理31-32

3.2 基于平均相似度和相似样本个数的 KNN 算法32-34

3.3 基于偏依赖特性的 KNN 算法设计34-36

3.3.1 偏依赖特性的引入34

3.3.2 偏依赖和 KNN 算法的拟合34-35

3.3.3 惩罚因子的讨论35-36

3.4 改善的 KNN 算法效率的提升36-38

3.5 改善的 KNN 算法过滤系统的构建与实现38-45

3.5.1 改善的 KNN 算法过滤系统的构建38-42

3.5.2 改善的 KNN 算法过滤系统的实现42-45

3.6 小结45-46

第4章实验测试与浅析46-54

4.1 垃圾邮件的评价系统46

4.2 实验环境46-47

4.3 实验数据47

4.4 实验设计47-48

4.5 实验的结果与浅析48-53

4.5.1 特点维数对分类性能的影响实验48-49

4.5.2 不同 K 值对分类性能的影响实验49-50

4.5.3 不同值的选取对分类性能的影响实验50-52

4.5.4 不同 H 值的选取对分类性能的影响实验52

4.5.5 传统的 KNN 算法和 APC-KNN 算法的比较实验52-53

4.6 小结53-54

结论54-56

试议垃圾邮件改善KNN算法在过滤垃圾邮件中运用

相关论文

频道推荐

热门论文阅读

排行榜

猜你喜欢