您的位置: turnitin查重官网> 计算机 >> 计算机毕业题目 >样本垃圾邮件样本技术和系统实现

样本垃圾邮件样本技术和系统实现

收藏本文 2024-03-17 点赞:31008 浏览:143290 作者:网友投稿原创标记本站原创

摘要:垃圾邮件已成为互联网用户的烦恼之一,已经严重干扰了人们的正常生活,浪费用户的时间、精力甚至造成了信息安全隐患。人们已经探讨了多种反垃圾邮件技术,基于规则的垃圾邮件过滤技术和基于内容浅析的垃圾邮件过滤技术是其中的重要组成部分。规则生成和分类器训练需要大量的垃圾邮件样本,为此需要探讨垃圾邮件样本浅析技术,以实现垃圾邮件样本的获取、消重、存储和垃圾邮件特点选择。针对样本获取,本论文设计了一种基于邮件网关的样本拦截获取机制;针对样本消重,本论文设计了两阶段样本消重机制,包括初级样本消重和深层样本消重;针对垃圾邮件样本数据存储不足,本论文设计了一种基于相似度测量的垃圾邮件样本聚合算法,结合该算法设计并实现了一种适用于大量垃圾邮件样本数据存储的两级数据存储结构。本论文着重探讨了基于垃圾邮件样本浅析的特点选择算法。为满足“选出更少的特点来更准确识别绝大部分垃圾邮件”的需求,本论文设计了基于遗传算法和粒子群优化算法的特点选择机制。为满足“选出更全面的特点以精确识别垃圾邮件”的需求,本论文设计了面向kNN分类器和特点选择的联合优化机制。本论文对设计的机制和算法进行了系统实现。本论文所实现的垃圾邮件样本浅析系统由数据浅析引擎和信息浅析发布平台两个部分组成。本论文还设计实现了测试平台,测试了系统的可行性、有效性和实用性。测试结果表明本论文所设计样本浅析技术可以满足垃圾邮件综合系统的需求,使其有效的降低过滤系统的漏判率和误判率。关键词:垃圾邮件样本论文样本消重论文相似度测量论文特点选择论文优化算法论文

    摘要5-6

    Abstract6-7

    目录7-10

    第一章 引言10-18

    1.1 垃圾邮件10-11

    1.2 垃圾邮件发送技术11-12

    1.3 反垃圾邮件技术12-15

    1.4 一体化协作式垃圾邮件综合系统15-16

    1.5 垃圾邮件样本浅析的需求16

    1.6 课题来源16-18

    第二章 相关技术18-30

    2.1 垃圾邮件样本获取19-21

    2.2 垃圾邮件特点生成21-23

    2.2.1 N-Gram生成21-22

    2.2.2 N-Gram统计22

    2.2.3 N-Gram过滤22-23

    2.3 文本分类中的特点选择策略23-26

    2.4 垃圾邮件过滤中的分类算法26-30

    第三章 圾邮件样本浅析系统设计30-52

    3.1 设计概述30-31

    3.2 一种基于邮件网关的邮件样本获取机制的设计31-33

    3.2.1 邮件队列维持32

    3.2.2 样本检测与初步分类32-33

    3.3 一种两阶段样本消重机制的设计33-34

    3.3.1 初级样本消重33

    3.3.2 深层样本消重33-34

    3.4 一种两级样本数据存储结构的设计34-36

    3.4.1 设计概述34-35

    3.4.2 基于相似度测量的垃圾邮件样本聚合算法35-36

    3.5 基于优化算法改善垃圾邮件样本特点选择机制36-41

    3.5.1 设计概述36-38

    3.5.2 基于GA的垃圾邮件样本特点选择改善机制详细设计38-40

    3.5.2.1 基本定义38-39

    3.5.2.2 算法流程39-40

    3.5.3 基于PSO的垃圾邮件样本特点选择改善机制详细设计40-41

    3.5.3.1 基本定义40-41

    3.5.3.2 算法流程41

    3.6 面向kNN分类器和特点选择的联合优化机制41-42

    3.7 系统详细设计42-52

    3.7.1 通用模块详细设计43-44

    3.7.2 样本收集与识别模块详细设计44-45

    3.7.3 初级数据处理模块详细设计45-46

    3.7.4 深层数据处理模块详细设计46-47

    3.7.5 信息浅析发布模块详细设计47-51

    3.7.6 测试平台邮件流生成设计51-52

    第四章 垃圾邮件样本浅析系统实现52-64

    4.1 系统实现环境52-54

    4.1.1 LAMP52

    4.1.2 Postfix52-53

    4.1.3 Spamassassin53

    4.1.4 Amisd-new53-54

    4.2 主要数据结构54-59

    4.3 主要函数实现59-61

    4.3.1 样本获取相关函数59

    4.3.2 样本浅析相关函数59-60

    4.3.3 信息发布相关函数60-61

    4.4 系统平台搭建61-64

    4.4.1 平台拓扑61-62

    4.4.2 硬件配置清单62

    4.4.3 软件配置清单62-64

    第五章 垃圾邮件样本浅析系统评价64-72

    5.1 测试平台64

    5.2 性能评价64-69

    5.2.1 测试数据64-65

    5.2.2 评价参数65

    5.2.3 基于相似度测量的垃圾邮件样本聚合算法性能65-66

    5.2.4 基于优化算法改善垃圾邮件特点选择的性能评价66-68

    5.2.4.1 特点子集规模66-67

    5.2.4.2 特点子集性能测试67-68

    5.2.5 面向kNN分类器和特点选择的联合优化机制68-69

    5.2.5.1 不同特点数量对kNN分类器的邮件过滤性能的影响68-69

    5.2.5.2 优化算法比较69

    5.2.5.3 联合优化的性能改善69

    5.3 功能评价69-71

    5.3.1 系统处理性能69-70

    5.3.2 样本获取70

    5.3.3 样本剖析70

    5.3.4 样本消重70-71

    5.3.5 信息浅析发布71

    5.4 系统可扩展能力71-72

    第六章 结束语72-74

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号