摘要:Web运用的日益增加,导致网页攻击日益猖獗,越来越多的恶意软件利用网页作为其传播载体,传播历程也越来越隐蔽,对用户造成了巨大的威胁。探讨如何准确有效地检测网页恶意代码具有重要的作用。传统的基于网页内容或的静态检测策略由于误报率高而缺乏实际运用价值,模拟真实运转环境的动态检测策略则因资源消耗大而难以获得较高的性能。基于数据挖掘的网页恶意代码检测技术,通过数据挖掘的策略生成一种漏报率较低的分类模型,希望通过将该分类模型与动态检测策略相结合,达到低误报率同时低漏报率的检测目标。通过对大量网页恶意代码的探讨,分类型总结了网页恶意代码的特点。针对这些特点,采取了相应的特点提取技术:采取HTMLParser工具包提取HTML特点,采取正则表达式字符串匹配技术初步提取JaScript特点,对经过混淆的JaScript代码采取扩展的Rhino引擎进行特点的剖析提取。由于Rhino引擎只提供了对核心JaScript功能的支持,详细探讨了Rhino引擎的扩展技术。分类模型生成历程中,探讨比较了朴素贝叶斯算法、决策树算法以及SVM算法的分类结果,同时探讨了漏报率和误报率的调整,HTML特点与JaScript特点分别进行分类所得结果的比较等。探讨所得分类模型已运用于实际的检测系统,取得了良好的检测效果,针对检测历程中发现的不足,后续还将继续进行探讨改善。关键词:网页恶意代码论文数据挖掘论文静态检测论文脚本剖析引擎论文
摘要4-5
Abstract5-6
目录6-8
1 绪论8-14
1.1 探讨背景8-9
1.2 国内外探讨近况9-12
1.3 主要探讨内容12-13
1.4 论文结构13-14
2 网页恶意代码特点浅析14-26
2.1 网页恶意代码概述14-17
2.2 跳转特点浅析17-19
2.3 环境准备阶段特点浅析19-20
2.4 攻击阶段特点浅析20-21
2.5 混淆特点浅析21-24
2.6 页面整体特点浅析24-25
2.7 本章小结25-26
3 网页恶意代码特点提取技术探讨26-36
3.1 HTML 网页剖析技术探讨26-27
3.2 字符串匹配技术探讨27-29
3.3 JASCRIPT 引擎剖析技术探讨29-33
3.4 基于 JASCRIPT 模拟环境的特点提取33-34
3.5 本章小结34-36
4 基于数据挖掘的检测策略探讨36-50
4.1 分类算法探讨36-41
4.2 数据挖掘分类模型探讨41-47
4.3 分类结果浅析47-49
4.4 本章小结49-50
5 总结与展望50-52
5.1 总结50-51
5.2 展望51-52
致谢52-54