摘要:针对传统网络流量分类方法准确率低、开销大、应用范围受限等问题,提出一种支持向量机(SVM)的半监督网络流量分类方法。该方法在SVM训练中,使用增量学习技术在初始和新增样本集中动态地确定支持向量,避免不必要的重复训练,改善因出现新样本而造成原分类器分类精度降低、分类时间长的情况;改进半监督Tri training方法对分类器进行协同训练,同时使用大量未标记和少量已标记样本对分类器进行反复修正,减少辅助分类器的噪声数据,克服传统协同验证对分类算法及样本类型要求苛刻的不足。实验结果表明,该方法可明显提高网络流量分类的准确率和效率。
关键词:网络流量分类;支持向量机;半监督;增量学习;协同训练
0引言
网络流量是记录和反映网络状况及用户活动的重要载体,对实现有效网络管理有重要意义。目前流行的网络流量分类方法主要有基于端口号匹配方法、基于特征字段分析方法和基于流特征统计的机器学习方法。基于端口号匹配方法根据网络应用的端口号来区分不同类型,实现简单,但新的网络应用(如P2P、被动FTP)采用随机端口技术,使该方法应用受限。基于特征字段分析的方法通过解析数据包获取特
随着现代化技术的发展,需要处理的网络流量越来越庞大,SVM在流量分类问题中比其他方法更具良好的泛化性和鲁棒性,但仍存在两方面的不足:一是随着新的网络流量样本的增加,分类准确率下降;二是训练SVM分类器需要人工标记网络流量样本,对人力和财力的消耗较大,同时增加了人为的出错率。为解决第一个问题,引入增量学习方法,使分类器可以随着新流量样本的积累不断提高学习精度;为解决第二个问题,引入半监督学习方法[5],同时利用少量已标记样本和大量无标记样本训练流量分类器。
在基于流特征统计的机器学习方法中,基于有监督的网络流量分类方法如贝叶斯、决策树方法[6]等,检测率高,但要求提前正确标记样本类别,无法发现未知的类别;基于无监督学习的流量分类方法如聚类[7]的方法,根据数据的相似性进行分组,克服了有监督学习方法中需标记数据的不足,但只能对未标记数据建模,检测精度较低。基于这些原因,本文提出具有增量学习能力的最近区域SVM(LeastArea SVM,LA SVM)方法,随着新流量样本的增加,不断完善对单个分类器的建模;在半监督学习的基础上,改进Tri training协同训练方法,同时发挥已标记和无标记样本的优势来协同训练三个分类器,有效减少辅助分类器产生的噪声样本,训练出的分类器具有较强的泛化性。
关键词:网络流量分类;支持向量机;半监督;增量学习;协同训练
0引言
网络流量是记录和反映网络状况及用户活动的重要载体,对实现有效网络管理有重要意义。目前流行的网络流量分类方法主要有基于端口号匹配方法、基于特征字段分析方法和基于流特征统计的机器学习方法。基于端口号匹配方法根据网络应用的端口号来区分不同类型,实现简单,但新的网络应用(如P2P、被动FTP)采用随机端口技术,使该方法应用受限。基于特征字段分析的方法通过解析数据包获取特
源于:论文模板www.udooo.com
征字段来区分网络应用类型,准确率较高[3],但应用负载加密和新型应用的不断涌现使该方法的有效性逐步下降;同时,需要扫描数据包内容,计算开销大。基于流特征统计的机器学习方法,根据流量的某些属性(如平均包长、平均包间隔时间等)的统计信息,采用智能机器学习方法实现流量分类[4]。典型的有支持向量机(SupportVectorMachine,SVM)和决策树方法等,此类方法不需解析数据包,仅通过提取数据包头部相应字段来获得流特征统计信息,但选择不同的流属性和流量分类方法直接影响分类的精度。随着现代化技术的发展,需要处理的网络流量越来越庞大,SVM在流量分类问题中比其他方法更具良好的泛化性和鲁棒性,但仍存在两方面的不足:一是随着新的网络流量样本的增加,分类准确率下降;二是训练SVM分类器需要人工标记网络流量样本,对人力和财力的消耗较大,同时增加了人为的出错率。为解决第一个问题,引入增量学习方法,使分类器可以随着新流量样本的积累不断提高学习精度;为解决第二个问题,引入半监督学习方法[5],同时利用少量已标记样本和大量无标记样本训练流量分类器。
在基于流特征统计的机器学习方法中,基于有监督的网络流量分类方法如贝叶斯、决策树方法[6]等,检测率高,但要求提前正确标记样本类别,无法发现未知的类别;基于无监督学习的流量分类方法如聚类[7]的方法,根据数据的相似性进行分组,克服了有监督学习方法中需标记数据的不足,但只能对未标记数据建模,检测精度较低。基于这些原因,本文提出具有增量学习能力的最近区域SVM(LeastArea SVM,LA SVM)方法,随着新流量样本的增加,不断完善对单个分类器的建模;在半监督学习的基础上,改进Tri training协同训练方法,同时发挥已标记和无标记样本的优势来协同训练三个分类器,有效减少辅助分类器产生的噪声样本,训练出的分类器具有较强的泛化性。