关于向量支持向量机半监督网络流量分类策略学术-turnitin论文查重

摘要：针对传统网络流量分类方法准确率低、开销大、应用范围受限等问题，提出一种支持向量机（SVM）的半监督网络流量分类方法。该方法在SVM训练中，使用增量学习技术在初始和新增样本集中动态地确定支持向量，避免不必要的重复训练，改善因出现新样本而造成原分类器分类精度降低、分类时间长的情况；改进半监督Tri training方法对分类器进行协同训练，同时使用大量未标记和少量已标记样本对分类器进行反复修正，减少辅助分类器的噪声数据，克服传统协同验证对分类算法及样本类型要求苛刻的不足。实验结果表明，该方法可明显提高网络流量分类的准确率和效率。
关键词：网络流量分类；支持向量机；半监督；增量学习；协同训练
0引言
网络流量是记录和反映网络状况及用户活动的重要载体，对实现有效网络管理有重要意义。目前流行的网络流量分类方法主要有基于端口号匹配方法、基于特征字段分析方法和基于流特征统计的机器学习方法。基于端口号匹配方法根据网络应用的端口号来区分不同类型，实现简单，但新的网络应用（如P2P、被动FTP）采用随机端口技术，使该方法应用受限。基于特征字段分析的方法通过解析数据包获取特

源于：论文模板www.udooo.com

征字段来区分网络应用类型，准确率较高[3]，但应用负载加密和新型应用的不断涌现使该方法的有效性逐步下降；同时，需要扫描数据包内容，计算开销大。基于流特征统计的机器学习方法，根据流量的某些属性（如平均包长、平均包间隔时间等）的统计信息，采用智能机器学习方法实现流量分类[4]。典型的有支持向量机（SupportVectorMachine，SVM）和决策树方法等，此类方法不需解析数据包，仅通过提取数据包头部相应字段来获得流特征统计信息，但选择不同的流属性和流量分类方法直接影响分类的精度。
随着现代化技术的发展，需要处理的网络流量越来越庞大，SVM在流量分类问题中比其他方法更具良好的泛化性和鲁棒性，但仍存在两方面的不足：一是随着新的网络流量样本的增加，分类准确率下降；二是训练SVM分类器需要人工标记网络流量样本，对人力和财力的消耗较大，同时增加了人为的出错率。为解决第一个问题，引入增量学习方法，使分类器可以随着新流量样本的积累不断提高学习精度；为解决第二个问题，引入半监督学习方法[5]，同时利用少量已标记样本和大量无标记样本训练流量分类器。
在基于流特征统计的机器学习方法中，基于有监督的网络流量分类方法如贝叶斯、决策树方法[6]等，检测率高，但要求提前正确标记样本类别，无法发现未知的类别；基于无监督学习的流量分类方法如聚类[7]的方法，根据数据的相似性进行分组，克服了有监督学习方法中需标记数据的不足，但只能对未标记数据建模，检测精度较低。基于这些原因，本文提出具有增量学习能力的最近区域SVM（LeastArea SVM，LA SVM）方法，随着新流量样本的增加，不断完善对单个分类器的建模；在半监督学习的基础上，改进Tri training协同训练方法，同时发挥已标记和无标记样本的优势来协同训练三个分类器，有效减少辅助分类器产生的噪声样本，训练出的分类器具有较强的泛化性。

1.1新增样本后支持向量的变化情况

周伟达等在文献[8]中证明满足KKT（Karush Kuhn Tucker）条件的新增样本将不会改变支持向量集，而违背KKT条件的新增样本将使支持向量集改变。王晓丹等[9]证明若新增样本存在违背KKT条件的点，则原样本集中的非支持向量可能转化为支持向量。因此，本文认为：分类器的性能主要取决于新增样本集中违背KKT条件的样本点和原样本中的支持向量集以及原样本中可能转化为支持向量的非支持向量集。

1.2LA SVM方法

在运用增量学习的方法进行SVM增量学习方面，萧嵘等[10]把误分样本和SV（SupportVector）向量一起训练，直到误分样本的比例小于设定的阈值为止；曾文华等[11]舍弃对分类无用的样本，使学习对象的知识得到积累。此类传统的算法都没有充分考虑初始样本和新增样本中可能转化为支持向量的数据，导致一些有用的历史数据过早被淘汰，影响了后续的分类工作。如何在初始样本集和新增样本集中寻找支持向量并进行增量学习，是LA SVM方法的出发点。

关于向量支持向量机半监督网络流量分类策略学术

1.1新增样本后支持向量的变化情况

1.2LA SVM方法

相关论文

频道推荐

热门论文阅读

排行榜

猜你喜欢