中国教育和科研计算机网
EDU首页 |  中国教育 |   高校科技 |   教育信息化 |   CERNET
教育信息化

资讯 | 专题 会议 观点 专栏 访谈 企业 产品 CIO 技术 校园信息化 下一代互联网 IPv6视频课堂

中国教育网 > 教育信息化
您现在的位置: EDU首页 > 教育信息化 > 网络安全 > 攻击防范 > 网络入侵
主成分分析法改进贝叶斯网络入侵检测
http://www.edu.cn   2012-04-27 中国教育网络 作者:李静 冯祖洪

字体选择:【大】 【中】 【小】

  试验及分析

  评估指标

  本实验采用F1测试值作为试验评估指标。F1测试值的具体计算公式如下[8]:

  实验设计及结果

  本实验采用的数据来自KDD CUP1999数据集。该数据集作为入侵检测领域中的权威数据,是在军事网络环境中运用非常广泛的模拟入侵攻击试验得到的。该数据集包含490万条数据,每条数据就是一个网络连接记录。其中,每条记录由41个特征属性和第42个用来标记该记录是正常数据还是某种攻击类别的属性组成[9]。该数据集包含的四大攻击类[10]分别是:DoS(Denial-of-service),拒绝服务攻击;R2L(Unauthorized access from a remote machine to a local machine),是来自于远程主机的未授权访问;U2R(Unauthorized access to local super user privileges by a local unprivileged user)未授权的本地超级用户特权访问;Probing(surveillance and probing)端口监视或扫描。本文从该数据集中抽取12万条记录,其中50%作为训练集,剩余50%作为测试集。

  通过对6万条训练数据进行分析,得知41个特征属性中的8个属性(is_hot_login,num_outbound_cmd,root_shell,land,su_attempted,urgent,num_shells,num_failed_logins)对分类几乎不起作用(其99%以上的属性值是相同的)。本实验对剩余的33个属性进行主成分分析,得到查全率(recall)=被检测出来的攻击数目总攻击数目12个主成分,并对其离散化。

  数据离散化后,将这12个主成分作为前12个变量,并将原训练数据集中的第42个属性(标记类别的属性)作为第13个变量组成新的训练数据。运用参考文献中的算法对新训练数据进行训练得到如图1所示的贝叶斯网络结构。计算得到网络节点参数,即变量的先验概率表或条件概率表。由于各个变量的取值较多,导致概率表庞大,文章中仅截取节点3和节点6的概率表,如表1、表2所示。

  贝叶斯网络生成之后,用已有的贝叶斯网络分类算法和基于滑动窗口的贝叶斯网络分类算法进行比较。通过多次试验证明,当滑动窗口的大小为1000时,分类效果较好。算法采用Matlab编程实现,并分别计算出两个不同算法的准确率和查全率。试验后得到两种不同算法针对每个类具体的F1值,如表3所示。

  实验结论

  1.与直接用标准数据集中的数据训练贝叶斯网络相比较,用主成分分析方法对数据集进行特征提取会大大减少贝叶斯网络训练过程中的计算量;

  2.由表2可知,使用滑动窗口可以明显提高贝叶斯网络的检测精度。

  本文在对KDDCUP1999数据集进行分析的基础上,使用主成分分析的方法对数据集进行降维,将滑动窗口引入到贝叶斯网络分类算法中,从而得到改进的贝叶斯网络分类算法。试验证明,改进的算法能够有效地降低分类数据的维数,同时该算法建立的入侵检测模型能够更好地检测出已知的入侵攻击类型。但对于未知的攻击,检测效果还不是很理想,这也是本文下一步要考虑的问题。

  (作者单位为北方民族大学计算机科学与工程学院)

  扩展阅读:

  [1]杨德刚.基于模糊C均值聚类的网络入侵检测算法.计算机科学,2005,32(1):86-91.

  [2]令狐红英,陈梅,王翰虎,娄.基于互信息可信度的贝叶斯网络入侵检测研究[J].计算机工程与设计,2009,30(14):3288-3290.

  [3]李冰寒,高晓利,刘三阳,李战国.利用互信息学习贝叶斯网络结构[J].智能系统学报,2011,6(1):68-71.

  [4]张尧庭等.多元统计分析引论[M].北京:科学出版社,1982.

  [5]于涛.主成分分析及其算法[J].金筑大学学报,1996,22(2):75-78.

  [6]张连文,郭海鹏.贝叶斯网引论[M].北京:科学出版社,2006.

  [7]Jie Cheng,David A.Bell,Weiru Liu,etal.Learning belief net-works from data:an information theory based approach[C].In Proceedings of the Sixth ACM International Conference on In-formation and Knowledg eManagement,325-331.

  [8]王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435.

  [9]杨锋.基于数据挖掘的入侵检测技术研究[D].哈尔滨:哈尔滨工程大学,2006.

  [10]王越,谭淑秋,刘亚辉.基于互信息的贝叶斯网络结构学习算法[J].计算机工程,2011,37(7):62-64.

页面功能 【打印】 【关闭】 【我有话说

MOOC风暴来袭

版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com