您的当前位置:首页正文

数据挖掘算法在入侵检测中的应用分析

来源:帮我找美食网
南枉科技201 3年Ig51t ̄ 信息纵横 数据挖掘算法在入侵检测中的应用分析 耿风 475004河南开封 黄河水利职业技术学院摘要本文在介绍了入侵检测技术和数据挖掘的基础上,重点分析了数据挖掘的关联分析、序列分析、聚类分析和 分类分析算法及其在入侵检测中的应用,得出把数据挖掘技术应用于入侵检测系统的优点。 关键词入侵检测数据挖掘挖掘算法 1 入侵检测和数据挖掘技术 入侵检测技术通过从计算机网络或计算机系统中的若干关 键点收集信息并对其进行分析,从中发现网络或系统中非授权 的或者威胁到系统安全的行为,同时对该行为做出响应,达到 保证系统安全的目的…。根据检测方法的不同,入侵检测可以 分为误用检测和异常检测两种。目前,大多数网络入侵检测系 统都是事先设定好入侵规则库,然后通过规则匹配来发现入侵 数据,也就是所渭的误用检测机制。这一做法的最大缺点就是 不能发现新的入侵行为,漏报率较高。 数据挖掘是从大量数据中提取或挖掘知识,它能高度自动 化地分析原有的数据,做出归纳性的推理,从中挖掘出潜在的 模式,预测出对象的行为 。将数据挖掘技术引入入侵检测, 把入侵检测看成是一个数据分析过程,利用数据挖掘技术自动 构建系统的特征模式,提高了入侵检测系统的准确性、扩展性 和自适应性,成为入侵检测研究领域的一个新的研究热点。 2 数据挖掘分析方法及其在入侵检测中的应用 把数据挖掘分析方法应用到入侵检测领域,构建基于这些 分析方法的入侵检测系统,能够从海量数据中提取网络正常行 为模型,解决传统的基于误用的入侵检测系统只能检测已知攻 击,不能检测未知攻击以及已知攻击变种的缺陷。目前常用的 数据挖掘分析方法有:关联分析、序列分析、聚类分析和分类 分析。 2.1关联分析 关联分析的目的是从已知的事务集w中产生数据项集之间 的关联规则,即同一条审计记录中不同字段之间存在的关系, 同时保证规则的支持度和信任度大于用户预先指定的最小支持 度和最小信任度。关联分析就是要发现关联规则,找出给定数 据集中数据项之间的联系。也就是给定一组Item和一个记录集 合,通过分析记录集合,推导出Item问的相关性。 (1)关联规则简述。关联规则具有如下两个重要的属 性:一是支持度,即A和B这两个项集在事务集D中同时出现的 概率。也就是指包含并集AUB中所有项目的事务所占的百分 比。二是可信度,即在出现项集A的事务集D中,项集B也同时 出现的概率。挖掘关联规则可按如下步骤进行:一是发现所有 的频繁集合,根据定义这些集合的频度至少应等于最小支持频 度。二是根据所获得的频繁集合,产生相应的强关联规则,根 据定义这些规则必须满足最小信任度阈值。 (2)关联规则分析在入侵检测中的应用。关联规则挖掘 是数据挖掘最为广泛应用的技术,也是最早用于入侵检测的技 术之。。。‘ 。。关联规则表示数据库中一组对象之间某种关联关系 的规则。关联规则最早被用于分析网络流数据,随后也将关联 规则的挖掘结果作为挖掘的输入数据,以便能挖掘出更优的结 果。乔治梅森大学的研发人员发展了关联挖掘在入侵检测方面 的重要的应用,并提出了一种新型的应用于异常检测的多重检 测方法。目前,基于关联规则挖掘的入侵检测被广泛研究。 2.2序列分析 序列分析的目的是发现序列模式。序列模式与关联模式相 仿,不同的是它处理不同记录之间属陛集的关联关系,把数据 之间的关联性与时间联系起来。序列模式分析‘ 的侧重点在于 分析数据间的前后序列关系。序列分析描述的问题是:在给定 交易序列数据库中,每个序列按照交易时间排列成一组交易 集,挖掘序列函数作用在这个交易序列数据库上,返回出现的 高频序列。例如入侵行为发生的先后关系常常有一定的规律, 黑客在入侵前先进行端口扫描然后再进行猜测密码的攻击的过 程就可以用序列模式来描述。 (1)挖掘序列模式的基本步骤。第一步,排序阶段,以 事务的主题为主键,事务时间为次键,对原始数据库进行排 序,将其转换为主体序列的数据库。第二步,大数据项阶段, 找出所有的大数据项集L,并把大数据项集映射为一组相邻的 整数,每个大数据项对应一个整数。第三步,转换阶段,将数 据库中主体序列的每一次事务用该事物包含的大数据项集 Itemsets代替。第四步,序列阶段,利用大数据项集发掘序列 模式。第五步,序列最高化阶段找出所有序列模式的最高序列 集。 (2)序列模式分析在入侵检测中的应用。序列模式分析 主要用于发现形如“在某段时间内,有数据特征A出现,然后 出现了特征B,而后特征C又出现了,即序列A—B—c出现频 度较高”之类高频序列信息。它主要挖掘安全事件之间先后关 系,运用序列分析发现入侵行为的序列关系,从中提取出入侵 行为之间的时间序列特征。序列模式分析一般不单独使用,它 可用于入侵检测过程的某一步骤,从数据中挖掘用户序列模 式,提取出可用于入侵检测的知识和模式。如对网络连接数据 进行序列分析,正确提取出一些基于时问的统汁属性,以便能 构造出分类模型,它对反复出现的序列检测率较高。 2.3聚类分析 聚类分析 是指将数据对象的集合根据一定的规则分组成 为多个有意义的由类似对象组成的子集的描述性任务。当挖掘 任务面临缺少领域知识或领域知识不完整的数据集合时,采用 聚类分析技术,可以将无标识数据对象自动划分为不同的类, 并且可以不受人的先验知识的约束和干扰,从而获取属于数据 集合中原本存在的信息。在机器学习中,聚类分析属于一种无 监督的学习方法。聚类分析的基本指导思想是最大程度地实现 类中对象相似度最大、类问对象相似度最小。 (1)聚类分析的一般步骤。第一步是特征提取。输入原 始样本,由领域专家决定使用哪些特征来深刻地刻画样本的本 信息纵横 两IIj:科技201 3年第5期 质性质和结构。特征提取的结果是输出一个矩阵,每一行是一 个样本,每一列是一个特征指标变量。第二步是执行聚类算 法,获得聚类谱系图。聚类算法的目的就是获得能够反映N维 空间中这些样本点的最本质的“簇”的性质。第三步是选取合 适的分类阀值。在得到了聚类谱系图后,领域专家凭借经验和 领域知识,根据具体的应用场合决定阀值的选取。选定阀值 后,就能够从聚类谱系图上直接看出分类方案。领域专家还可 3基于数据挖掘的入侵检测系统的主要优点 (1)自适应性好。传统入侵检测系统规则库的建立需要 一个特别的专家小组根据现有的攻击去发现它的特征并继而开 发出它的检测工具,而要一个系统总能很快地跟踪入侵技术的 发展是不可能的。由于应用数据挖掘技木的异常检测不基于信 号匹配模式,所以具有良好的实时性和适应性。 (2)误报率低。现有的系统过度依赖于单纯的信号匹 配,它发出的警报可能远远多于实际的情况,在某种正常的工 作中如果包含这种信号的话,就必然产生误报。采用数据挖掘 的系统可以从警报发生的序列发现某种规律从而滤出那些正常 以对聚类结果结合领域知识进行进一步的分析,从而加深样本 点和特征变量的认识。 (2)聚类分析在入侵检测中的应用。基于聚类分析的入 侵检测算法基本思想主要源于入侵与正常模式上的不同及正常 的行为产生的信号,还可以有效地剔除重复的攻击数据,因而 具有较低的误报率。 (3)漏报率低。当一种新的以前从未出现过的攻击方式 出现时,或者当一种攻击改变它的某些方式时,传统的系统很 行为数目应远大于入侵行为数目的条件,因此能够将数据集划 分为不同的类别,由此分辨出正常和异常行为来检测入侵。数 据挖掘中常用的聚类算法有K—iTleans、模糊聚类、遗传聚类 等。基于聚类的入侵检测是一种无监督的异常检测算法,它不 有可能就不会产生反应。应用数据挖掘技术的系统就可以很快 需要手工或其它的分类,通过对未标识数据进行训练来检测入 地发现新的攻击,在很大程度上减少了漏报的百『胄 。 侵,可用于对未知攻击的检测。 2.4分类分析 (4)减轻数据过载。现在网络上的数据流量越来越大, 传统的入侵检测系统难以应对,应用数据挖掘技术可以发掘数 数据分类” 实际上就是从数据库对象中发现共性,并将数 据之间的关系,可以提供各个不同侧面的数据特征,特别是可 据对象分成不同类的过程。分类的目标首先是对训练数据进行 以将以前的结果和最新的数据加以综合,这样可以大大减少不 分析,使用数据的某些特征属性,给出每个类的准确描述(I ̄I1分 类规则),然后使用这些描述,对数据库中的其它数据进行分 类。 必要的数据。 4结语 (1)数据分类的过程。第一步,建立一个模型,描述预 定的数据类集或概念集。通过分析由属性描述的数据库元组来 应用数据挖掘技术的入侵检测系统是一个智能系统,它集 智能性、实时性于一体,易于操作,在克服传统检测技术固有 的缺点方面有很大的优势,具有很好的发展前景。 参考文献 【1】唐正军,李建华.入侵检测技术IM】.北京:清华出版社,2004 『21 HAN JIAWEI,KAMBER M,范明,孟小峰,译.数据挖掘概念 与技术IM)北京:机械工业出版社,200l 构造模型。数据元组也称作样本或对象,为建立模型而被分析 的数据元组形成训练数据集,其中的单个元组称作训练样本。 通常,学习模型用分类规则、判定树或数学公式的形式提供。 第二步,使用模型进行分类。首先要评估模型的预测准确率, 最常用的一种方法是保持方法,该方法使用类标号样本测试 集,这些样本随机选取,并独立于训练样本集。对于每个测试 样本,按照分类模型学习得出的预测类与已知的类标号比较, [3】黄水源,周理凤,段隆振,等.数据挖掘技术在入侵检测中的应 用 微计算机信息,2006(24):35—38 如果认为模型的准确率是可以接受的,就可以用它对类标号未 知的数据元组或对象进行分类。 (2)分类分析在入侵检测中的应用。入侵检测可以看作 是一种数据分类问题。进行分类挖掘的入侵检测应首先选择一 个训练数据集,对该训练集标记出正常或异常的数据,使用分 类规则、决策树等方法从该数据集中提取出分类规则并构造出 适合的分类器。然后用构造出的分类器对收集的网络实时数据 【4】蒋云燕,成长生基于数据挖掘的入侵检测Ⅲ.计算机应用与 软件,2006,23(1 1):124—126 【5]马晓春,高翔,高德远.聚类分析在入侵检测系统中应用研究 U1.微电子学与计算机,2005,22(4):134—136 [6】盛思源,战守义,石耀斌基于数据挖掘的入侵检测系统….计 算机工程,2003,1(29):156—157 作者简介耿风(1981一),女,硕士,黄河水利职业技术学 院助教。研究方向:计算机应用、网络安全. .(收稿日期:2()13一【】1—06) 流进行分类,将数据分为正常行为或某种入侵行为,以此判断 出是否存在入侵行为。这一分类过程应该不断反复和评估,以 期望能够得到最优化的分类器。 (接179页)苏州市相城中等专业学校达成合作,于2012年初步 计划招生3个班,共96名学生,获得了考生和家长的积极响应。 同时对本院其他专业中高职衔接的建设发挥一定的借鉴和指导作 用,同时也有利于带动中职教师的科研、教改能力的提升。 参考文献 【1 J汤光伟.中高职衔接研究u】.职教论坛,2010(22) 【2】国家中长期教育改革和发展规划纲要(2010 ̄2020) 【31武佩牛论中职教育和高职教育的衔接模式 天津职业大学 学报.20(17(2) 【4]张书义关于五年制高等职业教育的思考Ul天中学刊,2009(4) I51邹晓宏,刘楚佳,黄晓媚.高等职业教育专业设置:国际经验及 启示lIll北京农业职业学院学报,2()10(2) 作者简介许燕萍(1979一),女,通信与信息系统硕士,苏 (收稿日期:2013-04—17) 州I工业职业技术学院教师。 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top