模糊系统与数学

基于大数据关联规则的网络恶意行为识别检测

0 引 言

网络恶意行为攻击是对于计算机网络安全而言最为主要的一种威胁行为。网络恶意行为一般以代码形式攻击计算机网络。[1]近年来,各种新类型的恶意代码通过客户端软件或者计算机端存在的漏洞攻击计算机,给用户的使用带来诸多麻烦。恶意代码传播行为隐秘性高,传播速度快,使用常见的杀毒软件很难有效抑制恶意代码的行为。[2,3]

各类杀毒软件相关公司积极研究遏制恶意代码的相关杀毒软件,但是部分软件研发公司受到利益驱动常常在免费软件中隐藏部分恶意行为,严重威胁到使用者的用户体验,极易泄露使用这的资料和隐私,给网络安全带来重大冲击。[4]恶意行为识别检测是以主机入侵作为基础的识别检测方法之一,一般是使用一种或者数种技术结合实现恶意行为的识别,一旦发现恶意行为立即实行保护机制。常使用的恶意行为识别检测方法主要基于异常检测或者特征码检测,将特征码作为检测基础的手段是判别已知特征码[5],具有较高检测效果但是对于大量涌现的特征代码却不适用;以异常作为基础的检测方法能够检测出位置软件中存在的恶意行为[6],一般为漏洞等攻击行为,但是对于其它行为检测效果较差。对于恶意行为相关识别检测已经成为众多研究者的重点。有学者提出基于事件流数据世系的恶意网络行为检测方法[7],通过事件流对用户和系统之间的网络相关行为实现刻画,构建使用数据驱动的事件流数据世系模型,检测出异常行为,但是该方法在实际应用时,存在漏识别的情况;还有学者提出基于上下文信息的Android恶意行为检测方法[8],提取敏感应用连接编程接口,判断恶意行为,该种方法精确率较高,具有实用性,但是计算过程存在复杂性,实际操作困难大。

除上述存在的问题外,再加之当今社会网络信息技术高度发达,物联网、互联网与云计算等计算机技术发展迅速,在各类网络中,海量数据大规模增长[9],为人类的日常生活带来更多机遇和生活便利,但是对网络的运行安全也带来极大的挑战性。在大数据背景之下,部分违法人员通过大数据持续发动恶意攻击行为。这种针对大数据的攻击行为不但能够在相同时间大量控制对象,而且攻击行为不容易被预防,攻击范围更广、隐蔽性更高、持续时间更长。[10]由此可见,大数据背景下网络安全问题已经日益尖锐,成为计算机研究领域中越来越需要受到重视的问题。

本文研究大数据关联规则作为基础的网络恶意行为识别检测,通过模糊关联规则提取数据特征,构建模型识别检测出网络恶意行为。

1 网络恶意行为识别检测

1.1 基于模糊关联规则的大数据挖掘

以模糊关联规则作为基础的大数据挖掘技术就是在关联规则中引入模糊集理论,构建模糊关联规则实现大数据挖掘,对海量大数据进行整理。[11]为了实现模糊关联规则的大数据挖掘,先查找存在最小模糊支持度的频繁项集,依据查找获得的频繁项集构建能够用在大数据挖掘的模糊关联规则,以此实现大数据挖掘。

选择大数据挖掘模糊关联规则,X?y为该规则的形式,X与y分别表示大数据属性值集合与大数据类标号。使用加权分类规则构建大数据分类器。

假设大数据分类规则中的后件只存在一个类,Aqi与CFqM分别表示大数据属性xi相对应的某个模糊项与大数据样本被模糊关联规则Rq预测为类CqM的置信度。

经分析各大数据分类规则权重构建分类器,使用式(1)表示各规则权重:

假设基因分类器S在对大数据样本Xp预测时标号为μAq(Xp),则有:

对加权大数据中的每个样本,使用当前分类器进行预测。以此判定当前分类器在实行分类时的准确性,针对出现错分的样本给予更高的权重,假设swi代表大数据样本的权重,同时有则可使用式(3)表示样本的支持率与置信率:

以模糊关联规则作为基础的大数据挖掘方法利用最小支持度法,数据挖掘时通过向大数据内少数类给予相对低的最小支持度实现,分类器精度不再严重受到数据不平衡的影响,使分类准确性得到提高,提升大数据挖掘效果。

假设freeDistr(ci)、minsupi与base_minsup分别代表类ci占大数据的比例、类ci的分类规则最小支持度与支持度基数,则有:

base_min supi=base_min sup*freeDistr(ci)

经过以上过程,构建大数据分类器,实现大数据分类,以此为基础聚类数据,综合考虑该分类是否适用于网络恶意行为大数据挖掘。为提升数据挖掘准确性,整理大数据,解决大数据存在的连续性,运用模糊离散化处理数据。[12]模糊关联规则中模糊离散化是关键内容,主要能够将方法扩散,保证方法在连续空间也可以使用,解决处理现实问题,同时为降低数据挖掘难度,实行连续属性的离散化,保证模糊关联规则大数据挖掘的难度得以降低,提升数据挖掘效率。

上一篇:雨中涌动的事物越来越模糊组诗
下一篇:没有了