正文 數據挖掘技術在信息安全證據處理中的應用(2 / 3)

分類模型主要是通過分析具有類別的樣本的特點,得到決定樣本屬於各種類別的規則或方法。利用這些規則和方法對未知類別的樣本分類時應該具有一定的準確度。其主要方法有基於統計學的貝葉斯方法、神經網絡方法、決策樹方法等。

1.4 序列模型

序列模型主要是在多個序列組成的數據集合中,設定一個最小支持度閾值,挖掘相對時間出現頻率較高,即子序列出現的頻率不低於給定的最小支持度閾值的模式。序列模式挖掘的對象以及結果都是有序排列的,即數據集中的每個序列在時間或空間上是有序的,輸出結果也是有序的。

2 數據挖掘技術在信息安全中的應用

信息安全的威脅無處不在,給出了信息網絡所遭遇的較大威脅。隨著雲計算和移動互聯讓IT產業發生巨變,這將不可避免地帶來信息安全產業的變革。以APT為代表的下一代安全威脅帶給業界前所未有的挑戰,基於社會工程學的攻擊方式也令人防不勝防,傳統的安全防護手段已經不足以抵抗這些新的威脅。

目前,網絡信息安全的監督與控製手段主要集中在多種工具的綜合利用上,通過多元化的收集工具對信息進行收集,並在此基礎上采用一定的計算機算法對數據進行綜合處理,之後將信息進行歸類,提取需要的信息。這一信息收集處理過程與數據挖掘技術結合,使得整個過程分為數據的采集、預處理、挖掘、結果四部分,程序變得相對簡單。但如果與互聯網相連接,則會衍生出多種技術的綜合使用,比如針對某一特定網站或者數據庫的搜索等。通過網絡數據挖掘技術和信息處理分析與歸類技術對互聯網所收集的信息與數據進行整理存儲,再以某種特定算法對數據進行分析,之後找出數據的基本特征和數據之間的某種關係,從而為相關方麵的決策提供建議。

2.1 數據挖掘在信息安全證據獲取中的應用

證據的獲取主要是對包括圖片、文本、視頻、音頻等在內的多種數據形式進行信息的收集。要獲取全麵可靠、劃分粒度適中、滿足應用的證據是信息安全證據評估的基礎。包含網絡信息安全的各種證據包含在各種應用協議報文的巨大網絡流量中。證據獲取要全麵、實時、真實可靠,盡量不影響網絡的正常流量。目前,可用於獲取證據的方法有以下幾種[3]:

(1) 利用網絡流量檢測與分析工具,如Bandwidthd,它可以獲得每個網關的各種協議的詳細IP流量,查看網絡狀態,如數據包的傳輸和接收速率等。

(2) 利用目前已有的入侵檢測係統,如RealSecur,可以獲得訪問次數、操作時延,用戶入侵概率等。還有著名的KDD'99網絡入侵檢測數據等。

(3) 利用審計跟蹤係統產生的係統事件記錄和用戶行為記錄,包括係統日誌、審計記錄、應用程序日誌、網絡管理日誌截獲的用戶數據包及相應的操作記錄等。

(4) 專門的數據采集工具,如Cisco的NetFlow Monitor,NetScout公司的NetScout網絡性能管理產品,可獲得不同用戶對帶寬的占用等。

(5) 根據協議標準(如RMON、SNMP等)自己開發軟件獲取信息安全證據。

根據獲取證據的行為方式,證據可分為主動獲取和被動獲取證據。主動獲取如IP分組的平均傳輸延遲,可用ping命令主動探測;而被動獲取證據是根據用戶的實際行為所產生的影響獲得證據,如用戶占用的存儲資源。