
基于大數據分析的安全管理平臺技術研究及應用
本文首先通過介紹大數據的起因,給出了大數據的定義和特征描述,并簡要說明了當前大數據的研究概況。接下來,本文闡釋了大數據分析技術,對大數據在信息安全領域尤其是安全管理平臺領域的應用做了深入分析,并給出了基于大數據安全分析技術的安全管理平臺的基本特征。最后,針對一個基于大數據安全分析技術的新一代安全管理平臺從5V角度進行了深入介紹,并強調了安全分析師的關鍵作用。
無所不在的大數據
毫無疑問,我們已經進入了大數據(Big Data)時代。人類的生產生活每天都在產生大量的數據,并且產生的速度越來越快。根據IDC和EMC的聯合調查,到2020年全球數據總量將達到40ZB。
什么是大數據?大數據早就存在,只是一直沒有足夠的基礎實施和技術來對這些數據進行有價值的挖據。隨著存儲成本的不斷下降、以及分析技術的不斷進步,尤其是云計算的出現,不少公司已經發現了大數據的巨大價值:它們能揭示其他手段所看不到的新變化趨勢,包括需求、供給和顧客習慣等等。比如,銀行可以以此對自己的客戶有更深入的了解,提供更有個性的定制化服務;銀行和保險公司可以發現詐騙和騙保;零售企業更精確探知顧客需求變化,為不同的細分客戶群體提供更有針對性的選擇;制藥企業可以以此為依據開發新藥,詳細追蹤藥物療效,并監測潛在的副作用;安全公司則可以識別更具隱蔽性的攻擊、入侵和違規。
圖:硬盤每GB的成本變化(1980-2009年)【來源:http://www.mkomo.com/cost-per-gigabyte】
《華爾街日報》將大數據時代、智能化生產和無線網絡革命稱為引領未來繁榮的三大技術變革。麥肯錫公司的報告指出數據是一種生產資料,大數據是下一個創新、競爭、生產力提高的前沿。世界經濟論壇的報告認定大數據為新財富,價值堪比石油。
不論從技術、還是商業角度,大數據都成為當下絕對的熱點。2013年,Gartner將大數據列為未來信息架構發展的10大趨勢之首。Gartner預測將在2011年到2016年間累計創造2320億美元的產值。
大數據的定義
如何定義大數據?《大數據的沖擊》一書將大數據通俗定義為“用現有的一般技術難以管理的大量數據的集合”,并廣義地定義為“一個綜合性概念,它包括因具備3V(海量/高速/多樣,Volume / Variety/Velocity)特征而難以進行管理的數據,對這些數據進行存儲、處理、分析的技術,以及能夠通過分析這些數據獲得實用意義和觀點的人才和組織?!?/span>
Gartner將大數據定義為“海量、高速、多變的信息資產,需要對它進行經濟的、創新性的信息處理從而獲得超越以往的洞察力、決策支持能力和處理的自動化”(high volume, velocity and/or variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation)。
大數據的基本特征
大數據的三個公認的基本特點是3V,即海量、高速和多變。海量是指數據容量越來越大;高速表示需要處理的速度和響應的時間越來越快,對系統的延時要求相當高;多變就要處理各種各樣類型的數據,包括結構化的、半結構化的、甚至是非結構化的數據。
IBM在上述三個特點基礎之上增加了一個V(Veracity),即“真實性”、“準確性”。IBM認為只有真實而準確的數據才能讓對數據的管控和治理真正有意義。
此外,業界還有人總結出其它的大數據特點,例如低價值密度(Value)、存活性(Viability),等等。低價值密度是指大數據中真正有意義的信息含量比重低;存活性是指特定情況下的大數據具有很強的時效性。
大數據的研究概況
在IT領域,大數據也是最熱門的技術領域之一。Gartner在2012年繪制的Hype Cycle曲線展示出了當前大數據技術欣欣向榮的一番景象。
Gartner將大數據相關技術分為三個門類,分別是大數據支撐技術、大數據應用技術和針對新型數據進行分析的技術。
我國工程院院士鄔賀銓將大數據技術從所面臨的挑戰的角度分為四個方面,分別是數據收集、數據存儲、數據處理和數據可視化。
微軟張亞勤將大數據劃分為三個層次,分別是數據的管理、數據的擴充和數據的呈現。
IBM的Stephen Watt給出了一個大數據生態系統的模型,將大數據技術劃分為7個部分,包括數據產生、數據存儲、數據處理、數據分享、數據檢索、數據分析、數據可視化,如下圖:
大數據需要數據分析師
以上所有針對大數據的定義和特點的闡述,都缺少一個重要的大數據組成要素——數據分析師(或者稱為數據科學家,Data Scientist)。在當前技術條件下,大數據分析的結果要想獲得最大程度的價值發揮需要借助專業的數據分析人員。
Natahn Yau首先提出“數據科學家就是能夠從大型數據集中析取出數據,并提供某些可供非數據專家使用的東西的人”?!陡2妓埂冯s志認為“數據科學家就是采用科學方法、運用數據挖掘工具尋找新的數據洞察的工程師”?!豆鹕虡I評論》將數據科學家列為二十一世紀最性感的職業。
這表明,大數據技術要發揮作用仍然需要人的參與,并且是專業的數據分析師的參與。
大數據安全分析
大數據分析的定義
大數據技術的核心就是大數據分析(Big Data Analysis)。一般地,人們將大數據分析定義為一組能夠高效存儲和處理海量數據、并有效達成多種分析目標的工具及技術的集合。
Gartner將大數據分析定義為追求顯露模式檢測和發散模式檢測,以及強化對過去未連接資產的使用的實踐和方法(the practices and technology used to pursue emerging and divergent pattern detection as well as enhance the use of previously disconnected information assets),意即一套針對大數據進行知識發現的方法。
通俗地講,大數據分析技術就是大數據的收集、存儲、分析和可視化的技術,是一套能夠解決大數據的4V(海量、高速、多變、低密度)問題,分析出高價值的信息的工具集合。
大數據分析的基本技術支撐
從技術支撐架構的角度來看,大數據分析是一個軟件技術框架(Framework),主要包括以下能力:
1) 能夠處理特別巨大的數據集(Volume)
2) 提供極快的數據插入操作(Velocity)
3) 能夠操作多種數據類型(Variety)
4) 要支持實時數據分析和歷史數據分析
5) 提供多種數據分析方法/模型
6) 使用分布式并行處理機制(Volume & Velocity)
其中,大數據分析基本的特征就是這個軟件技術框架應該具有一個分布式開發框架。這個分布式開發框架可以是開源的Hadoop,或者其它具有相似分布式并行計算能力的框架,能夠實現Map/Reduce計算,能夠實現分布式計算節點的統一調度和彈性部署?;谶@個分布式開發框架,實現海量數據的分布式采集、分布式存儲、分布式分析計算。
大數據分析的另一個技術支撐是海量數據的存儲技術。面對海量的數據,傳統的關系型數據庫已然無法滿足需要,需要進行改進或者革新。大數據分析系統的軟件技術框架必然會使用某種分布式數據庫技術或者NoSQL(非關系型數據庫)技術。
此外,一個實用的大數據分析系統一般都要同時具備實時數據分析與歷史數據分析能力。要獲得歷史數據分析能力,通常就是借助分布式開發框架的Map/Reduce批處理計算來實現。當然,有的大數據歷史分析系統還具備交互式計算能力(例如Google Dremel),實現快速查詢。而要獲得實時數據分析能力,分布式開發框架及其Map/Reduce計算模型就顯得力不從心了。這時候需要一個實時的流數據處理引擎,通常是采用CEP(Complex Event Processing,復雜事件處理)或者ESP(Event Stream Processing,事件流處理)技術的流數據處理引擎。
綜上所述,從開發者的角度來看,大數據分析的底層技術支撐包括三個:
1) 分布式計算框架(例如Hadoop,或者其他具有Map/Reduce機制的計算框架)
2) 分布式存儲機制(例如分布式數據庫、HDFS、NoSQL)
3) 流式計算框架(例如CEP、ESP)
從大數據分析到大數據安全分析
當前網絡與信息安全領域,正在面臨多種挑戰。一方面,企業和組織安全體系架構日趨復雜,各種類型的安全數據越來越多,傳統的分析能力明顯力不從心;另一方面,新型威脅的興起,內控與合規的深入,傳統的分析方法存在諸多缺陷,越來越需要分析更多的安全信息、并且要更加快速的做出判定和響應。信息安全也面臨大數據帶來的挑戰。
安全數據的大數據化主要體現在以下三個方面:
1) 數據量越來越大:網絡已經從千兆邁向了萬兆,網絡安全設備要分析的數據包數據量急劇上升。同時,隨著NGFW的出現,安全網關要進行應用層協議的分析,分析的數據量更是大增。與此同時,隨著安全防御的縱深化,安全監測的內容不斷細化,除了傳統的攻擊監測,還出現了合規監測、應用監測、用戶行為監測、性能檢測、事務監測,等等,這些都意味著要監測和分析比以往更多的數據。此外,隨著APT等新型威脅的興起,全包捕獲技術逐步應用,海量數據處理問題也日益凸顯。
2) 速度越來越快:對于網絡設備而言,包處理和轉發的速度需要更快;對于安管平臺、事件分析平臺而言,數據源的事件發送速率(EPS,Event per Second,事件數每秒)越來越快。
3) 種類越來越多:除了數據包、日志、資產數據,還加入了漏洞信息、配置信息、身份與訪問信息、用戶行為信息、應用信息、業務信息、外部情報信息等。
于是,業界出現了將大數據分析技術應用于信息安全的技術——大數據安全分析 (Big Data Security Analysis,簡稱BDSA),也有人稱做大安全數據分析(Big Security Data Analysis)。兩者盡管表述有差異,但內涵一致。前者強調基于大數據技術的安全分析,分析安全問題;后者強調大數據分析的對象是安全數據。
在網絡安全領域,大數據安全分析將包括以下幾個應用領域:
1) 安全事件管理和安全管理平臺:這將是大數據安全分析的核心應用,也被稱作安全分析平臺(Security Analytics Platform),后文將詳述。
2) APT檢測,包括全包捕獲技術
3) 0day惡意代碼分析,包括沙箱技術
4) 網絡取證分析
5) 網絡異常流量檢測
6) 大規模用戶行為分析
7) 安全情報分析
8) 信譽服務
9) 代碼安全分析
2012年3月,Gartner發表了一份題為《Information Security Is Becoming a Big Data Analytics Problem》的報告,表示信息安全問題正在變成一個大數據分析問題,大規模的安全數據需要被有效地關聯、分析和挖掘,并預測未來將出現安全分析平臺,以及部分企業在未來五年將出現一個新的崗位——“安全分析師”或“安全數據分析師”。
對于大數據安全分析而言,最關鍵的不在于大數據本身,而在于對這些數據的分析方法。大數據安全分析可以用到大數據分析的所有普適性的方法和技術,但當應用到網絡安全領域的時候,還必須考慮到安全數據自身的特點和安全分析的目標,這樣大數據安全分析的應用才更有價值。例如,在進行異常行為分析,或者惡意代碼分析和APT攻擊分析的時候,分析模型才是最重要的。其次,才是考慮如何利用大數據分析技術(例如并行計算、實時計算、分布式計算)來實現這個分析模型。
基于大數據分析技術的安全管理平臺
安全管理平臺呼喚大數據分析
在所有網絡安全領域中,大數據分析對安全管理平臺(SOC平臺)及安全信息與事件分析(SIEM)系統的影響最為深遠。這也是與它們先天的大數據分析特質密切相關的。
安全管理平臺,有的也稱作SOC(Security Operations Center,安全運營中心)平臺,一般是指以資產為核心,以安全事件管理為關鍵流程,采用安全域劃分的思想,建立一套實時的資產風險模型,協助管理員進行事件分析、風險分析、預警管理和應急響應處理的集中安全管理系統。
安全管理平臺的核心之一便是安全信息與事件管理,也稱作SIEM(Security Information and Event Management)系統。通常,SIEM為來自企業和組織中所有IT資源(包括網絡、系統和應用)產生的安全信息(包括日志、告警等)進行統一的實時監控、歷史分析,對來自外部的入侵和內部的違規、誤操作行為進行監控、審計分析、調查取證、出具各種報表報告,實現IT資源合規性管理的目標,同時提升企業和組織的安全運營、威脅管理和應急響應能力。
下圖顯示了一個典型的SIEM系統的結構圖:
由圖可知,一般的SIEM系統都具有安全事件(日志)的采集、范化、存儲、分析、展示等幾個過程,而這與大數據分析的收集、存儲、分析和可視化過程是完全相同的。因此,SIEM天然具有應用大數據分析技術的特質。
安全管理平臺是在SIEM系統的基礎上,對采集的數據進行了大規模的擴充,并增加了分析模型,實現了基于風險的資產和業務的集中安全管理。
安全管理平臺的核心是多樣化的安全要素信息采集與存儲、多種安全分析與展示。而這與大數據分析的特征也是完全吻合的。
當前,安全管理平臺的一個重要發展趨勢就是采集的安全數據種類越來越多,不僅包括傳統的資產信息、事件信息,還納入了漏洞信息、性能信息、流量信息、配置信息、業務信息等等。與此同時,安全數據的產生速率和總量也急速增長。大型企業越來越傾向于采用集中化的安全管理平臺構建模式,單一管理平臺就要管理全網的安全信息,安全事件產生的速率達到上萬EPS,甚至是上10萬EPS,每天存儲的事件量則達到上百GB,甚至是上TB。另一方面,用戶需要安全管理平臺提供更加精準的安全分析研判和問題定位,更加快速的安全應急響應與處置,對安全分析的準確性和分析結論價值度的要求越來越高。這一切都促使安全管理平臺的技術開發者求助于大數據分析技術。
大數據安全分析首選安全管理平臺
SANS在2013年9月份發布的《安全分析調查》報告顯示,客戶進行大數據安全分析的時候,首選的是日志管理、SIEM等安全管理平臺類系統。并且,超過60%的受訪客戶表示未來實現安全分析目標的首要投資對象是SIEM。
由此可見,目前來說,在所有大數據安全分析的應用領域中,SIEM及其安全管理平臺是最重要的。
應該說,大數據分析技術并不能保證安全管理平臺能夠應對上述挑戰,但卻給安全管理平臺應對這些挑戰提供了全新的技術思路和發展模式。當安全管理平臺遇上大數據分析,讓用戶和開發者看到了安全管理平臺未來技術發展的一個全新方向。
基于大數據安全分析技術的安全管理平臺基本特征
基于大數據安全分析技術的安全管理平臺具有以下顯著特征:
1) Velocity:高速日志采集能力、高速事件分析能力;
2) Variety:支持多種日志源和日志類型,并支持對半結構化(例如原始數據報文、郵件、WEB請求與響應)和非結構化信息(例如可疑代碼)的采集,具備異構數據間的關聯分析(即情境關聯)能力;
3) Volume:海量的事件存儲能力、海量數據分析能力;
4) valuablity:分析研判的結果是真正有價值的信息、值得去關注的信息,是可以用于輔助決策的信息。這就意味著需要有效的數據分析方法和工具;
5) Visualization:安全分析結果的可視化呈現能力。
必須至少同時滿足上述5V,才能將一個安全管理平臺稱為基于大數據安全分析技術的安全管理平臺。
基于大數據分析的新一代安全管理平臺介紹【略】
小結
大數據時代已經到來,我們創造的大數據正在改變人類生產生活的各個方面。信息與網絡安全作為保障IT數字資產的關鍵能力也正在被大數據所重新塑造。安全管理平臺,作為安全保障體系中位于頂層的技術支撐平臺,天然具有與大數據結合的特質?;诖髷祿踩治黾夹g的安全管理平臺正在成為未來安全管理平臺發展的重要技術方向。
同時,我們必須看到,不論安全管理平臺的技術如何發展,如何與大數據結合,安全管理平臺所要解決的客戶根本性問題,以及與客戶業務融合的趨勢依然未變。對大數據的應用依然要服務于解決客戶的實際安全管理問題這個根本目標。
目前來看,大數據分析技術有助于我們更好地去解決安全管理過程中的部分問題,但并不能解決所有的問題,同時還可能引入了新的問題。這是安全管理平臺的開發者、服務提供者和客戶都需要不斷摸索的。
此外,不論安全管理平臺技術如何發展,大數據分析給我們帶來了多大程度的信息價值度提升,安全分析師始終是不可或缺的。正如大數據需要數據分析師,大數據安全更需要安全分析師。安全,本質上是人與人之間的對抗,不論安全分析的自動化技術如何演進,相互之間進行對抗的,始終是坐在屏幕前的人。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25