
大數據的數據安全問題
過去幾十年里,大多數IT部門大都經歷著類似的發展歷程:最初使用的都是一個高度集中的整裝計算機系統(比如,大型主機),但隨后就像宇宙大爆炸一樣,計算機資源爆炸式的四散開去,被前所未見的分散和去集中化了。在市場如此活躍的情況下,這種分散是很有意義的。計算機平臺升級很快,單個的大型主機需要有高昂的維護費用來作支持,這還不如追加投資給低耗能的設備了,所以說大型主機是在不斷貶值的,其效率也就相應降低了(比如,以每年每美元可實現的MIPS為標準進行考量)。
因此,計算機處理逐步去集中化是很自然的過程。事實上,近些年發明的很多技術都在推動這個趨勢的發展。
因為分散程度越來越高,從邏輯上講,存儲接下來也將(總體而言)變得越來越分散。而事實上,存儲要在集中和分散之間進行權衡。存儲所扮演的角色比較特殊,數據被存儲時需要足夠的集中,這樣便于管理;但同時卻又需要足夠的分散,以方便客戶的有效利用。這就是目前所面臨的問題。但這一局面正在發生改變——這種改變將從安全的角度影響我們管理IT的總體模式,那就是“大數據”。
什么是“大數據”
新興的“大數據”—是虛擬技術、云計算和數據中心三者使用率增加后的邏輯衍生物。這幾項技術均有著高成本與高效率的特點。并且它們都能在計算資源的標準化、整合和集中化上發揮杠桿作用,從而實現規模經濟,也幫助成本效益的實現。但當企業采用了諸如集中存儲之類的技術之后,隨即就發現這產生了大量的數據,在某些情況下,甚至達到了EB級別。EB到底是怎樣的一個級別呢?自有史記載以來,人類所產生的信息量總計約為5EB。
有識之士(比如社交網絡里面的一些善于觀察的工程師和科學家)已經發現:如果大量數據集中在一地,那么將有機會利用這些數據來達到提高收益的目的。這似乎是大數據能帶來的意外收獲。所以,隨著數據量滾雪球般增加的同時,也浮現了利用這些數據增值的機會。這對企業來說具有革命性的意義,它讓我們更多地了解自己的客戶,了解他們如何享用我們的服務,以及我們的業務總體運行情況。
當然,對于我們這些注重安全性的人而言,毫無疑問,它已經改變了整個格局。從安全的角度考慮,這種轉變的影響有正面的也有負面的。比如,一方面,將所有的數據都存儲在同一個地方,這使得保護數據會變得更加簡單;而另一方面,也方便了黑客,他們的目標變得更有誘惑力。如果想從安全的角度來探究大數據所有利弊可能會花費大量的時間,但是隨著這種轉變的深入,數據安全的準則將發生改變。
為什么呢?因為數據量是非線性增長的。絕大多數企業都沒有專門的工具或流程來應對這種非線性增長。也就是說,隨著數據量的不斷增長,我們看到,傳統工具尤其是安全工具正在淡出舞臺(其實早已經開始了),因為它們已經不再像以前那么有用了。
所以,對于想搶在這種改變出現之前就預先制定計劃(換個說法就是,“避免一開始就被牽著鼻子走”)的企業而言,他們必須考慮清楚,怎樣才能避免被動地應對這種改變。如果你考慮使用天然氣的話,你肯定不會先儲備一堆煤球,不是嗎?所以,重視這個行業的走向是很有必要的。
使用的工具和應對流程非常重要
可能有些人會馬上質疑:這有什么要緊?或“我才不在乎數據量大小,安全工具怎么可能會受到影響?”靜下心來想一想,你的系統正在用什么工具確保其安全?然后再深入地想一下,這些工具中,有多少可支持對有限數據的搜索或轉換?
請進一步考慮一下,要在一個大型的網絡附加存儲或SAN中掃描一個惡意軟件是多么困難的事情。如果這數據庫增大1千倍,又會花費多少時間? 10萬倍呢?如果以幾何速度增長呢? 到時還能像現在這樣每天都能全掃描一次嗎?
如果在對數據進行挖掘時需要進行數據泄漏防護(DLP)或法規遵從又會怎樣呢?比如說PCI 審計員需要對存儲在持卡人信息庫中的數據進行信用卡號搜索時,(CDE數據量達到EB級別的情況不在此例)會出現什么情況?搜索本身就難度夠大了,更別說對掃描后GB級別誤報的手動確認了。這兩種操作已經變得不太現實,如果我們還沿用以前的方法的話。
很多技術方案中,數據的大小會影響到安全控制或配套操作能否正確運行。想象一下,例如,為了確保存儲數據和基于文件的數據完整性和可控性,需要對它們進行日志分析、文件監督和加密/解密操作。這些都屬于數據的處理功能。想讓這些操作繼續可行,對它們進行升級是很有必要的。所以,為了在大數據世界里讓掃描一如既往地容易,一些有識之士已經開始設計新工具了(例如,數據庫),所以,我們使用的安全工具也必須革新,這樣才能應對新的挑戰。
當然,改變不可能一蹴而就,但對于安全方面的專業人士而言,是時候考慮這個問題了,如果他們考慮購買新工具的時候腦子里能有這個想法就再好不過了。數據已經開始呈幾何趨勢增長,所以研發出一個新的基于線性數據掃描的工具應該不是最佳的解決方法,至少已經給供應商帶來了一些棘手的問題。相反,它可能會加速像文件加密等操作的使用,基于線性數據掃描的技術出現后,這些技術使用率就都在逐步攀升。想一次性為EB級別的數據加密可能不是那么容易的事情,但是,如果該操作是在數據大規模增長前適時進行的呢,這種情況下會怎樣? 這樣的話,就可能是另一碼事了。
幸好我們還有時間去應對。在問題變得更加棘手之前還有時間調整我們的操作和控制程序。但想一想虛擬化進程的速度是何等之快,這個問題可能會比我們預計地更早地出現。所以,花些時間想這個問題是有意義的。
作者:Ed Moyle,Savvis公司高級安全策劃師,Security Curve公司合伙創始人,為客戶提供戰略,咨詢和解決方案。其在計算機領域的嵌入式開發測試、信息安全審計和安全解決方案開發等方面有著豐富的經驗。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25