
大數據的小時代,沒有IOE也能玩轉智慧城市
如今一談到大數據,人們就會聯想到數百TB以上且規模不斷增長的Hadoop集群系統,人們為過去兩年我們制造了超過人類歷史總和的數據量而感到顫抖,但實際上大數據可以很小,甚至在智能手機和筆記本上就能進行分析處理,而聰明的機器學習算法能將大型強子對撞機數據分析工作量減少上萬倍;后大數據時代,人們將更加關心如何讓大數據“大事化小”。
但在粒度更小,數據規模卻更大的智能傳感器時代,在一場官方色彩越來越濃的“去IOE運動”中,如何利用本土低成本技術資源,在Hadoop之外尋找一條新的開源大數據處理技術方案?如何在大力開展“智慧城市”等物聯網大數據項目的同時防止對個人隱私的侵犯?
在計算機科學中, 一個簡單的真理可以預言一部分未來: “正在CERN(歐洲粒子物理研究所)上演的將很快發生在世界上每個地方?!?我們還可以再加上第二個預言: “一切正在聚集的將最終以分散結尾?!?這與大數據應用有何關系?
許多所謂的 “大數據” 問題其實并不是那么大。一個中央銀行五年的交易數據量大概有100GB 大小。所以,中央銀行一年的交易數據是完全能夠被存儲在一部智能手機中的。 一所保險公司關于一個國家的所有交易數據量不會超過4TB。 一個硬盤就可以儲存這些保險數據。
那些由企業巨額投資的被標記為時尚 “大數據”用來解決數據分析問題的基礎結構,實際上完全可以通過一臺筆記本 —— 甚至是一部智能手機 —— 和開源軟件來替代。研究者們和全球金融機構都用像 Scikit-Learn[1], Pandas[2]或NLTK[3] 這樣的開源軟件來處理交易數據和客戶關系數據。如MariaDB[4]這樣傳統的數據庫現如今能夠處理差不多每秒1百萬的錄入。MariaDB 10.0[5] 甚至還有來自淘寶的開發人員開發的一些可以被延伸的復制技術。
我建議在進行昂貴的投資前:先購買一個小型的含至少32 GB記憶卡的GNU/Linux 服務器, 一個大容量的SSD 盤(例如 1 TB)并學習 Scikit-Learn 機器學習工具包102[30] (基于Andrew Ng吳恩達,最近加入百度的機器學習之父[31]的課程)。在大多數情況下,這些已經足夠解決您的問題。 如果還不夠,您還可以設計一個稍后能夠延伸成一個大型基礎架構的模型。Scikit-Learn 被許多谷歌工程師用作 “大數據” 問題建模解決方案的工具包。
極端的挑戰由核物理及小微粒研究提出來,不斷引導了新信息技術的創造。 HTML 是由在歐洲核子研究組織 – 也被稱為CERN 的Tim Berners Lee于1991 為解決大規模文檔管理的問題而創造。CERN的大型強子對撞機 (the Large Hadron Collider,簡稱LHC)被設計用作處理每秒1 PB 的數據。它在2013年提供了第一個證明 希格斯玻色子 [6]存在的證據, 這是一個在過去的50年里都沒有被解決的問題。
讓我們來理解一下每秒1 PB 的數據意味著什么。 1 PB和1,000 TB, 1,000,000 GB 或者是13.3年的HD視頻容量一樣大。 能夠每秒處理1 PB的數據相當于能夠處理419,428,800個(13.3*365*24*3600)HD攝像設備生成的數據。這比中國的閉錄電視攝像機[7]多15倍, 比英國的多100倍[8].
總的說來,在CERN里為小粒子創造的技術可以被應用到實時收集和處理地球上每個人制造的以聲音,視頻,健康監測,智能材料日志等形式存在的數據。
大數據結構成功的關鍵概念是它可以迅速丟棄收集的大部分數據并最終只 儲存其中的一小部分[9]。 這是通過將大多數數據處理轉移到所謂的 “人工智能”的智能傳感器上來實現,在現實的高級統計學中也被叫做機器學習。
大型強子對撞機的傳感器之一 ,叫做 緊湊μ子線圈 (CMS)[10] – 每秒中能夠收集3太字節代表小型粒子碰撞的圖像數據。然后它會自動丟棄被認為是無關的圖像并”只” 發送每秒100 Mb到LHC存儲結構中,這比它收集的原始數據要少30,000倍。傳感器本身使用了FPGA, 一種能夠比一般處理器更快處理數據的可編程硬件, 來實施叫做 “clustering”[11]的機器學習運算法則。
如果我們希望將大型強子對撞機的想法應用到閉錄電視監控, 我們可以在每個攝像機中存儲幾個小時的視頻并使用一個FPGA 或者一個GPU直接在攝影機中實時處理視頻數據。我們可以使用可改編程序的人工智能來偵查人群的數量,性別,尺寸, 行為(和平的, 暴力的, 偷偷摸摸的,迷路的,工作的等等),一個物品的存在(例如:一個手提箱)或一個物品的缺少(例如: 一個路燈)。 只有這些元數據才可以通過網絡被發送到一個中央處理設備。 如果有需要的話,這個設備可以決定下載相關的圖片或著視頻片段。 以防出現一個地區的閉錄電視被犯罪人員破壞而無法進行連接的情況,然后發送一個 consumer drone 遙控飛行器[12] 去檢查問題的源頭。
總的來說, LHC告訴我們如何通過少量的投資或者是廣泛的覆蓋面來快速建立一個有效的攝像監控系統。 這個系統能夠被 – 在世界上的任何地方- 部署到現存的窄頻帶通信網絡 – 包括GSM。它同樣也比集中存儲和處理所有信息的系統更加有彈性。并且它在電力中斷的時候也可以離線工作。
“With the tapping program code-named PRISM, the U.S. government has infringed on the privacy rights of people both at home and abroad” 由新華網在2014年2月28日發表,它解釋了美國人權的現狀[13]. 類似的項目在許多國家都實施了嚴格的隱私法律[27]. 65%的市場份額都貢獻給了監控和背后強大的經濟力量。如果不加以規范管理, 大數據是最容易侵犯隱私權的技術之一。
大數據的候選市場[14]
智能傳感器提供了一個可能的解決方案, 只要編碼能夠由獨立的負責隱私的權利機關審核。通過在傳感器中丟棄,加密并匿名化大多數的數據, 并在產出地加強執行隱私律法,濫用監控系統的風險可以通過缺少原始數據的傳輸和缺少集中的存儲來降低。傳感器訪問記錄可以作為開源數據發布出來以確保審核的完成。
升級閉錄電視到智能攝像機僅在中國就代表了每年2千億元人民幣的市場。 一個國有的升級項目可以作為在智能攝像機內建立”智慧城市” 核心功能的契機:公共網絡的訪問, 網頁加速,微云,移動存儲卸載, 地理定位, 多重訪問mesh網絡,無障礙收費系統等等。 這些只是許多可以進行開發應用的一小部分,并且日后還可以在全球范圍內推廣,因為 中國是最大的閉錄電視系統的生產方并且已經和許多外國國防工業有緊密的合作關系[15]。
到2020年,監控系統將不再是大數據的首要市場了。 根據Gartner分析,260億個對象將會被連接到互聯網[16], 超出全球范圍的閉錄電視攝像機數量的100倍。連接的對象包含工廠,車,電子消費品,工業傳感器,風力發電機,交通燈等使用的工業用傳感器。
通過故障預測進行預防性維護 —— 一個機器學習和大數據的直接應用,以及其它的智慧功能都將會被內嵌入對象中。低價系統芯片(SOC)里的GPU 將被用于實施低成本高速度的機器學習[17]。
中國工業已經具有了一個連接物聯網及大數據的優勢。 最近ARM, 展訊(Spreadtrum), 全志科技(Allwinner), 瑞芯微電子(Rockchip),華為以及其他公司的結盟[18]強調了中國設計的以ARM為基礎解決方案逐漸增長的重要性。我們可以想象, 在幾年的時間內,一個有GPU, 網絡及Linux操作系統的系統芯片價值將不超過1美元。用這個價錢,它將可以成為用來為智能設備實施機器學習運算法則的標準組件。更高端一點來說, 一個大數據集群可以被設計成一個多核ARM 系統的系統芯片(SOC)以及固態硬盤(SSD)。首次,所有的組件都可以來自中國并且用比因特爾更低的成本提供相同質量的性能。
中國移動計算聯盟(MCA) 于2014年4月在深圳正式成立(Credit. Bob Peng, ARM) [18]
現在所缺乏的是通過使用高效的分布式運算法則來處理數據的軟件??紤]到最近在中國討論的”No ICE Policy [21]” 以及HADOOP對Java強烈的依賴性(一個現在被Oracle控制的產品)。這正是考慮為大數據使用另一種軟件解決方案的最佳時機。近期,許多社區都開始在 Python的Numpy 開源技術上整合他們的數據處理能力[20, 21] 另外一些則是在創建新的語言例如Julia [22]。需要解決的大挑戰之一是 “out-of-core” 數據處理,即超越可用存儲器的極限來處理數據。像Wendelin [23] 和Blaze [24] 這樣的項目已經都在進行中用來提供開源的解決方案。
總的來說,我們的猜測是”No ICE”的解決方法將會在中國的這些大數據項目中里被創造出來 – 例如 貴州[25]或著新疆 [26] – 由數以億計的人民幣預算作為強大的后盾,向純粹的科技創新敞開大門, 使其能夠處理由智能傳感器產生的艾字節或是zetabytes數據。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25