熱線電話:13121318867

登錄
首頁精彩閱讀rosebt:小數據很美麗-CDA數據分析師
rosebt:小數據很美麗-CDA數據分析師
2014-11-17
收藏

rosebt:小數據很美麗-CDA數據分析師

市場營銷技術將“大數據”鼓吹的天花亂墜,反而忽略了這樣一個事實:更易操作的,更有價值的見解更有可能在小數據而不是大數據中被找到。有很多理由支持這一點,但主要的理由是大數據的“詛咒”?!按髷祿币馕吨托祿兄煌再|的龐大數據集,需要特別的數據科學方法來區分信號和噪音,并提取出有意義的信息,這需要特別的計算系統和計算能力。

Vincent Granville這樣定義大數據的詛咒。簡單來說,你會在大數據集中發現更多“統計上顯著”的關系?!敖y計上顯著”是一個統計檢驗,檢驗觀測值是否具有某個不僅僅是巧合的規律,這個規律可能有也可能沒有意義。數據集越大,越多的“統計上顯著”的關系將會無意義—這將大大提高人們把噪音誤解為信號的可能性?!靶盘枴币馕吨鶕茖W對數據有意義的解讀,并可能轉化成科學證據和知識?!霸胍簟币馕吨鴮祿o科學依據的解讀,不會被認作是科學證據。但噪音可能被操縱成為某種形式的知識(事實上是無稽之談)。

所以大數據在數據中會產生更多關聯和規律—然而也產生比信號更多的噪音。統計第二類錯誤(存偽)的數量大大增加。換句話說,更多非因果關系的相互關系導致了對真相的幻覺。

“相互關系”意味著一系列廣義的統計聯系?!疤摷俚南嗷リP系”意味著不是由于兩變量間的直接關系,而是其他變量對其影響而產生的關系?!耙蚬P系”意味著有科學證據支持的原因和結果之間的關系(比如一個事件(原因)和另一個事件(結果)的關系,第二個事件被認為是第一個事件的結果)?!跋嗷リP系并不能推斷出因果關系”是科學界和統計學界的一個術語,來強調兩變量之間有相互關系并不一定能推斷出一個導致了另一個。

但人們天生就擅長看到規律。這對人類在叢林里生存是必要的素質,但卻損害了我們很多形式的抽象思維—特別是誤將數據中的隨機性理解為有意義。換句話說,將噪音誤解為信號。

大數據使我們難以在大堆數據中發現有操作性的、有價值的見解。它的危險是,我們將越來越多的錯將數據中的隨機性當作信號,從而做出錯誤的決策。

我有一個策略來解決“大數據的詛咒”這一問題—在很多情形下(但不是所有),有意的將大數據集分解為若干小數據集。將大數據集分解為小數據集應該有技巧的進行,而不是隨意而為。分析和測試小數據集來區分信號和噪音并提取意義要比直接分析大數據容易得多。

時刻注意大數據的詛咒,避免錯將噪音當成信號。小數據實際上也很美麗。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢