
用好大數據,得小心繞過這些坑
在這個大數據被頻繁提起的時代,要想去說說大數據的缺陷或是不好的地方,還是需要有一點底氣的。好在我們并不是在否定它的作用與價值,而是想提醒每一個想利用好大數據、經營好大數據的單位與個人,必須小心在已有的實踐中早已探明的一些大坑與陷阱,避開這些缺陷所引起的不必要失誤。
1,千萬注意樣本的局限性或特殊性
某報紙記者為了采訪當下關于DNA親子鑒定的情況,前往某檢測機構調查,在統計了相關數據之后,得到一個驚人的事實,所有的檢測中,竟有近35%的結果是非親子。這名記者還不放心,又多跑了更大范圍的好幾家檢測機構,發現這個數據總體都相差不大,于是發布了新聞《驚人真相:超1/3的男人被戴綠帽》。其實不看數據,就算掰腳趾頭也知道這新聞胡說八道了,但數據又是怎么一回事呢?問題就在于這采集樣本太特殊了。這記者沒去想想,什么樣的人才會帶孩子去做親子鑒定?當然是有了其它顯著性的證據或懷疑以后才去的嘛!
2,有些干擾性會隨著數據量的增長超越正常
大數據的理論往往會主張,隨著數據量的增長,分析結果會越來越準確。但是事實上,客觀世界里的數據無限復雜,許多非常一般性的數據都有著不等的干擾性,一旦把它們都混合在一起,往往會過份地擴大這些干擾性,產生出許多帶有欺騙性的結論。比如美國經濟的預測,美國政府每年公布的經濟指標數據有4.5萬個,而私人機構提供的高達400萬個,如此龐雜的數據,代入到二戰后的11次經濟衰退事實中去,得出的結果卻是五花八門,對于預測下一次經濟衰退毫無幫助。
3,數據自身的發展與變化同樣會影響應用結果
最經典的大數據應用之一,就是谷歌利用搜索引擎預測流感趨勢。谷歌沒有用任何復雜的模型,也不依賴任何醫療檢查,因為他們發現當人們出現或懷疑有流感癥狀時,就會上網搜索一些相關的內容。谷歌的工程師們只需動用算法對網上5000萬個最熱門的搜索字進行計算即可。谷歌流感趨勢的成功,很快就成為了商業、技術和科學領域中最新趨勢的象征。
然而僅僅4年后,人們突然發現在最近的一次流感爆發中,谷歌流感趨勢不起作用了。在它作出了一次嚴重的流感爆發預警之后,事實發現并沒有這么嚴重。對此,,預測結果比實際情況要夸大了幾乎一倍。事后分析的原因有兩點: 第一是這一年的媒體上充斥著各種關于流感的駭人故事,導致大量健康的人也會上網上搜索相關的詞匯;還有就是谷歌更新了自己的搜索算法,在人們輸入與病癥相關的詞匯時會自動推薦一些診斷結果,進而影響到了用戶的搜索和瀏覽行為。
4,數據行為的表身有時并不代表用戶的意愿
許多用戶都對于“今日頭條”這樣的個性化新聞應用頗多抱怨,認為他們所宣稱的基于大數據技術“精確推送”的新聞并不精準。其實我們回到日常應用中就會發現,事實上每個人點擊每個標題的動因非常復雜,點擊的意愿并不代表對于它的興趣,更何況,網絡上充斥著大量的標題黨誘騙我們的點擊,以及很多時候,我們明明知道它是標題黨,但只是為了點進去看看它到底能玩出什么樣的花樣而已。如果這些因素都不能得到修正,那么這些點擊行為統統被計算成使用偏好,得出來的結果則會大相徑庭。因此,今日頭條才會別行提供了“不感興趣”的反向過濾功能,來修正這種誤差。
5,為大數據而生的統計工具會成為污染的重點
因為大數據的應用存在于現實的商業環境之中,這些數據的得出,關聯著眾多的商業利益與個人利益。因此,許多相應就對以及試圖影響的黑科技也會就此誕生。目前對于學生以及學者論文的查重工具非常流行,它們就是依賴于論文庫的大數據對于檢測論文的句詞分析,來判斷最終的重復可能與抄襲程度。一旦有人搞清這個程序與語法判斷的邏輯,他們就可以相應地以另一種程序來避開檢查,從而達到安全抄襲的目的。
同樣,各種SEO技術,就是針對谷歌、百度等大搜索引擎的大數據分析排序算法,通過相應的技術應對,去影響到搜索引擎的最終計算結果,將一些并不重要的搜索結果排在了最前面。再比如,前幾年,可以利用大數據技術,從互聯網浩瀚的數據海洋中客觀分析排出不同行業中真正有影響力的品牌與產品。而如今,隨著大數據概念的普及,各種商業機構出于自身利益原因而大量制造、優化與推廣的信息,遠遠超出了普通用戶反饋的信息,從這里所謂大數據統計出來的結果,往往就是被污染的事實。
6,不要期望大數據絕對準確,往往只需要提高一點準確度即可
這是大數據應用中的最后一個淺坑,它的表述至少能給我們安慰。因為人類對于數據應用、數據分析以及數據與最終事實真相之間的關聯研究,還未走到最后的關頭。所以,任何期望大數據能夠給我們絕對準確、絕對真實的結果的想法,都是不現實的。但也并非是完全否則,其實,我們只需要通過大數據,能夠給現有的工作、生活帶來點點準確度的提高即可。正如目前的天氣預報,雖然無法以100%地準確,但已經帶給人類社會以最大限度的幫助了。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25