
大數據與數據挖掘的相對絕對關系_數據分析師
泄密者愛德華·斯諾登(Edward Snowden)還在尋求容身之所的時候,美國國家安全局(NSA)全方位收集電話和電子郵件記錄之事經過他的披露,已經引發了不安和憤怒。奧巴馬當局聲稱,監聽數據帶來了安全,然而左翼和右翼都在譴責這種窺探行為是對隱私的侵犯。
數據不是信息,而是有待理解的原材料。但有一件事是確定無疑的:當NSA為了從其海量數據中“挖掘”出信息,耗資數十億改善新手段時,它正受益于陡然降落的計算機存儲和處理價格。
麻省理工學院的研究者約翰·古塔格(John Guttag)和柯林·斯塔爾茲(Collin Stultz)創建了一個計算機模型來分析之心臟病病患丟棄的心電圖數據。他們利用數據挖掘和機器學習在海量的數據中篩選,發現心電圖中出現三類異常者——一年內死于第二次心臟病發作的機率比未出現者高一至二倍。這種新方法能夠識別出更多的,無法通過現有的風險篩查被探查出的高危病人。
數據挖掘這一術語含義廣泛,指代一些通常由軟件實現的機制,目的是從巨量數據中提取出信息。數據挖掘往往又被稱作算法。
威斯康星探索學院主任大衛·克拉考爾(David Krakauer)說,數據量的增長——以及提取信息的能力的提高——也在影響著科學?!坝嬎銠C的處理能力和存儲空間在呈指數增長,成本卻在指數級下降。從這個意義上來講,很多科學研究如今也遵循摩爾定律?!?/span>
在 2005年,一塊1TB的硬盤價格大約為1,000美元,“但是現在一枚不到100美元的U盤就有那么大的容量?!毖芯恐悄苎莼目死紶栒f?,F下關于大數據和數據挖掘的討論“之所以發生是因為我們正處于驚天動地的變革當中,而且我們正以前所未有的方式感知它?!笨死瓌跔栒f。
隨著我們通過電話、信用卡、電子商務、互聯網和電子郵件留下更多的生活痕跡,大數據不斷增長的商業影響也在如下時刻表現出來:
◆你搜索一條飛往塔斯卡魯薩的航班,然后便看到網站上出現了塔斯卡魯薩的賓館打折信息
◆你觀賞的電影采用了以幾十萬G數據為基礎的計算機圖形圖像技術
◆你光顧的商店在對顧客行為進行數據挖掘的基礎上獲取最大化的利潤
◆用算法預測人們購票需求,航空公司以不可預知的方式調整價格
◆智能手機的應用識別到你的位置,因此你收到附近餐廳的服務信息
大數據在看著你嗎?
除了安全和商業,大數據和數據挖掘在科研領域也正在風起云涌。越來越多的設備帶著更加精密的傳感器,傳回愈發難以駕馭的數據流,于是人們需要日益強大的分析能力。在氣象學、石油勘探和天文學等領域,數據量的井噴式增長對更高層次的分析和洞察提供了支持,甚至提出了要求。
2005年6月至2007年12月海洋表面洋流示意圖。數據源:海面高度數據來自美國航空航天局
(NASA)的Topex/Poseidon衛星、Jason-1衛星,以及海形圖任務/Jason-2衛星測高儀;重力數據來自NASA/德國航空航天中心的重力恢復及氣候實驗任務;表面風壓數據來自NASA的 QuikScat任務;海平面溫度數據來自NASA/日本宇宙航空研究開發機構的先進微波掃描輻射計——地球觀測系統;海冰濃度和速度數據來自被動微波輻射計;溫度和咸度分布來自船載、系泊式測量儀器,以及國際Argo海洋觀測系統。
這幅2005年6月至2007年12月海洋表面洋流的示意圖集成了帶有數值模型的衛星數據。漩渦和窄洋流在海洋中傳送熱量和碳。海洋環流和氣候評估項目提供了所有深度的洋流,但這里僅僅使用了表層洋流。這些示意圖用來測量海洋在全球碳循環中的作用,并監測地球系統的不同部分內部及之間的熱量、水和化學交換。
在醫學領域,2003年算是大數據涌現過程中的一個里程碑。那一年第一例人類基因組完成了測序。那次突破性的進展之后,數以千計人類、靈長類、老鼠和細菌的基因組擴充著人們所掌握的數據。每個基因組上有幾十億個“字母”,計算時出現紕漏的危險,催生了生物信息學。這一學科借助軟件、硬件以及復雜算法之力,支撐著新的科學類型。
精神障礙通常是具體病例具體分析,但是一項對150萬名病人病例的研究表明,相當多的病人患有超過同一種疾病。芝加哥大學的西爾維奧·康特中心利用數據挖掘理解神經精神障礙的成因以及之間的關系?!昂脦讉€(研究)團隊都在致力于這個問題的解決?!敝行闹魅伟驳铝摇げ袼够ˋndrey Rzhetsky)說,“我們正試圖把它們全部納入模型,統一分析那些數據類型……尋找可能的環境因素?!?/span>
另一例生物信息學的應用來自美國國家癌癥研究所。該所的蘇珊·霍爾貝克(Susan Holbeck)在60種細胞系上測試了5000對美國食品和藥品管理局批準的抗癌藥品。經過30萬次試驗之后,霍爾貝克說:“我們知道每種細胞系里面每 一條基因的RNA表達水平。我們掌握了序列數據、蛋白質數據,以及微觀RNA表達的數據。我們可以取用所有這些數據進行數據挖掘,看一看為什么一種細胞系對混合藥劑有良好的反應,而另一種沒有。我們可以抽取一對觀察結果,開發出合適的靶向藥品,并在臨床測試?!?/span>
互聯網上的火眼金睛
當醫學家忙于應對癌癥、細菌和病毒之時,互聯網上的政治言論已呈燎原之勢。整個推特圈上每天要出現超過5億條推文,其政治影響力與日俱增,使廉潔政府團體面臨著數據挖掘技術帶來的巨大挑戰。
印第安納大學Truthy(意:可信)項目的目標是從這種每日的信息泛濫中發掘出深層意義,博士后研究員埃米利奧·費拉拉(Emilio Ferrara)說?!癟ruthy是一種能讓研究者研究推特上信息擴散的工具。通過識別關鍵詞以及追蹤在線用戶的活動,我們研究正在進行的討論?!?/span>
Truthy是由印第安納研究者菲爾·孟澤(Fil Menczer)和亞力桑德羅·弗拉米尼(Alessandro Flammini)開發的。每一天,該項目的計算機過濾多達5千萬條推文,試圖找出其中蘊含的模式。
大數據盯著“#bigdata”(意為大數據)。這些是在推特上發布過“bigdata”的用戶之間的連接,用戶圖標的尺寸代表了其粉絲數多寡。藍線表示一次回復或者提及,綠線表示一個用戶是另一個的粉絲。
一個主要的興趣點是“水軍”,費拉拉說:協調一致的造勢運動本應來自草根階層,但實際上是由“熱衷傳播虛假信息的個人和組織”發起的。
2012年美國大選期間,一系列推文聲稱共和黨總統候選人米特·羅姆尼(Mitt Romney)在臉譜網上獲得了可疑的大批粉絲?!罢{查者發現共和黨人和民主黨人皆與此事無關?!辟M拉拉說,“幕后另有主使。這是一次旨在令人們相信羅姆尼在買粉從而抹黑他的造勢運動?!?/span>
水軍的造勢運動通常很有特點,費拉拉說?!耙氚l起一場大規模的抹黑運動,你需要很多推特賬號,”包括由程序自動運行、反復發布選定信息的假賬號?!拔覀兺ㄟ^分析推文的特征,能夠辨別出這種自動行為?!?/span>
推文的數量年復一年地倍增,有什么能夠保證線上政治的透明呢?“我們這個項目的目的是讓技術掌握一點這樣的信息?!辟M拉拉說,“找到一切是不可能的,但哪怕我們能夠發現一點,也比沒有強?!?/span>
頭腦里的大數據
人腦是終極的計算機器,也是終極的大數據困境,因為在獨立的神經元之間有無數可能的連接。人類連接組項目是一項雄心勃勃地試圖繪制出不同腦區之間相互作用的計劃。
除了連接組,還有很多充滿數據的“組”:
基因組:由DNA編碼的,或者由RNA編碼的(比如病毒)——全部基因信息
轉錄組:由一個有機體的DNA產生的全套RNA“讀數”
蛋白質組:所有可以用基因表達的蛋白質
代謝組:一個有機體新陳代謝過程中的所有小分子,包括中間產物和最終產物
連接組項目的目標是“從1,200位神經健康的人身上收集先進的神經影像數據,以及認知、行為和人口數據”,圣路易斯市華盛頓大學的連接組項目辦事處的信息學主任丹尼爾·馬庫斯(Daniel Marcus)說。
項目使用三種磁共振造影觀察腦的結構、功能和連接。根據馬庫斯的預期,兩年之后數據收集工作完成之時,連接組研究人員將埋首于大約100萬G數據。
20名健康人類受試者處于休息狀態下接受核磁共振掃描,得到的大腦皮層不同區域間新陳代謝活動的關聯關系,并用不同的顏色表現出來。黃色和紅色區域在功能上與 右半腦頂葉中的“種子”位置(右上角黃斑)相關。綠色和藍色區域則與之關聯較弱或者根本沒有關聯。
繪制腦區分布圖的“分區”是一項關鍵的任務,這些腦區最早于兩到三世紀之前通過對少量大腦染色被識別出來?!拔覀儗碛?,200個人的數據,”馬庫斯說,“因此我們可以觀察個人之間腦區分布的差別,以及腦區之間是如何關聯的?!?/span>
為了識別腦區之間的連接,馬庫斯說,“我們在受試者休息時獲取的掃描圖中,觀察腦中的自發活動在不同區域之間有何關聯?!北热?,如果區域A和區域B自發地以每秒18個周期的頻率產生腦波,“這就說明它們處于同一網絡中?!瘪R庫斯說?!拔覀儗⒗谜麄€大腦中的這些關聯數據創建一個表現出腦中的每一個點如何與其 他每一個點關聯的矩陣?!保ㄟ@些點將比磁共振成像無法“看到”的細胞大得多。)
星系動物園:把天空轉包給大眾
星系動物園項目打破了大數據的規矩:它沒有對數據進行大規模的計算機數據挖掘,而是把圖像交給活躍的志愿者,由他們對星系做基礎性的分類。該項目2007年 啟動于英國牛津,當時天文學家凱文·沙文斯基(Kevin Schawinski)剛剛蹬著眼睛瞧完了斯隆數字巡天計劃拍攝的5萬張圖片。
阿拉巴馬大學天文學教授、星系動物園科學團隊成員威廉·基爾(William Keel)說,沙文斯基的導師建議他完成95萬張圖像?!八难劬鄣每煲舫鲅鄹C了,便去了一家酒館。他在那里遇到了克里斯·林托特(Chris Lintott)。兩人以經典的方式,在一張餐巾的背面畫出了星系動物園的網絡結構?!?/span>
星系是一個經典的大數據問題:一臺最先進的望遠鏡掃描整個天空,可能會看到2000億個這樣的恒星世界。然而,“一系列與宇宙學和星系統計學相關的問題可以 通過讓許多人做相當簡單的分類工作得以解決?!被鶢栒f,“五分鐘的輔導過后,分類便是一項瑣碎的工作,直到今日也并不適合以算法實現?!?/span>
星系動物園的啟動相當成功,用戶流量讓一臺服務器癱瘓了,基爾說。
斯隆巡天的全部95萬張圖片平均每張被看過60次之后,動物園的管理者們轉向了更大規模的巡天數據??茖W受益匪淺,基爾說?!拔业暮芏嘀匾晒紒碜匀藗儼l現的奇怪物體,”包括背光星系。
這是星系動物園志愿者們發現的差不多2000個背光星系之一。它被其后方的另一個星系照亮。來自背后的光令前景星系中的塵埃清晰可辨。星際塵埃在恒星的形成中扮演了關鍵的角色,但它本身也是由恒星制造的,因此檢測其數量和位置對于了解星系的歷史至關重要。
星系動物園依賴統計學、眾多觀察者以及處理、檢查數據的邏輯。假如觀察某個特定星系的人增加時,而認為它是橢圓星系的人數比例保持不變,這個星系就不必再被觀察了。
然而,對一些稀有的物體,基爾說,“你可能需要40至50名觀察者?!?/span>
大眾科學正在發展自己的法則,基爾補充道。志愿者們的工作“已經對一個真實存在的重大問題做出了貢獻,是現存的任何軟件都無法實現的。鼠標的點擊不該被浪費?!?/span>
這種動物園方法在zooniverse.org 網站上得到了復制和優化。這是一個運行著大約20項目的機構,這些項目的處理對象包括熱帶氣旋、火星表面和船只航行日志上的氣象數據。
最終,軟件可能會取代志愿者,基爾說。但是計算機和人類之間的界線是可互換的。比如說超新星動物園項目在軟件學會了任務之后就關閉了。
我們驚訝地得知志愿者們積累的龐大數據是計算機學習分類的理想材料?!耙恍┬窍祫游飯@用戶真的很反感這一點?!被鶢栒f,“他們對于自己的點擊被用來訓練軟件表達出明顯的怨恨。但是我們說,不要浪費點擊。如果某人帶來了同樣有效的新算法,人們就不必做那些事情了?!?/span>
學習的渴望
人們長久以來改進對圖像和語音的模式識別的努力已經受益于更多的訓練,威斯康星大學麥迪遜分校的克拉考爾說?!八粌H僅是有所改善,更是有了實際的效果。5到10年之前,iPhone上的Siri是個想都不敢想的點子,語音識別一塌糊涂?,F在我們擁有了這樣一批龐大的數據來訓練算法,忽然之間它們就管用了?!?/span>
隨著數據及通訊價格持續下跌,新的思路和方法應運而生。如果你想了解你家中每一件設備消耗了多少水和能量,麥克阿瑟獎獲得者西瓦塔克·帕特爾 (Shwetak Patel)有個解決方案:用無線傳感器識別每一臺設備的唯一數字簽名。帕特爾的智能算法配合外掛傳感器,以低廉的成本找到耗電多的電器。位于加利福尼亞 州海沃德市的這個家庭驚訝地得知,錄像機消耗了他們家11%的電力。等到處理能力一次相對較小的改變令結果出現突破性的進展,克拉考爾補充道,大數據的應用可能會經歷一次“相變”。
“大數據”是一個相對的說法,不是絕對的,克拉考爾指出?!按髷祿梢员灰曌饕环N比率——我們能計算的數據比上我們必須計算的數據。大數據一直存在。如果你想一下收集行星位置數據的丹麥天文學家第谷布拉赫(Tycho Brahe,1546-1601),當時還沒有解釋行星運動的開普勒理論,因此這個比率是歪曲的。這是那個年代的大數據?!?/span>
大數據成為問題“是在技術允許我們收集和存儲的數據超過了我們對系統精推細研的能力之后?!笨死紶栒f。
我們好奇,當軟件繼續在大到無法想象的數據庫上執行復雜計算,以此為基礎在科學、商業和安全領域制定決策,我們是不是把過多的權力交給了機器。在我們無法覷探之處,決策在沒人理解輸入與輸出、數據與決策之間的關系的情況下被自動做出?!斑@正是我所從事的領域,”克拉考爾回應道,“我的研究對象是宇宙中的智能演化,從大爆炸到大腦。我毫不懷疑你說的?!保ㄎ恼聛碜裕?a href="http://www.ruiqisteel.com/" target="_blank">CDA數據分析師)
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25