
編譯:Mika
【導讀】
自動駕駛汽車只是個開始。大數據驅動技術和設計的未來是什么?肯尼斯·庫基爾在TED演講中探討了機器學習和人類知識的下一步發展方向。
美國人最愛的餡餅是什么?
毋庸置疑是蘋果派。
我們是怎么知道的?通過數據。
當你看到超市的銷售數據,會發現超市銷售的30厘米冷凍餡餅中,蘋果派勝出,這是毫無懸念的。絕大多數的銷售份額就是來自蘋果派。但是之后,超市開始銷售比較小的11厘米的餡餅。
突然間,蘋果派的銷量下降到了第4或第5名。這是為什么?發生什么了?
好的,不妨想象一下:
當你準備買一個30厘米的餡餅時,全家都不得不同意選擇蘋果派餡餅,雖然蘋果派并不是每個人首選。但當你給自己選一個11厘米餡餅時,你可以買你最愛吃的口味。你會選你的首選項。
有了更多數據,你可以知道些事情,這些事情在你只有少量數據時你是無法知道的。這里關鍵的是更多的數據,不單單讓我們知道更多,知道更多我們正在關注的同樣事物;更多的數據使我們能了解新的事情,讓我們更好地了解,讓我們有不同的視角。
在這個例子里,更多的數據讓我們知道:美國人最喜歡的餡餅,不是蘋果派。
你肯定聽過大數據這個詞。事實上,你可能對這個詞已經有些煩了。確實,大數據受到了空前的宣傳炒作,這很不應該。因為大數據是一個非常重要的工具,社會將由此而不斷進步。
過去我們習慣于處理小數據,思考這些小數據的意義,并以此來了解世界?,F在我們有很多很多的數據,數據量前所未有的巨大。當我們掌握海量數據時,我們可以做一些事,一些在只有較少數據時不可能辦到的事。
大數據很重要,它也是一個新興事物。想象一下,大數據能夠幫助我們應對世界性難題。比如應對食物短缺、醫療短缺、能源短缺、電力短缺等問題的唯一辦法是有效利用大數據。
那么大數據新在何處?為什么這么重要呢?
為了回答這個問題,讓我們看一下信息在以前是什么樣的。
1908年在克里特島上,考古學家發現了一個粘土做的盤子。這是個公元前2000年的盤子距今約有4000年的歷史。盤子上有銘文,但是我們不知道它們是什么意思,這完全是個謎團。
但這就是4000年前信息的樣子,這就是當時社會存儲和傳遞信息的方式?,F代社會也沒有什么很大的進步,我們還是把數據存儲在磁盤中,但我們可以存儲更多的信息,遠遠超過以前的信息容量。
這些信息搜索和復制起來更簡單,分享和處理起來也更便捷。我們也可以重新利用這些數據,一些我們在當初收集時從來沒有料想過的用途。
從這個方面來說,數據已經從儲存狀態到了流動狀態,從靜態的統計性的數據,變成動態的數據流,這就是信息的流動性。
克里特島發現的粘土盤有4000年的歷史,非常笨重,但它不能記錄太多的信息,并且它所記錄的信息是不能更改的。
與此相反,愛德華·斯諾登從美國國家安全局所獲得的文件,可以放在一個僅有指甲大小的存儲盤里,并且可以以光速進行數據共享。
今天我們有這么多數據的一個原因是,我們一直在收集信息,就像我們一直在做的一樣。另一個原因是我們記錄了許多蘊含豐富信息的事物,但是從沒把信息轉換成數據形式,現在我們正在把信息轉變成數據。
舉個例子——定位問題。
比如說馬丁·路德(德國宗教改革家)。在16世紀,如果我們想知道馬丁·路德在哪里。我們必須一直跟著他,或許用羽毛筆和墨水,把這些情況記錄下來。
那現今是什么樣的情形呢?
在某些地方,可能在電信運營商的數據庫里有個電子數據表或者至少一個數據目錄,記錄著所有關于你,任何時候在什么地點的信息。
如果你有個手機,這個手機有GPS ,或者即使沒有GPS它還是可以記錄你的信息。從這方面來說,位置信息被數據化了。
再舉個例子,關于姿勢。
你們現在坐著的姿勢都不一樣,這是一個關于腿長,以及你的背部和背部輪廓的函數。如果我現在放一些傳感器在你的椅子里,我可以算出你的獨一無二的參數。
那我們能用它來干什么呢?
東京的研究者把它運用在一個汽車防盜設施的雛形上。設想的是當盜賊坐在駕駛座上,企圖把車開走,但是汽車識別出駕駛座上的是個未授權駕駛人。那汽車可能就會熄火,除非你在儀表盤上輸入密碼,來表明“我已獲得授權”。試想如果歐洲的每輛汽車都裝備了這項技術會是怎樣的情形?
我們還能做些什么呢?或許如果我們整合數據,我們可以識別示警信號。對于在下一個五秒鐘內可能發生的意外做出最佳預判。我們也可以進行數據化的是司機的疲勞度。
當汽車偵測到司機的坐姿倒成某一特定姿勢時,這個設備感知到并發出車內警告??赡苁钦饎臃较虮P或語音提示,“嗨,醒醒。集中精神在路況上”
這就是生活的更多方面數據化后我們能做的事情。那么大數據的價值在哪里?
思考一下,你有了更多地信息,你可以做你以前不能做的事。
在運用這個概念的領域里,讓人印象最為最深刻的是機器學習。
機器學習是人工智能的一個分支,人工智能又是計算機科學的一個分支。它的基本理念是把關于某個問題的一堆數據扔給電腦,讓電腦自己找出解決方案,而不是教電腦應該做什么。通過機器學習的原型,可以幫助你來理解這個理念。
20世紀50年代IBM的計算機科學家,亞瑟·塞繆爾想玩跳棋,所以他寫了個程序,這樣他就可以和電腦來玩。
開始他下一盤,就贏一盤。因為電腦只知道規則允許怎樣走,亞瑟·塞繆爾還知道其他東西,他知道下棋的策略。所以他又寫了一個附加程序,這個程序在后臺運行。它的功能只是計算概率,在一個給定的棋局里每走一步后,會獲勝或者失敗的概率。
之后他再和電腦下棋,還是他下一盤,就贏一盤。
后來亞瑟讓電腦自己和自己下棋。電腦自己玩的時候收集了更多的數據,收集的數據越多, 預測的準確率就越高。
然后亞瑟又繼續和電腦下棋,這次他下一盤,就輸一盤。亞瑟創造了一個機器,它的能力超越了亞瑟開始時所教給它的。
機器學習的理念現在已經隨處可見。
你們覺得無人駕駛汽車的關鍵技術是什么?
是不是把所有交通規則輸入軟件就萬事大吉了?不是。
內存很便宜?不是。
算法更快了,不是。
處理器更強大了,不是。
這些都有影響, 但不是真正的原因。真正的原因是我們改變了問題的本質。
我們把問題的本質,從試圖明確無誤地教會電腦怎樣駕駛,變成我們對電腦說,“這里有許多關于汽車的數據,你自己搞定它。你知道那是交通信號燈,那是紅燈不是綠燈。遇到紅燈你必須停下來,不能往前走?!?
機器學習是許多網上在線應用的基礎。搜索引擎、亞馬遜的個性化算法、計算機智能翻譯、語音識別系統。
研究者最近在研究關于活組織檢查的問題,即腫瘤活組織檢查。他們讓電腦通過 (歷史) 數據和存活率來判斷這些細胞是否是癌癥細胞。
果不其然,當你把數據交給電腦,電腦通過自主學習,可以尋找出12個最佳的鑒別特征,用來預測乳腺癌細胞的活檢切片確實是癌癥細胞。
大數據也有黑暗的一面,它可以改善我們的生活,但也會帶來一些我們需要注意的問題。
首先就是,我們可能因為預測的結果而受到懲罰。
現在有個詞叫做預見性監管或者叫算法犯罪學。這個想法是如果我們掌握了大量數據,比如以往犯罪發生的地點,我們可以就知道把警力派到哪里。這很合理,但問題是數據分析不會僅限于地點數據,它會進一步深入到個人層面。
為什么我們不去分析某人的中學成績單,或者我們可以了解他們的就職情況、信用記錄,他們的上網行為,他們是否熬夜。當可以通過健康腕帶讀取生化數據時,就可以知道他們是否有激進的想法。
我們可以用算法來預測我們將要做什么,可能有些事情還沒做,我們就要承擔責任個人隱私在小數據時代是主要挑戰。在大數據時代,這個挑戰將會成為保衛自由意愿、道德選擇 、人類意志、人類的能動性。
還有另一個問題大數據會取代我們的工作。
在21世紀,大數據和算法會威脅到白領和需要專業知識的工作。就像在20世紀工廠自動化和裝配生產線的應用威脅到了藍領們的工作崗位。
想象一下一個研究室技術員,他的工作就是通過一個顯微鏡觀察一個癌癥活檢組織來判定它是不是癌癥的。這個人上大學,買房子,他是這個社會的一份子。然后這個人的工作,還有其他像他一樣的專業人員將會發現他們的工作被徹底改變了,或者徹底廢除了。
我們一直以為在短時或者暫時的就業調整期后,一段時間內科技會創造就業機會。這對于我們所處的參考系,工業革命來說就是這樣。
因為在工業革命時期事情就是這樣的。但是我們忘記了一件事情,有些類型的職業已經徹底消失了,并且再也不會回來。如果你是一匹馬,工業革命不是一件好事。
所以我們必須非常小心,根據我們的需求和整個人類的需求來利用和適應大數據。我們必須是技術的主人,而不是技術的仆人。
我們正在步入大數據時代。老實說, 我們并不能很好地處理所有我們現在能夠收集到的數據。這不僅僅是國家安全領域的問題,許多企業也搜集并不恰當地使用數據。我們需要時間來糾正這個問題。
這有點像原始人類面對火時所面臨的挑戰?;鹗且环N工具,但是如果使用不當就會引火燒身。
大數據即將改變我們的生活方式,我們的工作方式和思考方式。它可以幫助我們管理事業,幫助我們過想要的滿足、充滿希望、幸福和健康的生活。
但是在過去, 對于信息技術(IT),我們經常只看到了T,就是技術、硬件,因為這是切實可見的東西?,F在我們需要把目光放在 I 上,信息。它不是那么切實可見,但某種程度上卻更加重要。
在人類永無止境的探索過程中,我們可以從我們能收集的信息中來了解這個世界。以及人類在這個世界中所處的地位。這就是為什么大數據非常重要。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25