熱線電話:13121318867

登錄
首頁職業發展大數據的三大理念解析_數據分析師
大數據的三大理念解析_數據分析師
2014-11-12
收藏

大數據的三大理念解析_數據分析師


維克托·邁爾·舍恩伯格同學曾在他的作品《大數據時代》中總結了相對于傳統的思維模式,大數據時代需要做出的三個轉變,也可以說是大數據思維模式的三個理念。這里也不準備標新立異了,還是沿著這個思路。不過,對于這種觀點,我們還是需要批判的看待,既不能像網上某些人的評論那樣將其批判的一無是處,也不能不假思索的全盤接受。用馬克思主義哲學的說法,只有使用去粗取精、去偽存真的方式,取其精華,棄其糟粕,才能真正了解其精髓,從而實現繼承和發揚。
  
一、大數據的理念之:用全量代替樣本
  
1841年埃德加·愛倫·坡發表了文學史上的第一部偵探小說《莫格街謀殺案》,盡管這部小說的解答有些欠抽,但不可否認,它開創了偵探小說的一種模式——“密室”,而這種模式被后來人所追隨,以至于似乎沒有寫過這種類型小說的都不算是偵探小說作家。所謂的“密室”,就是在一個封閉的空間內犯下的兇案,終極目標就是解答出兇手的犯案方式以及如何從密室中逃脫。在一代又一代的偵探小說家的努力下,密室的難度越來越大,從正常人無法進入到所有人類都無法進入,直至正常情況下所有生物都無法進入。然而即便這樣,如果嚴格來說的話,絕對的密室是不存在的,它肯定會有空隙,就算看起來密不透風也從微觀的角度找到某些空隙。既然不可能達到絕對的封閉,只能使用相對的概念,對于正常人無法進入的空間都屬于密室,否則整個偵探小說界就少了一個很重要的組成部分。
  
剛接觸化學課的時候,接觸到了純凈物和混合物的概念,與此同時也提到了,絕對的純凈物是不存在的,即使是再精確的提純。于是,對于一種物質,只要沒有提到存在雜質,默認按照純凈物來看待,否則就不僅僅是幾道考試題的問題了,可能整個化學學科的研究都沒法開展下去了。例如兩種物質發生反應,如果按照實際情況都當作混合物看待,不斷的糾結于各種雜質的問題,那就偏離了真正的研究方向。
  
舉了上面兩個貌似不相干的例子,想表達的觀點就是,和多、少這類的相對概念一樣,實際上全也是一個相對的概念,絕對的全也是不存在的。之所以這么說,主要有兩方面的原因:
  
首先,當數據量超過一個范圍之后,取得全部信息會很復雜,以至于可能根本是無法完成的任務。如果要獲取一個學校所有學生的某個信息,這個很容易,只需要將全校的學生聚集起來一起獲取,或者以班級為單位單獨獲取之后再進行匯總,因為一個學校不管有多大,學生人數都不會太大。而如果要獲取全市所有人的某個信息呢,這似乎就是不可能的了:如果在大街上隨機詢問,對于那些不出門的宅男、宅女們的信息就沒法獲??;如果挨家挨戶進行詢問,對于那種經常不在家的就不太容易能遇到,而且那種無家可歸的流浪漢的信息也沒有辦法獲??;如果通過電話詢問,也肯定有因為某種原因無非接電話的人,或者看到是陌生號碼就是不接的;也許互聯網可以解決這種問題,但肯定有那種一心只跳廣場舞、對網絡世界一竅不通的大爺、大媽們,就算是網絡一族,也有可能因為不關注或者不感興趣而對此完全無視。就算可以獲取全市所有人的信息,那推廣到全省、全國呢。要知道,所謂的所有人,包括那種沒有戶籍的“黑戶”,以及那種隱姓埋名的在逃犯等人群。
  
就算這個問題可以隨著技術的進步得以解決,那么接下來的問題就是在理論上都無法解決的,那就是有些屬性是連續的,比如時間、空間的概念。就像無法窮盡(0,1)之間的所有有理數一樣,取某個時間范圍內所有時間點的某個信息,或者某個空間區域中所有位置的某個信息,從理論上講都是不可能的,因為所有的數據都只能獲取離散的信息點。
  
綜上,獲取全部數據,在理論上和實際上都是不可能實現的,那么就只能變通一下。對于第一種情況,可以縮小調查范圍,只關注某種類型的信息,畢竟對于另外類型的信息有可能根本沒有實際意義,比如電商們不會關注那些從來不網購的人們是怎么想的;同時默認,只要獲取的信息量超過總量的一個比例,就認為它是全部數據。而對于第二種情況,可以通過細分相應屬性來實現,比如在某個時間范圍內每隔0.1秒獲取一次信息,就可以認為是全部的時間點,畢竟這基本上是人類的最快反應速度,要知道,百米比賽中發令槍響之后0.1秒之內起跑的也屬于搶跑。
  
當然,隨著技術的發展,在數據全面這一點上,會越來越趨近這個目標。盡管離這個目標還有一定的距離,但現在已經默認我們掌握了全部的數據。之所以可以這樣假設,是因為所謂的“大數據”,更多的是一種思想,通過這種思想可以得到之前無法得到的結論。
  
之所以這么說,是因為“大數據”思維和傳統的思維有本質的區別。
  
記得當年學習關于抽樣檢驗相關知識的時候,舉過的一個例子,驗證一批燈泡的使用壽命,需要隨機抽取一定數量的燈泡,通過這些燈泡的測試結果來驗證這一批燈泡的合格率大約是多少。由于燈泡在測試完之后就沒法再使用了,所以無法采取全量的方式,因為如果那樣做的話,最終得到的會是一個絕對正確的結論和一堆廢品。
  
由于上述原因,只能通過抽樣的方式進行這樣的檢驗,于是形成了一套抽樣檢驗的理論,包括如果進行隨機抽樣,以及形成了期望、方差等統計學概念,最終形成了概率論與數理統計這樣的學科。
  
接下來的問題就是,對于那些沒被抽樣檢測的燈泡,它的使用壽命信息就沒有實際意義了嗎?顯然不是。如果通過某種方式可以獲取了某工廠生產的所有使用過的燈泡的壽命(以目前的技術,這種信息應該是可以獲取的),就可以得到一些可能更有用的信息,比如可以通過找到哪些因素可以讓燈泡的使用壽命更長,提高制作工藝從而提升整體的產品質量。當然,這僅僅是最容易想到的,實際上能夠獲取的信息會更多。
  
而這種思維方式就是“大數據”的思維方式,它是處理那些已經完成歷史使命的數據,在這種海量的歷史數據中找出規律,從而對未來進行預測;或者找到相關的影響因素,從而改善方案以達到利益最大化。
  
數據,和普通的商品不同,并不會隨著它的使用而消失;只要有足夠的存儲空間存放,它便會一直保留著。而“大數據”思維,恰恰是在處理這種已經使用過的數據,并從中獲取到想要的信息。也許對于一次交易,只要結算完畢,交易信息就完成了歷史使命;對于一次實時檢測,只要得到結果并判斷是否需要人工干預,檢測信息就完成了歷史使命;對于一次網絡檢索,只要找到需要的信息,查詢結果信息就完成了歷史使命……然而,只要把這些已經完成歷史使命的數據都匯集起來,也許會得到意想不到的結果。因為隨著數量的累積,它會慢慢的誘發質變。
  
中國古人有一句諺語:“熟讀唐詩三百首,不會作詩也會吟?!蔽鞣絺商叫≌f里的人物福爾摩斯也曾經曰過:“你掌握一百個案子的來龍去脈,第一百零一個案子一定不會在你的算計之外?!边@兩個貌似風馬牛不相及的言論,恰恰反映了同一個理論,就是上學的時候物理課上經常講的“量變到質變”的理論,只要量變達到了一定程度,就會帶來質的飛躍。
  
其實分析一下,道理是一樣的:
  
對于唐詩,只要被創造出來,抒發了詩人的情感,它就已經完成了歷史使命。而通過熟讀前人的詩詞,只要達到了一定的數量(肯定是不止三百首了),以至于幾乎熟讀過所有前人的詩詞,就能夠分析出怎樣才能寫好一首詩,從而創造出新的詩篇來。
  
對于案件,只要經過調查分析,找到兇手及相關信息,最終結案,它就已經完成了歷史使命。而通過研究前人偵破的案件,只要達到了一定的數量(肯定是不止一百個了),以至于幾乎研究過所有案件的所有相關信息,就能夠獲得破案的思路和方法,從而當遇到新的案件時,就可以按照正確的偵破方向進行。
  
當然,上面的言論有人為拔高的成分,不能這些言論都算作大數據的思維方式,然而所謂的“大數據”思維方式肯定不是憑空產生的,而它的來源其實就是這種“量變到質變”的理論。畢竟,在一定的范圍內,沒有比全部數據的量更大的數據集了。
  
二、大數據的理念之:兼容不精確
  
自然博物館,一游客問館里的講解員某個古生物化石距今有多少年,講解員答曰:“五百萬零二十年?!庇慰筒唤?,問這二十年是哪兒來的,講解員說:“我剛參加工作的時候,這個古生物化石距今有五百萬年;我現在工作了二十年,所以,這個古生物化石距今有五百萬零二十年?!碑斎?,這僅僅是個段子。但從另一方面也說明了,當數量超過了一定的范圍之后,其精確性已經不重要了。
  
然而,什么屬于精確性呢?
  
上學的時候應該都聽老師講過這樣的故事,說美國挑戰者號出現故障即將墜毀的時候,給航天員對自己親人做最后囑托的機會。其中一個航天員對自己的兒子說,挑戰者號之所以出現故障,就是因為錯了一個小數點。當然,正常情況下這個時候老師都會用富含感情的話語表達,就那么一個小小的錯誤就導致了那么大的災難,所以在以后的學習生活中,要認真、仔細、嚴謹……
  
先不去糾結這個故事是否是中國教育界的原創,仔細想一下,小數點的錯誤真的是一個小小的錯誤嗎?
  
小數點本身是不會出錯的,沒有人會把它寫成別的符號。這里說的小數點錯誤,只有一種可能,就是小數點的位置有誤,包括該有小數點的地方沒加小數點,以及不該有小數點的地方卻加上了小數點,這意味著,整個的數量級都是錯誤的。而航天相關的計算中,很少使用加減法,更多的是乘、除,以及乘方等運算,這樣會導致最終的結果也會出現數量級的錯誤,而這種錯誤,與正確結果至少相差十倍。這樣看來,這個小數點還能算作小問題嗎?
  
而與此同時,在高中物理課上,關于萬有引力相關的部分(包括一些航天相關的),很多情況下的計算結果并不要求十分精確,只要數量級是正確的、并且前面的數值在某個范圍內,就算正確,甚至高考的時候都是這樣。也就是說,在這種特殊的領域,對于小數點后幾位的值,是沒必要十分精確的,盡管它的絕對數值也許會很大(如果數量級很大的話,小數點之后很多位所代表的實際數值也會是很大的)。
  
就像這部分開頭的段子那樣,對于人來說,二十年是一個很大的數量,人生能有幾個二十年呢;但對于遠古時期的化石來說,甚至兩百年、兩千年都是可以被忽略不計的。同樣,對于地球上生活的人類來說,一公里是一個比較長的距離,但是在茫茫宇宙,它也是可以被忽略不計的部分。我們會用幾萬年前、幾百萬年前或者幾億年前來記錄古生物所處的時期,會用光年作為單位去衡量宇宙中的距離,盡管這樣的數值是不需要精確到具體多少年或者具體多少公里,但如果年限的數量級、光年前面的整數位數值都是錯誤的,那這樣的數據也就是失去了它的意義。
  
這就是大數據所謂的不要求精確性,它僅僅是不去糾結于那些被忽略不計的小數點后多少位的具體值;然而,它并不意味著準確性也不做要求,如果整數位、甚至數量級本身就是錯誤的,那得出的結論就會與實際情況相差很遠,也就失去了它的意義和價值。
  
當然,之所以可以不要求精確性,也是因為“大數據”處理的是歷史數據。對于一些正在使用的數據來說,是需要精確性的:銀行賬戶上的金額,以及支付寶、余額寶相關的交易金額,這些都是需要完全精確的,以保證社會的公平;某些觀測數據也是需要精確性的,也許小數點后的某一位的區別,都可能得到不同的結果;甚至對于一些醫療相關的數據,也許幾毫克的差別都會影響著一個生命是否會消逝;更別說還有其他意義更加重大的數據了。然而,等到“大數據”進行處理的時候,它實際上已經完成了歷史使命,那么即使它不是十分精確,至少不會造成嚴重的后果。
  
而事實上,當數據量達到一定程度的時候,數據本身就無法保證其準確性了。比如,當每小時只測量一次的時候,可以認認真真、仔仔細細的進行測量,這樣的數據可以說是準確的;但如果每幾分鐘就要測一次呢,就無法保證每一次都非常認真,就不可能十分精確;當每幾秒鐘就需要測一次的話,人工就無法實現了,必須借助工具,數據的準確程度就與相應的工具息息相關;而如果一秒中要測量多次呢,也許再精妙的工具都無法保證每一條數據都是非常精確的。
  
各種理論直接往往都是相通的,量子物理學里有一個“測不準原理”,而在大數據領域也有類似的原理,即在測量的密度增大之后,測量值的不確定性就會增加。當然,這并不能阻礙大數據的使用,因為這樣的數據之間是可以進行相互印證的。
  
一般情況下,“大數據”是不會只使用一種數據來源的,它會將多個數據來源進行綜合分析,從而實現各數據信息之間的相互印證。而這種互相印證的過程,也是去粗取精、去偽存真的過程,這樣一來利用不精確的數據源,反而能夠獲得更加準確的結論。
  
不過,這導致了數據的結構化程度降低了。對于傳統技術而言,一般處理的都是結構化的數據,即每條記錄都有同樣的結構,而且幾乎包含了所有指標的信息。然而,“大數據”所處理的數據,還包含半結構化或者非結構化的,甚至是圖片、音頻、視頻等非文本的。這也就是相對于傳統技術而言,大數據技術的一個飛躍性的提升。
  
也許在面對這種所謂的“大數據”的情形,很類似一名警官面對一樁復雜的案件。在他的面前有各種線索:有可能讓人的消化道不舒服的死者的狀態,有現場的情況(包括實地觀測及相關的照片信息),有與死者相關的人物信息及與死者的關系情況(主要是利益關系以及是否彼此之間有矛盾),有目擊者或者相關人員的證詞,有通過法醫學測驗得出的各種結論,甚至包括現場周圍監控錄像的內容……最終的目的就是將這些信息整合成一個完整的證據鏈,發現以及證明誰是兇手。類似的,這些線索中,有跟案件緊密聯系的,也有跟本案毫無關系的干擾信息,也有因為種種原因導致的不完全準確甚至完全不準確的信息,甚至也有兇手為了干擾辦案人員故意給出的假線索。當處理這些浩如煙海的線索的時候,不僅需要通過單個線索獲得相應的結論,還需要將各線索的得出的結論進行綜合分析、互相印證,這樣才能最終得到正確的結論。
  
其實人生也一樣,一方面,生活本身就是繁雜的(寫這篇文章的方式也盡可能符合這一點,即盡可能包羅萬象),“結構化”的只是其中的一小部分,更多的是“非結構化”的。
  
哪怕是僅僅作為一個“碼農”,也是一樣的:如果只了解所使用的技術,哪怕研究得再深入,那也是一個低層次的“碼農”;想要成為一名高層次的“碼農”,還需要了解一些看起來跟編碼沒有半毛錢關系的知識。
  
我們都知道愛因斯坦作為一名科學家所獲得的成績,而與此同時,他還是一個優秀的小提琴手,在音樂上也有很深的造詣。很難想象,如果愛因斯坦的腦子里只有一個個冰冷的物理公式,他是否還能做出這么大的成績。
  
隨著信息時代的到來,我們已經不需要陳景潤式的人物了,更需要的是對多個領域都有所了解的人才,或者說是“一專多能”式的人才,這樣才能整合各領域的信息,在更高的層面上有所建樹。
  
另一方面,生活本身也是不完美的。當然,我們需要有追求完美的精神;但是,如果刻意的追求完美,一味的糾結于各種細節,反而會“因為一片樹葉而失去了整個森林”。同樣的,精確性是我們的努力的目標,但我們應該清楚,絕對的精確是不存在的。
  
三、大數據的理念之:更加關注相關規律
  
在這一點上,我們的維克托同學給出了一個“標新立異”的觀點,即只關注關聯關系,不關注因果關系。這也許是很多人,包括翻譯那部作品的那位同學,堅決持反對態度的一個觀點。然而,是不是我們沒有理解作者的意圖呢?
  
經過了八年的豌豆實驗,孟德爾先生發現了遺傳學的兩大定律:分離定律和自由組合定律。而此時他發現的僅僅是關聯關系,即對于某一類相對性狀,存在顯性和隱性,如果將兩個不同性狀的物種進行雜交,其后代呈現顯性性狀;而如果將這些呈現顯性性狀的第二代物種彼此之間進行雜交,其第三代中所呈現的顯性性狀與隱性性狀的比例約為3:1。而至于為什么會是這樣,以當時的情況,是無法解釋的。
  
在此之后,科學家們在細胞核內發現的染色體,并在染色體中發現的遺傳基因,同時也發現了染色體是成對出現的,以及在細胞的有絲分裂和減數分裂時染色體的狀態,甚至發現了遺傳基因的載體DNA的雙螺旋結構。在此基礎上提出的顯性基因和隱性基因的理論,從而解釋了孟德爾的遺傳定律。
  
然而,這就是根本原因嗎?顯然不是,至少為什么第二代會呈現出顯性基因的性狀,這還是一個未解之謎。要想知道這個的原因,需要了解關于DNA的更多的信息,甚至在此之外還有更多需要研究的地方。
  
而這里的第一部分,我們可以理解成另外一個大數據分析的步驟,通過對海量的數據進行分析處理之后得到了一個關聯關系。然后呢,就木有然后了。如果想要知道因果關系,即這個關聯關系的相關原理,需要從理論高度進行研究,或者通過其他途徑得到其本質原因,而大數據本身對此是無能為力的。
  
其實很多的科學研究的過程都是這樣:先通過一些實驗數據得到一個結論或者假說(即上面提到的關聯關系),再通過理論推導或者更高層次的研究,了解其本質(即因果關系)。而大數據所扮演的僅僅是先前的實驗過程而已。
  
故曰,之所以說大數據不關注因果關系,是因為它本身是無法得到因果關系的,并不是說因果關系不重要。
  
由于因果關系需要進行嚴謹的分析,甚至需要一點點的靈感,它并不是在短時間內能夠得到的。而經過大數據分析,已經基本上可以保證關聯關系的準確性,而且其本身還屬于“僅供參考”的范疇,直接使用得到的結論,至少結果不會太糟(除非分析方法嚴重有誤)。在追求效率的今天,這種“先斬后奏”還是值得嘗試的。
  
況且,如果沒有通過大數據得到的關聯關系,對于相關因果關系的探求就沒有了方向。所以說,大數據僅僅是第一步,唯一的區別就是,在沒有得到因果關系之前,相應的結論就可以放心大膽的使用;而對于相應的因果關系,那是給想要獲得諾貝爾獎的人們準備的。(文章來源:CDA數據分析師

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢