
真正的大數據應用體現在數據挖掘的深度
我今天的題目叫做大數據與數據驅動的智慧,首先我大概分成四個部分,談談我對大數據的認識,我想講四個部分,第一個談談對大數據的認識,第二個大數據給我們帶來什么挑戰,第三個大數據應用,最后結合我們的主題講講數據和智能的關系,主要談我的理解。
認識大數據
所謂大數據,它是我們信息化到一定階段之后,必然出現的一個現象(自然現象),主要是由于信息技術不斷的成本化,不斷的廉價化,以及互聯網及其延伸出來的,帶來的信息技術無處不在的應用所帶來的自然現象。
基本上有幾個主要的驅動力:
一個是摩爾定律所驅動的指數增長模式;
第二個是我們技術低成本化驅動的萬物的數字化;
第三個就是寬帶移動泛在互聯驅動的人機物廣聯連接,以及最后大規模的匯聚。
實際上大數據正在帶來我們新的一撥數據化的浪潮,信息化的第三撥浪潮3.0。
如果我們回顧來看我們的過去的話,我們大體上能夠看到兩個明顯的階段的劃分,一個是在從PC機開始進入市場以來,應該說帶來了信息化的第一撥浪潮,這個浪潮差不多到90年代中期,這個時候的主要特征是單機應用為特征的數字化特征,我們主要完成簡單的工作上最核心業務的數字化的工作,以PC機為主。
在過去的20年,90年代中期到現在,以聯網應用為特征的網絡化出現數據大集中,開始全國范圍內的大聯網等等,各個企業甚至走向企業全球,現在我們正在進入新的階段,這個以數據的深度挖掘和融合應用為特征的智慧化,或者智慧化的現象。
到底什么是大數據,這兩個定義從兩個角度來談:
一個從技術上來講,我們的技術供給能力不足所面臨的對象他稱之為大數據,第二是從數據特征講的數據,這是兩個數據的定義。
應對大數據
大數據帶來的是什么,我覺得最重要的東西可能帶來的是思維模式的變化,如果回顧來看看我們過去,基本上定義這不一定是大家都能夠接受,但是能夠去查的話,定義出現所謂的大數據是在上個世紀的時候,97年的時候,SGI的首席科學家曾經用了這個詞,他講了數據提到大數據,特別強調從技術的視角來看,所謂的難獲取,難預測,難處理,難組織四個難題。而從商業視角與大數據時代這本書的發行,開始探討大數據在商業里面的應用,特別強調了幾個很重要的特征,從隨機樣本到群體數據等這么一個變化。
這是我們經常講的大數據的價值和意義,大體上分成幾個方面。
一個通過大數據,我們能夠認識復雜系統的新思維,促進經濟轉型,提升國家綜合能力保障國家安全,提升政府的治理能力以及服務民生服務社會的能力。
這是我在幾個場合講的一個我對當前數據狀況的一個認識,以及個人的一些見解,時間關系我不會詳細的說,我覺得目前來講,大數據開始還在炒作的階段,至少到我們中國炒作的熱潮還沒有過去,所以我們相對于國外的炒作,國外開始進入我們還滯后了3到5年,真正的大數據應用應該體現在數據挖掘的深度。
原因有三點:首先有我們對數據認識不到位的原因,還有在當今的情況下一宣傳大家都很熱,成為了獲取資源的途徑。不聊大數據就拿不到項目,這也是一個很重要的原因;
第二個是大數據投入過熱,資源浪費比較明顯,這方面的投入特別是數據中心的投入為典型;
第三個就是我們認為大數據的理論和技術都還處于發展的早期,所以我們定義已經有了共識,但是對它的核心觀點和命題還是有很多爭議的,比如說大和小,到底怎么來定義,關聯和因果的辯證性,所有都講關聯不求因果的嗎,所有的數字化的東西相對于客觀世界而言也僅僅是一個抽樣而已,不管是它的時間密度,空間密度到底有多大。第二是不是有通用的技術體系也不太敏感,從我們做計算領域研究的人來講,總是希望能夠為數據的處理方式提供一種手段。數據科學的理論基礎還沒有,比如說傳統的統計方法,他有一個數據統計的基礎在本,我們是不是就用統計,用深度學習,還有沒有其他更好的理論上的突破,這個應用了相對超前理論和技術的發展,這樣使得很多數據分析的結論基本上缺少因果,缺少理論知識,都是用靠關聯關系建立起來的。有時候這個使用還是需要適當審慎的。最后一個大數據這個現象可能會長期的存在,對我們計算能力的挑戰也是永恒的。
我順便舉兩個歷史上大人物說過的話,這是過高的估計了當時的計算。
一個是IBM當時的首席認為世界上是由幾臺計算機就夠了,這個大家經常當成他的笑話來說,比爾蓋茨也說640K的內存就差不多了,我想數據的增長會遠遠的超出我們處理能力的增長,所以我們很多的數據是做不到的。比如說2016年美國存儲軟件供應商發布的,剛才我看有人給我發一個他們做的冷數據存儲,冷數據你還處理過,但有的數據你碰都沒碰把它存儲起來,這個對我們的挑戰也是很大的。我們把一個地球搞清楚,把科學搞清楚,很多數據我估計真的到宇宙發生變化的時候也未必能夠完全處理清楚。
第二個數據帶來的挑戰,我是把它分成兩大類,一類下面這類有大數據的管理,主要指的計算機的技術,講計算機類的技術,第二是大數據的分析方法,怎么樣有理論方法去分析它,講這兩個。大體上有這么幾個東西。管理上一個是數據庫管理系統,面臨一系列的挑戰,我們傳統的關系型關系庫追求數據的一致,系統的高性能。沒有預先定義的模式使得一致性難以支持,高性能也難以實現。數據庫傳統發展的理念也開始完全由一個通用的數據庫開始追求領域通用,這是一部分。
這是數據的管理本身,那么數據的處理,怎么處理,由于單臺計算設備不管性能有多高,它也不可能把數據處理完,所以說并行處理就成為不二的選擇,因為數據量太大了。要并行處理就面臨不同數據的需求,比如說批處理,流處理,圖處理,當然一系列的東西大家都在嘗試,也可能不存在通用的數據處理方法,或者數據處理平臺能夠適應所有類型的數據,是不是能夠做到,現在目前來看也沒有。
一種可能的途徑,比如說能不能通過軟件的定義的方式,我們能夠把各種能力集中到一起,然后在上面透過不同的數據處理的需求,定義出不同的平臺,也就是說我要實現這種平臺把它柔和到一起的這種可定制性,可剪裁性能不能做到。還有云計算中心,現在越來越多的大數據依托于云計算中心。
第二部分大數據的分析方法,可能和數學分析方法更緊密的相關,怎么能夠把我們理論方法體系建立起來,在不同領域進行應用。
我們大數據分析面臨著一對挑戰:
一個是分析對象的改變,過去是預處理后數據我們現在是原始數據,以前是樣本數據,現在是全數據,以前是單源單模態數據,現在是多源多模態數據。就是分析對象發生了變化;
第二是分析的需求發生變化,我們需要更加準確的高精度分析,還有復雜關聯的深層特征,還有大規模的復雜關聯;
第三個變化分析模型能力的變化,我們需要追求從表達力受限的低維數據,到高信息量的高維數據,還有弱表達力的簡單模型到強表達力的復雜模型,目前來看,我們很多的大數據分析方法都主要是可視化的展現,統計分析,機器學習的技術;
再一個大數據可能在這種情況下,計算機領域也探討了很多,現在的以通用性考慮為主的IT體系很難滿足大數據的需求,有必要考慮對整個IT架構進行革命性的重構。
應用大數據
第三應用大數據有一些成功的案例我就不細說了,我做了一個分類,一類是互聯網類的,這主要是指公共平臺的,物聯網類主要是有助的,做的各種傳感器,組織業務是指每一個企業機構他們自己內部的以結構化數據為核心的融合的各種各樣的組織業務的數據。還有一個科學實驗的數據,大體分成這樣幾個。大家可以看到這幾類數據都有很多成功的案例,在這我也不細講了。
大數據應用,大家基本上認為有三個層次。
一個首先第一個層次只是關注到底當前發生了什么,把發展的態勢曲線給你描述出來,呈現發展的歷程;
第二是預測,能夠在當前分析的基礎之上,預測它未來可能會發生什么,呈現事物發展的這么一個趨勢。比如說流感的預測,奧斯卡的預測大概都屬于這類;
第三類就是所謂的指導性,指導性的就當前的態勢,如果你做一個動作,會產生什么后果,這就便于當前的態勢要做出決策,不僅是預測未來怎么樣,而是做一個動作以后,做一個決策以后,會不會影響未來的結果。
所以從當前來看我以為當前的大數據應用呈現這么幾個特點:
一個從應用層次上講,應該說描述性,預測性的應用還是比較多的,真正的指導性的應用偏少;
第二從數據源的角度,基于單一數據源的數據偏多,基于多態數據源偏少,有什么數據整什么數據,包括今天發布了很多題目,數據擺在這你找去,根據我的應用需求,我把各種數據柔到一塊這種應用也偏少,有時候前幾年看了很多競賽題目都不錯,真正呈現大數據分析的非常讓你眼睛一亮的這種特征的東西還是偏少,他沒有應用需求。
怎么根據我的要求找這種數據,這種應用偏少,當然對數據研究缺少數據源也是很重要的理論。從需求導向,也是根據我到底有什么問題,在問題里面我想解決什么問題,我提出解決方案,這樣的應用這種構建模型的應用也偏少,因此從這個意義上講,我以為大數據應用還僅僅在于初級階段,這也就是我剛才我講的,我們從現在開始,也許我們正在進入信息化的第三撥浪潮,這個階段會持續多少年,我不知道,但我樂觀的估計,大膽的揣測一下我相信應該有十幾,二十年,這也有一個依據,這個依據我在報告的時候也會講一個東西,經濟學上有一個傳播理論,每一個傳播大概是50年左右,包括早期的蒸汽機引領了50年,汽車也引領了50年,我們真正的信息領域引領這50年是從上個世紀50年代,以微電子網絡才開始,所以信息技術已經發展了幾十年了,真正在經濟里面占據主要的驅動力,也就從90年代開始,大家算算90年加50,我們可以到2014年所以在未來的20多年大體上還是IT的天下。
數據和智能
最后講講數據和智能,我們談的最多的是數據驅動的智能時代正在到來,我們來回顧一下人工智能,人工智能這個詞早期有非常明確的定義,他有它的做法,人工智能到現在為止也正在接受第三個高潮,早期的人工智能都是硬編碼,所謂的智能都是程序,就是高級程序設計,通過高級的編成方法,后來長期的發展還是走的基于規則的智能,實際上就是基于邏輯的,構建一個規則庫,構建一個事實庫,加上邏輯推理,當時人工智能里面也很長時間受到批評,認為人工智能沒有產生什么實際的效果,實際上有一批人工智能還是不錯的,就是專家系統,專家系統真正解決了很多當時存在的問題。
我覺得現在當前我們正在走的這撥人工智能,它和過去的做法是不一樣的,這是數據驅動的智能,它是利用機器學習,統計分析的方法從數據中自己向上發現規律,前期先構建規則,規則驅動它不太一樣,走的這樣一個途徑,今年最熱的就是阿爾法狗,在最難的棋內戰勝了人類,當時網上炒的很多很多,很多專家也沒出來說話,所以如果我說這個事情對于人類的威脅,我牙根就不認為它有什么威脅,他永遠是為做事的,大家想想過去每次技術進步,就把我們人類的勞動減少多少,機械把我們的體力勞動減少多少,不過就是計算把我們的智力勞動,很多煩瑣的勞動把它減少了,他離人工智能還遠的很。
最后談到一些若干概念,當前關于智能或者叫做人工智能,有很多提法,人工智能是最早的,一直在談,我一直認為人工智能是有它當初嚴格的定義的,過去人工智能做的東西,現在我們寫的人工智能技術,前沿技術我真的不認為所謂人工智能前沿技術是什么,有人曾經用過機器智能,這個走的路徑應該說是一種結合,但更多的還是基于規則的多一點。
現在也有人稱之為數據智能,我們叫做計算智能,李老師也談到了,是有一個狹義的定義的,神經網演化計算,曾經用過的詞,我們為什么用這個東西呢,我個人還是覺得數據驅動的智能,最終呈現智能的方式,還是算出來的。實際上本質上是把人的智能的問題,把它轉化成計算的問題,這個計算的問題要么是邏輯推理算的,有一個規則去驅動的,要么是通過數據處理的方式從數據里面弄的實際上它本身還不算是智能,所以我們為什么想選擇智能,我覺得這也挺好,我覺得站在計算領域的角度總希望用這個角度來說話,我講大數據的時候我曾經說過,我說大數據能夠出現是因為計算智能要解決它還得靠計算智能,甚至你說你可能有一個模型的方法出來能夠用量級的計算,但不管有多大的量級,沒有計算機,你人靠手算是永遠算不出來的,所以還得靠工具克服,因此還是計算問題,我們更傾向于把它叫做計算所產生的智能,當然是基于數據所產生的智能。
第二個問題是機器計算機真的能擁有人的智能嗎?
在座的大部分都知道,它不可能,現在又有一個說法,類人智能和類腦智能,我們現在國家在搞腦計劃,有內腦計算,我們現在的機器是沒有智能的,它是把人看成一個黑客,互聯網上提一個問題都有,這個智能是像人一樣,感知相對容易,認知且難且難,所以我覺得內腦智能應該是什么,我們真的把人的科學上的人腦的科學上的東西搞清楚了,然后模擬這個東西做一套東西,我覺得這叫內腦智能,給你一個行為,好像他能解決問題,只不過是靠計算機強大的計算能力,把一個所謂的這種問題變成了一個數據處理的問題,計算的問題而已。所以我覺得類人智能發展大體分成三個層次,第一個是傳統的人工智能走的路,一個軟件加上一個知識庫,在上面做推理,這是一種。第二種如果說我們能夠形成一個自演化的知識庫,要靠數據的方式解決,我從數據里面能夠不能不斷的凝練一些東西出來,知識庫能夠自己去增長能不能做到這一點,我想如果能夠做到這個,就能夠形成第二層次的智能,這個東西要從我們數據匯集里面得到想要的結果。
我想第三個層次,能不能自演化的軟件,加上自演化的過程,大家知道我們現在所有的軟件,一旦寫好以后,編譯結束以后是改不了的,自演化的軟件能夠機器自己改代碼可能嗎?現在肯定是不可能的,但我們也嘗試,比如說用數據的方法來改它有大量的軟件片斷存在,我能不能在某種特定的環境之下,解決軟件的一些行為的改變,這是一個夢,這個夢是計算機科學家長期的夢,過去軟件智能化就是想解決這個問題,但實際上沒有做成,那是走的規則方式未來這個如果能夠解決,我覺得類腦智能就更像,機器能夠改代碼,現在我們組織一個團隊想嘗試這個事情。
機器自己能夠改代碼,我想在我有生之年看不到了,從我本意來講也不希望這個情況出現。如果真的這個情況出現了,世界就大亂了,好,謝謝。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25