
以下為演講實錄:
李德毅:各位同仁,尤其是年輕的IT工作者們,很高興在這里跟大家分享我對云計算和大數據的一些認識。我的報告題目是“大數據挖掘”。
自從大數據引入了人們的視線之后,人們普遍講的是三個字“大數據”。它講的是PB時代的科學,本質上大數據的挑戰是PB時代的科學的挑戰。在這么一個大數據時代怎么做數據挖掘呢?
人們用很多的面來形容大數據,其實大數據的主要來源有三個方面,第一就是這個地球,自然界的大數據,這么多的衛星繞著地球轉,我們看看每天要下載多少數據量?生命大數據、生物大數據,尤其是每一個人體的大數據也是一個重要的來源。對于我們IT工作者來說,我們更關心的是社交大數據,每天你拿著手機、拿著筆記本來回折騰了半天,這些數據對你起作用了嗎?
PB時代對科學的挑戰更是對包括數據挖掘在內的認知科學的挑戰。奧巴馬就職演說當中,每一個人后面都有大數據的支撐,我點到誰,你就能告訴我他的大數據嗎?一個人,一個社會的活動人非常了不起,他有他的身份、情感、職業、年齡、性格等等,假如現在給你一張全家福,你能不能從他們的人臉識別當中告訴我誰是兒媳婦、誰是女婿?
這么多人臉下,怎么把人臉識別清楚呢?現在我們北京市有80萬個攝像頭,每天照著我們大家,我們可以利用攝像頭做身份認證、年齡識別、情感計算、親緣發現、心理識別、地區識別、民族識別,都很有用處。這種流媒體主要的形態是非結構化的,特征之間的關聯關系、設備算法的準確率等等,都嚴重的制約著大數據人臉挖掘的進度。
由技術推動的計算機發展
那么怎么辦?我們還是要回歸一下計算機所發展的歷史,1936年天才數學家圖靈提出來一個圖靈模型,后來有一個計算機,把圖靈模型轉化為物理計算機,有三大塊,一塊叫做CPU,操作系統,還有一大塊叫做內存和外存,還有一塊就是輸入和輸出。在計算機發展的頭一個30年里,我們感興趣最多的是CPU、是操作系統,是軟件、是中間件、是應用軟件。這時候代表信息技術發展速度的可以用摩爾速度來表示,它告訴我們微電子發展是18個月可以翻一番的,所以我們側重于計算性能的提高,我們把這個時代叫做計算時代,計算,尤其是高性能計算機,人們花了很大的精力研究,它帶動了存儲,也帶動了輸入輸出,這個時間大概用了三四十年。計算領先、存儲交互也跟著發展。
在這樣一個計算領先當中,我們主要做的是結構化數據的挖掘,我們要提起一個偉大的學者,他的名字叫埃德加,他在1970年提出一個關系模型,用二維表形式表示實體與實體間的聯系。三四十年來,各行各業的數據庫和數據倉庫技術,以及從數據庫發現知識的數據挖掘成為巨大的信息產業。關于數據庫之父,美國工程院院士獲獎了1980年的圖靈獎,他這篇論文是1970年寫的,講的是共享數據銀行的關系。關系數據庫有嚴格的頂層設計,為構造良式關系,必須消除元組中不合適的依據依賴。我們每一個IT計算機本科生都學過這樣的技術,對這樣的關系運算,結果仍然是關系。
關系代數是關系數據庫的形式化理論和約束,先有頂層設計和數據結構,后填入清洗后的數據。數據圍繞結構轉,數據圍繞程序轉。用戶無需關心數據的獲取,存儲、分析以及提取過程。通過數據挖掘,可以從數據庫中發現分類知識、關聯知識,時序知識、異常知識等等。
隨著數據庫產業的膨大,人們對數據庫已經不太滿足了,于是把Databases說成是大數據,但是不管怎么大,遇到了兩個不可回避的挑戰,第一是由于關系代數的形式化約束過于苛刻,無法表示現實數據怎么辦?第二個挑戰,隨著數據量的增大,關系代數運算性能急劇下降,如果是一個TB的關系數據庫,兩個表做一個交易,要幾十個小時,人們忍受不了,這兩個挑戰就意味著心里方法的存在。就在這個時候,我們的存儲技術得到了迅猛發展,大家知道,存儲、內存、外存、硬盤越來越普遍了,當上海俞正聲書記提出1+TB的時候,這個錢誰來買單?現在我們可能都有一兩個TB,一個TB400塊錢就買到了,所以人類進入了搜索時代。搜索因為存儲便宜了,存儲的速度大概每9個月翻一番,這在中國也好、全世界也好,誰能干就多干一點活,所以存儲帶動了技術的腳步,這種搜索時代經過了20多年,于是我們進入了一個半結構化數據挖掘時代。這個時代代表人物就是萬維網之父Tim,他提出了超文本思想,開發了世界上第一個Web服務器,于是我們可以從一臺服務器上檢索另一臺服務器的內容,服務器在軟件支持下可發布包括文本、表格、圖片、音視頻的碎片化超媒體信息。
因此,客戶端服務器結構和云計算結構蓬勃產生,在這時候我們已經沒有了關于代數那樣嚴格的形式化約束,依靠的主要是規范、標準,所有媒體均以實體形式存在,甚至是軟件,實體通過超鏈接產生聯系。
形式化理論比關系代數寬松了許多,創建了靈活多樣的實體,這時候數據開始圍繞實體轉,實體圍繞鏈接轉。挖掘就是在云計算環境下搜索和個性化服務,沒有死板的查詢方式,也不是唯一結果,允許帶有不確定性,重視搜索的統計性質。各種各樣的關鍵字搜索引擎,語音、圖片、視頻搜索引擎在互聯網上出現了繁榮的內容服務。隨著這些服務的普及,又遇到了新的挑戰,千人一面的數字服務受到了質疑,如果同一個人問同一問題它不可改變,當一萬個人再問的時候,它可能有所改變,人們覺得這個還不好。
大數據時代技術的有效性要比科學的完整性更為重要
水不轉,云在轉。這是我報告的第二條。隨著互聯網貸款6個月翻一番的速度,它比9個月翻一番、18個月翻一番要快,你的帶寬有能耐就多起點作用,于是人類進入了交互時代,交互帶動著計算和存儲。
水不轉,人在轉。移動互聯網時代的大數據挖掘主要是網絡化環境下的非結構化數據挖掘,這些數據形態反映的是帶毛的、鮮活的、碎片化了的、異構的、有情感的原生態數據。
這種非結構化數據有什么特點呢?它常常是低價值、強噪聲、異構、冗余冰冷的數據,有很多數據放在存儲器里一輩子沒再用過。數據的形式化約束越來越寬松,越來越接近互聯網文化、窗口文化和社區文化,我們現在的青年人不要學什么東西,只要會玩手機,越玩越熟悉,因為他已經進入這個文化之中。
關注的對象也發生很大改變,挖掘關注的首先是小眾,只有滿足小眾挖掘需求,才談得上滿足更多小眾組成的大眾的需求,因此一個重要思想,就是由下而上勝過由上而下的頂層設計,強調挖掘數據的真實性、及時性,要發現關聯、發現異常、發現趨勢,總之要發現價值,但是它未必注重因果、未必注重主次、未必注重時序,更未必發現普遍的知識。
移動互聯網時代的大數據挖掘過程當中,數據的簡約具有自適應性,不必具有固定特征或者層次。許多年來,我的課題組提出一個方法,叫認知物理化方法,對128×128的象素組成的人臉,如果他們的數據場是等價的話,我們可以用28個特征點數據來等價這個流媒體數據。對另外一張人臉,它可以變成254個數據、59個數據,這是非常不同于結構化、半結構化的。
當前,深度學習也是一種數據自適應簡約,百度人工智能建設院的吳教授他們就開展了這方面的研究,如果我們在百度上用深度學習搜索一個人臉象素搜索,這么多人臉誰是誰?是他嗎?數據量急劇增加,各種媒體形態可隨意碎片化,組織結構和挖掘程序要圍著數據轉,程序要碎片化,并可以隨時虛擬重組,挖掘常常是人機交互環境下不同社區的發現以及社區中形成的群體智能,在非結構化數據挖掘中,會自然進行數據清洗和逐步強形式化,自然形成半結構化數據和結構化數據,以提高數據使用效率。
因此我們用網絡化的大數據挖掘方法,首先要是在這個復雜的人人都連網的情況之下找到一個特定問題的社區,因此由社區發現成為大數據發展的首要問題,要研究社區成員,就必須要研究他們之間的相連關系,要研究他們的交互形態,顯現的形態有評論、心情、收藏、購買、評分、頂踩、分享、轉載、加為好友、邀請等等,這些統計數據都成為我們挖掘的基礎。隱形形態有跳轉、瀏覽、翻頁、收聽、觀看、聊天、點擊、取消、會話中斷、黑名單等等。
交互的特點可以從頻繁性、增量性、主動性、廣泛性、多樣性、持久性去研究社區成員的連接強度。我們利用拓撲勢方法挖掘社區,我們還要發現在一個社區中,誰是一個領頭羊,誰是第二個領頭羊,成員的角色和重要性,成員之間的關系等等。
在現實生活中,人類的某個概念,或者世界的認知經過一段時間的反復交互、匯聚、修正、演化,群體形成趨于相對穩定的共識。合作編輯下的維基條目,社會化標注等都是這種過程中的生動再現。
群體智能是一個最近說得越來越多的詞,大家知道我們曾經在計算機上做一個圖靈測試,讓計算機區分哪些碼是人產生的,哪些是機器產生的,這是卡內基美隆大學提出來的,在網絡購物、登錄網站、申請網站時都會碰到適配碼被使用。這里我要提到第三個代表人物,他叫路易斯,他提出用這個適配碼應用方式。
路易斯提出能不能把129年的報紙掃描,把圖片碎片化,變成檢驗碼,讓大家去識別,這樣一來,如果每天有兩億個檢驗碼,從而一下子就把129年的紐約時報實現數字化,這就是群體智能。有些事情計算機做得很好,人做不好,有些事情人做得很好,很簡單,計算機做不好,怎樣把這兩個優勢加在一起呢?于是就有了群體智能。
所以云計算支撐大數據挖掘要發現價值的話,我們認為云計算本來就是基于互聯網的大眾參與計算模式,其計算資源是動態的,可收縮的,被虛擬化的,而且以服務的方式提供。 產生擺脫了傳統的胖配置帶來的系統升級開柙,更加簡潔、更加靈活多樣、個性化,手機、游戲機、數碼相機、電視機差別細微,出現更多iCloud產品,界面人性化個性化,可成為大數據挖掘的終端。
挖掘員支撐各種各樣的大數據應用,如果我們有數據收集中心、存儲中心、計算中心、服務中心,一定還有數據挖掘中心,這樣一來,我們就可以實現支撐大數據的及時應用和價值的及時發現。
云計算產生的眾包思想已經被大家接受,無論是電影行業,還是搜狗的輸入方法,還是攝影照片共享,還是T恤衫的設計購買,說明眾包是怎么樣完成生產購買的。因此我們可以設想,在互聯網環境下,利用人的認知和大眾間的交互,融合計算機存儲對大數據挖掘,形成群體智能,這樣一來,我們提出一個新的概念,叫眾挖,大家來挖。
用戶無需關心數據的形態,無需關心數據的獲取位置、結構模式、存儲方式以及分析過程,得到的就是及時的足夠滿意的挖掘結果,MaaS,誰是挖掘時代的谷歌呢?
大數據時代技術的有效性要比科學的完整性更為重要,如果說科學是解決形而上的問題,技術是解決行而下的問題的話,我們回顧一百年來的歷史,在上世紀的后半世紀,我們有了1930年的圖靈模型,1970年我們有了物理的計算機,80年代,我們開始了關系數據庫和產業,后來我們有了專家系統,在前50年大概都是科學引領技術發展,科學是技術先導?,F在情況發生了變化,云計算的形而上是什么呢?有人說是網絡科學,大數據的形而上是什么呢?有人說是數據科學。
數據結構的形式化約束由強到弱的演變非常明顯,70年代是強約束,后面的Web計算是半結構化約束,到現在我們用的這些微機、手機、物聯網傳感器,越來越弱約束,弱到什么程度?弱到我們這個社區文化的常識就可以了,就好象說我們在城市里交通行人靠右走。
所以,我的基本結論是大數據標志一個新時代的到來,這個時代的特征不只是追求豐富的物質資源,也不只是無所不在的互聯網帶來方便的多樣化的信息服務,同時還包含區別于物質的數據資源的價值挖掘,以及價值轉換,虛擬世界的信息價值挖掘導致更加精確的控制物理世界的物質和能量,以及由大數據挖掘帶來的精神和文化方面的嶄新現象。
于是,我們可以看一看從三四十年前的計算時代到二三十年前的搜索時代,到今天開啟的交互時代,我們依然會想起那英唱的那首歌,山不轉水轉,水不轉云轉,云不轉心轉,再深的巷子也能走出那個天,再大的數據也能繞過那道彎,謝謝大家?。ㄎ恼聛碓从?a target="_blank">CDA數據分析師)
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25