關于大數據與人工智能的未來
看過幾本大數據的書,吳博士這本,思路清晰,可讀性強,于是,我不辭辛勞,從23萬余字的著述中,摘要5千余字,試圖厘清和記憶,并以此為基礎拓展閱讀。比如,李彥宏的《智能革命》,讀起來,就有點“打腦殼”。
科學發展進程:實驗科學,理論科學,計算機科學,數據密集型科學。
這是一個計算無處不在、軟件定義一切、數據驅動發展的新時代。
以蒸汽機發明為標志以機械化為
特征的第一次工業革命,以電的發明為標志以電氣化為
特征的第二次工業革命,以計算機和半導體芯片為標志的信息革命,以大數據應用為標志之一以智能化為
特征的新一輪產業革命到來。
用不確定的眼光看待世界,再用信息來消除這種不確定性(是宇宙的特性),是大數據解決智能問題的本質。信息熵是基石。
機器智能革命的發生來自大數據量的積累達到質變的奇點。
計算機之所以能戰勝人類,是因為機器獲得智能的方式和人類不同,它不是靠邏輯推理,而是靠大數據和智能算法。下圍棋看似智能型問題,從本質上講,是一個大數據和算法問題。
開發一種
機器學習的工具,讓計算機能夠解決智能型問題。Google所做的工作是讓這些算法能夠在上萬臺甚至上百萬臺服務器上并行運行,這就使得計算機解決智能問題的能力有了本質的提高。AlphaGo的獲勝,宣告了機器智能時代的到來。
AlphaGo的靈魂是計算機科學家為它編寫的程序。機器不會控制人類,但是制造智能機器的人可以。
未來的社會,屬于那些具有創意的人,包括計算機科學家,而不屬于掌握某種技能做重復性工作的人。
數據:文字、圖片、視頻、影像、設計圖紙、文物文字圖示尺寸材料、宇宙中的基本粒子等等。范疇很大。
數據與信息,有相通之處,但是不同。信息是關于世界、人和事的描述,比數據抽象??梢允侨祟悇撛斓?,也可以是天然存在的客觀事實,比如地球的面積和質量。有些信息藏在事物背后,需要挖掘和測量。西方物理學家看來,上帝在創造這個宇宙時,將很多信息埋藏在了黑暗之中,他們的工作就是找到這些信息,并且用數據描述清楚。數據的最大作用在于承載信息,但不是所有數據都承載了有意義的信息。那些有用的數據、毫無意義的數據和偽造的數據常?;煸谝黄?,后兩種數據會干擾信息獲取,如何處理數據,過濾掉沒有用的噪聲和刪除有害的數據,從而獲得數據背后的信息,成為一種技術甚至是藝術。
數據是文明的基石;相關性是使用數據的鑰匙;統計學是點石成金的魔棒;數學模型是數據驅動方法的基礎:什么樣的模型及模型參數是多少。數據量要大,樣本必須非常具有代表性??梢宰畲蟪潭壬系靡嬗谟嬎銠C技術的進步。數據成為下一次技術革命和社會變革的核心動力。
核心是變智能問題為數據問題。智能革命。
機器智能:圖靈測試。語音識別,機器翻譯,文本的自動摘要或者寫作,戰勝人類的國際象棋冠軍,自動回答問題。
鳥飛派:人工智能1.0。機器像人一樣思考,按照人的思路去做。仿生學。飛機,空氣動力學。
傳統人工智能與現代(比如數據驅動、知識發現、
機器學習)的區分。工業界另辟蹊徑:統計+數據。數據驅動+超級計算。賈里尼克,通信專家,認為語音識別不是一個人工智能問題,而是一個通信問題,編碼,傳播,解碼過程。數據創造奇跡:量變到質變,Google翻譯。用上萬倍數據,訓練出六元模型,可以構造整個從句和復雜的句子成分之間的搭配,直接對譯?;ヂ摼W出現,各個數據領域不斷向外擴展,開始交叉,各個維度的數據從點和線逐漸連成了網,數據之間關聯性極大增強,這樣就出現了大數據。
大數據的
特征:體量大,多樣性(多維度),及時性(全面性、完備性)。Big
Data.一種思維方式的改變。變智能問題為數據問題。對大數據重要性的認識不應該停留在統計、改進產品和銷售,或者提供決策支持上,而應該看到它(和摩爾定律、數學模型一起)導致了機器智能的產生。決定今后20年經濟發展的是大數據和由之而來的智能革命。
在無法確定因果關系時,數據為我們提供了解決問題的新方法,數據中包含的信息可以幫助我們消除不確定性,而數據之間的相關性在某種程度上可以取代原來的因果關系,幫助我們得到我們想知道的答案,這便是大數據思維的核心。
機械思維。思維方式決定科學成就。世界變化的規律是確定的,規律可以被認識,而且可以用簡單的公式或者語言描述清楚,放之四海皆準,可以應用到各種未知領域指導實踐。工業革命,機械思維的結果。
世界的不確定性。影響世界的變量非常多;客觀世界本身是不確定的。
熵——一種新的世界觀??藙诘?香農。在信息論中借用了熱力學里熵的概念,用熵來描述一個信息系統的不確定性。信息量與不確定性有關。香農第一定律:信源編碼定律,對于信源發出的所有信息設計一種編碼,那么編碼的平均長度一定大于該信源的信息熵,一定存在一種編碼方式,使得編碼的平均長度無限接近于它的信息熵。比如漢字編碼,把最短的編碼分配給最常見的漢字。香農第二定律:信息的傳播速率不可能超過信道容量。擴展帶寬。最大熵原理:當我們要對未知事件尋找一個概率模型時,這個模型應當滿足我們所有已經看到的數據,但是對未知的情況不要做任何主觀假設。被廣泛應用于
機器學習。
大數據的本質:體量大,多維度(
互信息;交叉驗證),完備性(交叉熵,對兩種概率模型代表性或者一致性的一種精確的量化度量。小概率事件,是數據驅動方法的死穴,黑天鵝效應。)
從因果關系到強相關關系。
數據公司Google.當整個搜索行業都意識到點擊數據的重要性后,這個市場上的競爭就從技術競爭變成了數據競爭。各公司的商業策略和產品策略都圍繞著獲取數據、建立相關性開展。在Google內,點擊模型的使用標志著工作方法從傳統的“遵循因果關系”,逐步變成了“尋找相關性”。Google的廣告系統每次播放什么廣告,不是由任何規則決定的,而完全是利用數據、挖掘相關性的結果。大數據思維和機械思維并非完全對立,更多是對后者的補充,新時代的新方法論。
大數據與商業。巨大的商業利好:相關性、時效性和個性化的重要性。
大數據商業的共同點——盡在數據流中,把控每一個細節。2001年,普拉達的衣服價牌里藏著一個RFID芯片,智能試衣間,看到穿的效果,看到是由于設計、制作、還是銷售環節的問題。金風公司,風力發電機,利用互聯網,將發電價的各種數據(地點、發電量、運行情況)全部收集到公司,進行
大數據分析,可以了解各種宏觀信息,也可以有針對性進行
市場推廣;同時了解每一臺發電機運行細節,有問題及時解決,也有改進依據。經營策略從依賴市場預測、打價格戰,提升為高質量的服務商。
重新認識窮舉法——完備性帶來的結果。商業上,大數據不僅便于掌握大局和每一個具體細節,而且改變了人們開發產品和解決問題的思路,這些做事方法的變化很大程度上是大數據的完備性帶來的。Google的自動駕駛汽車,把自動駕駛汽車這個看似機器人的問題變成了一個大數據問題。街景項目的延伸,只能去“掃過街”收集到非常完備信息的地方,直接調用數據進行參考。十多個傳感器,每秒鐘進行幾十次各種掃描,同時大量的數據要在短時間內處理完,計算壓力很大,與Google超級數據中心相連,整體數據量及計算能力遠超其他公司。Google擁有最好的全球
地圖數據。交通事故的發生是因為數據的缺失,一個小沙袋,沒見過,試圖繞道,但沒有方向盤,無法人為控制。大數據多維度的優勢,讓Google趕超很多全球著名的汽車公司。
大數據的作用:新技術+原有產業=新產業?,F有產業+大數據=新產業;現有產業+機器智能=新產業。
技術改變商業模式,導致社會生活方式的變化。加(+)大數據締造新產業。智能冰箱。小米與格力。小米是以互聯網公司方式來經營手機業務。手機只是獲得用戶的手段,獲得后,需要通過其他方式掙錢,配件,可穿戴設備,其他產品線。以家電為主的垂直電商,注重對用戶行為分析及數據作用,有可能在一些垂直領域做得比傳統電商更有效。格力,傳統家電企業典型代表,如果不利用大數據轉型,非常危險,可以通過一些產品跟蹤技術,采集用戶數據,不再受經銷商控制。未來,商家將在數據層面和智能化方面展開競爭。
技術挑戰:數據量爆炸式增長。產生、存儲、傳輸、處理。產生:電腦、傳感器(射頻識別芯片,跟蹤物品)、過去信息數字化,網絡用戶個人數據。存儲:郵箱、日志、半導體的固態存儲器(SSD)容量增加成本下降。傳輸:第四代LTE有效傳輸率達到2-10MB/s,WIFI、藍牙標配,數據可以迅速傳輸到服務器。處理:多維度、并行化處理,交換機及網絡速度必須非???。
云計算興起?;ヂ摼W、廉價服務器、比較成熟的并行計算工具,實現了大規模并行運算,大
數據處理成為可能。
數據收集:看似簡單的難題。沒有前提與假設。沒有目的性,全面的數據。間接收集,利用相關性導出自己想要的信息。
數據存儲的壓力和數據表示的難題:數據量增長的速度高過存儲設備的發展速度,并且差距拉大。需要技術解決方案提高存儲效率。存儲同樣的信息占用空間小,非簡單數據
壓縮。
數據安全,不丟失、不損壞。3+1份拷貝。怎樣存儲便于使用。重新設計通用、有效、便捷的數據表示方式和存儲方式。數據建立
索引,醫療、半導體設計、飛機制造等數據量大且復雜,隨機訪問較難。還有如何標準化
數據格式,便于共享。要先解決數據的表示、檢索和隨機訪問等問題。Google的Protocol
Buffer
數據格式,開源共享。
并行計算與實時處理:并非增加機器那么簡單。從根本上改變系統設計和算法。
數據挖掘:機器智能的關鍵。過濾和處理。去除無關維度,有關數據內容格式化整理。噪聲。信噪比高,數據才可靠。
機器學習。人工
神經網絡、最大熵模型、邏輯自回歸等。不斷迭代、不斷進步,不斷優化。
深度學習工具。人工
神經網絡并行實現。將一個很大模型的上百萬參數同時訓練的問題,簡化為能夠分布到上萬臺甚至更多服務器上的小問題,使得大型人工
神經網絡訓練成為可能。專門做
機器學習的公司,為需要使用大數據和機器智能的公司提供服務。
數據安全的技術:不損壞不丟失,不會被偷走或盜用。盡量將敏感信息放到不同地方。文件系統與操作系統的改進。利用大數據本身的特點,來保護大數據的信息安全。發現并防止異常操作。
保護隱私:靠大數據長期掙錢的必要條件。在乎自己的隱私還是希望獲得更多的便利性。技術與法律層面。需要新的技術保護隱私。預處理及雙向監視。
未來智能化產業:
農業,以色列人在干旱的土地上實現了高產,歐洲廚房??萍寂d農,滴灌技術,將水和肥料直接送達植物根系,大大節約水和肥料;自動化灌溉系統,大量傳感器,節省人力及水資源。
體育:大數據定制球隊風格與戰術。動作姿勢糾正,僅靠天賦與苦練不足以取得好成績。
制造業:全面智能化,產品個性化定制。商品設計與研發、生產、倉儲與物資管理、物流與運輸、批發和零售,智能化管理降低各環節成本。特斯拉重新定義汽車行業,引入大數據和機器智能后脫胎換骨,新行業。
醫療:增進健康,延年益壽。醫療成本高昂。藥品研制周期長、費用高;醫務人員培養成本高。大數據診療,醫學影像分析,手術。失誤低,
準確率高,穩定性好。解決醫療資源短缺問題。制藥業革命?;虮葘?,大數據發現導致癌變組合,個性化特效藥,治療癌癥。阿爾茨海默癥。大數據醫療保健公司。找到導致衰老的基因,修復身體細胞復制時出錯的基因,延年益壽。標準人類醫療數據庫,5000人全部生理和醫療信息?;蚓庉嬇c修復技術。
律師:數據之間強相關性證據,案例分析。高昂的律師費。
自然語言處理和信息檢索技術,計算機閱讀和分析法律文獻。律師效率提高500倍,打官司成本可以下降99%。
記者與編輯:財經新聞、財報速評,機器寫作。機器從大量文本語料中學習寫作。
智能革命和未來社會:
最好的時代,最壞的時代。智能、精細、人性化。
智能:造福人類同時,對人類社會的沖擊及社會問題產生,要有所準備。減少擁堵踩踏,優化城市交通,智能出行,合理利用交通資源,如道路及停車場。實時流量及未來流量預測,調整交通信號燈時間。大數據反恐。
精細化:通過區塊鏈和FRID技術,跟蹤每一件商品從制造到被消費的完整行蹤。
個性化:醫療及服務。
無隱私社會:移動互聯網(萬物聯網)、大數據、機器智能三者疊加,導致我們不再有隱私可言。生活細節方方面面的隱私。淘寶送來的假貨,機票總是貴20%,健康與醫療,可能被拒絕投保。我們本身就是主動的隱私泄密者。APP,WIFI,服務商。大數據威力,多維度信息,人物畫像;機器智能挖掘;公司的善意靠不住,強權政治。隱私就像自由,只有當人們失去它的時候,才知道它的可貴。
機器人搶掉人的飯碗:讓更多的人無事可做,技術革命對社會的沖擊,大約半個世紀甚至更長時間才能夠消化掉。從工業革命到黃金時代,從第二次工業革命到鍍金時代,依然沒有消化完的信息革命。解決問題只能夠靠時間。被淘汰的從業人員能夠進入新行業的非常少。社會的動蕩,養著或者耗著。
智能革命的沖擊:信息革命本身的影響還沒有消化完,全球信息化的效率已經使得很多人無事可做,很少人生產出來的東西就夠全球人口消費。消化影響更難,全球沒有空白市場可以開拓。被替代的是人類的大腦。強度更大,影響面更廣、更深刻。農民到工人到服務業。低收入無收入人群出路在哪里?工作對現代人的重要性。很多人被社會進步拋棄了。怎樣創造出幾十億人的產業?怎樣讓所有人都有成就感和幸福感?
爭當2%的人:踏上智能革命的浪潮。不是機器控制人類社會,但是制造智能機器人的人就不同了!微信、淘寶、京東、滴滴,億萬用戶的生活衣食住行的細節的把控,掙錢不言而喻??此泼赓M的東西其實最貴,因為獲得服務的同時,交出了自己的自由。加入行列,利用好大數據及機器智能。傳統行業的人,心理上和觀念上的與大數據和機器智能的距離,遠遠大于技術上和商業上的距離。
空前挑戰的時代,振奮的時代,學會在機器智能超越人類的環境中生存。
CDA數據分析師考試相關入口一覽(建議收藏):
? 想報名CDA認證考試,點擊>>>
“CDA報名”
了解CDA考試詳情;
? 想學習CDA考試教材,點擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點擊>>> “CDA含金量” 了解CDA考試詳情;