熱線電話:13121318867

登錄
首頁精彩閱讀大數據的道、術、釋
大數據的道、術、釋
2016-07-09
收藏

大數據的道、術、釋

大數據的 本質是對效率的提升,是對精細化的追求。一上來就講到了大數據本質,有別于其他知識類的書籍。這本書更多的是從哲學思考的角度來組織“道”與“術”這兩部 分的。前言部分就提到了這一點:由于種種原因,大多數人都忙于日常生活的瑣事因此他們對于這世界的好奇心都受到了壓抑。同時,對于大數據統計,它也指出了 我們的現實:缺少的不是統計知識,而是如何應用技術的實務方法。同時,它提到一個對從事IT業人最重要的知識框架的概念:知識體系!如果不早日形成自己的 知識體系,所學知識和項目經驗就如向桌子上倒水,倒再多的水也積存不??!


論“道”

對于數據分析報告,分析就是論點,數據就是論據,兩者缺一不可。

數據分析的核心工作是人對數據指標的發析、思考和解讀,人腦所能承載的數據量是極其有限的。

數據分析的能力不只是掌握統計知識和算法模型,更多是對業務產品的認識、看法與判斷,這是很難量化的。

做好數據分析與學寫詩文一樣,真正的關鍵在技巧(統計技術)之外,而在于對業務的觀察、思考與感悟,即分析的思路。這一點很是認同,好的數據分析師不一定是一個好的技術人員,但一定是一個好的業務人員。對業務的把控要超越到技術的追求!

只有對業務有充分的調研與思考,才能產生有價值的分析思路。

這一部分,提到了兩個觀點很好,做數據分析人員最好要掌握一些經濟學與心理學的知識,只有這兩方面知識深厚的時候,我們對業務的前景把控才會更加的清晰明確。我們需要對人的心理訴求有較深刻的理解,需要從心理訴求去解讀數據,才能得到有效的結論。

如果我們熟悉經濟學和心理學,面對實際問題的時候,可以更深刻地看到數據背后的人性。

思考的重要性:思考本身也是一種實踐,使人對知識的掌握更加系統化的深入化。

如果沒有主動思考意識,光有經歷和環境,是不能使人成長的。

數據分析常用來驗證思路和啟發靈感,卻不能代表思考本身,而對業務的理解和判斷才是整件事情的靈魂。

業務分析的本質是對業務的全局認知、深入思考和超前判斷,數據分析只是輔助這種思考完成的手段(驗證思路和啟發思路)。

人對事物的認知并沒有絕對概念,只有相對概念。

以自己的所見所聞為判斷依據是人類的天性,但如果我們的所見所聞只是真實世界的一個抽樣,那么需要有足夠的理性跳出自己的圈子,以更加宏觀、總體的統計數據來認知世界。

過于復雜的理論大都是人類沒有掌握真正的本質規律。這一點非常好,我們很多時候,總是想把大數據講是十分高深,艱澀難懂,但是真正的高手會將這些知識以我們熟知的生活小常識來講解明白,所以說,真正的知識,若你不能夠很清晰的講解明白,可能是講解者對知識的理解仍不到位。

無論制作項目匯報還是分析報告,第一要務是展現形式要最大程度地輔助觀點表達,而美觀只是末節。

老板最關心的是工作成果(產品業績),其次是產品或技術方案,最不關心的是進行了哪些嘗試,以及嘗試的過程。所以,在匯報工作果,第一就是展現你的成果,其次是過程,最后才說你的困難及解決思路。

沒有任何一個數據分析項目的目標是做“數據分析”,而是以數據分析為手段,圍繞一個“明確主題”得出結論。

做好數據分析的關鍵不在于統計技術的應用,而在于對業務的思考和分析。這一個第一部分的點睛之句,可以說,它也道出了大數據分析的核心本質?,F在世面上,很 多的大數據公司,不是說他們的技術不好,不優秀。而是他們對業務的理解沒有行業內的人熟悉。這就導致了技術分析達標,但業務仍沒有較大增長的根本原因。

本章最大的收獲就是認識到業務的重要,大數據分析只是輔助。其中,經濟學與心理學是對你理解相關業務會有很大的幫助。

論“術”

術” 的這一部分,一共有四章,分的也很細。講的很透徹,看完這些內容。進而對生活中的一些例子開始有了思考,例如:淘寶廣告推薦,Uber,滴滴的基于最短路 徑推薦,等等。以前覺得算法這個神秘的東西離我們很遠,但現在看來,就在于我們的生活中,只不是統計人的思考維度是跟我們一般人是不一樣的。但同時,以 “道”御“術”,只有明確什么是優秀的數據分析,才能使我們這一部分的武器發揮出效力。

第 二章上來就是要我們學會獨立思考,去思考為什么?本書在這里就提到:“是什么”的形式并不重要,關鍵點是我們做這些事情所持的“本心”!這里提到了直方 圖,標準差,相關系數,準確率,召回率,這些曾經難懂的知識點,而本書的好處都是從我們身邊的故事講起的。這樣就更有利于我們對于這些指標的理解。透過這 些基本概念的分析,我們要養成一種思維方式。

然后又講到了統計圖形,為什么要用圖形化來展現我們的數據,因為一圖勝千言!

人腦對圖像信息的捕捉能力和記憶能力比文字強很多,畢竟文字這種“表意符號”比較抽象,屬于后天習得的知識關聯,而處理圖像信息則是人類與生俱來的能力。

而這一部分的目標原則與極簡原則又是對可視化有了一個好的提醒,這樣也是我們日后避免只追求炫而忽略有圖表的本質問題。雖然圖表是為了輔助表達觀點而存在的,但也不能為了表達觀點而故意扭曲圖形。

決策制圖要分三個步驟:拆解內容維度、確定圖形類型 、選擇表達方式!

第 三章開篇就提出了一個比較讓人深思的問題:我們能相信統計嗎?實際上,延伸一點,就到我們的生活中,我們只不過是真實世界的一個抽樣,所以不要輕易批判他 人的世界觀!在這一章節里,它里邊提到一個大數定理:真正的上帝沒有這么刻薄,他在抽樣統計值和真實值之間設置了一種函數關系,該函數關系使得統計學習在 一定程度上是可行的。這也就是所有編程函數的基礎:都是一種基于概率的信任!但在前期沒有任何數據積累時,會請相關領域專有根據經驗知識制定一套規則系 統,而不是去挖掘少的可憐的樣本數據。

樣本量越大,抽樣統計值就越接近事物的真實程度。 其中感觸最深的是里邊人才市場與價格曲線的關系。你可以不成功,但你不能不成長,也許有人會阻礙你成功,但沒人會阻擋你成長。

上帝不擲骰子,因果律依然存在,不確定性只是因為人類的無知。

當影響一個事物結果的各種因素隨機發生,根據中心極限定理,它們的總和平均表現就是正態分布。

如果說傳統統計學更多研究如何從抽樣個體的統計指標去推測全體,那么今天的統計學則更多關注如何把全體數據在置信的前提下盡量拆細,得到更細致的個體結論。

對于本章提出的問題:我們能相信統計嗎?在本章的最后給出了答案:對于統計結論,我們要基于概率的信任 ,中有當置信概率足夠大的時候,才可以相信統計結論。

本章提出了一個“思考為什么?”的五步方法論:

1,以簡為始,不斷優化

2,理想藍圖,逐漸逼近

3,觀察典型,啟發思路

4,分清主次,化繁為簡

5,需求出發,貼近應用

第四章是在2,3章的基礎上的靈活運用,如何拆相關指標,并應用于生活中。這一章尤為重要!上來就講到一個優秀的統計學家不等于一個出色的數據分析師。而要真正做好數據分析,只能是既懂統計技術又熟悉業務、掌握分析方法、又有豐富分析經驗的人。

ARPU:客戶平均消費水平

數據分析更深一層的意義就是:反映一個人對所從事工作的認知和思考能力!

樣本與總體的關系:用個案啟發思路,用統計得到結論。

在可樂與比薩的數量曲線里,隱含了一個非常隱晦的經濟價值:針對不同的的消費群體,以同樣的成本提供不同價值配比的產品,可以實現更多的用戶體驗價值。

商家的固定思考:只有價格敏感的人才忍到每年的限定時間囤貨,不在意花銷的富人是不做壽 這樣麻煩事的。

在慣于炒概念的世界中,保持一份清醒的認識。畢竟,內在本質比外在概念要少得多。

資深數據分析人員的核心能力在于豐富的知識面帶來的思考角度和分析方法。

第五章個人認為是比較落地的一章內容。主要講到OLAP跟機器學習,這里講到OLAP跟OLTP的差別,OLTP更多的是讀取數據后的存儲,而OLAP更多的偏重于分析,OLAP的主要應用是匯總分析較高層的統計數據,而不是直接處理龐大的原始日志。

在數據探索階段使用無監督學習的場景較多,而在數據建模階段使用監督學習的場景較多。

無監督算法并不真的不需要人的指導和監督,只是監督不以“提供樣例樣本”的形式出現。

一流的數據建模解決方案通常是策略算法人員與工程架構人員通力配合的結果。深入的編程技術和架構設計能力已經極大的影響了機器學習的建模效果,所以在一流的機器學習團隊,策略模型和工程架構兩種人員有合并的趨勢。

算法工程師的核心競爭力:深入理解業務、產品和數據,尋找模型和他們的結合點,的確是算法工程師的核心競爭力。

關于機器學習

在工業界做機器學習的應用,不僅要掌握模型算法,還要看清企業面臨的市場機遇,將算法模型放在業務戰略的角度進行評估。

機器學習變成一個業務和技術并重的交叉學科,真正做好它還需要更多的實踐。

機器學習模型背后的原理是知識表示+統計學習,而不是像人一樣真的在理解和思考。

論“釋”

這一部分,更多的是從業務角度,或是從當下社會經濟角度來說大數據的。

第六章內容,主要講大數據時代,經濟引導一切的條件下,要明白大數據的經濟價值。在這個經濟社會,如果大數據有經濟價值,相信各種配套技術會層出不窮的涌現。一切不談具體應用的大數據技術都是耍流氓!

醫療:大數據的價值類似于收集到足夠多的病例,對于每一個病人,均可以找到數量眾多的相似病例,那么對病人的病情分析和治療方案會準確、有效得多。

互聯網:沒有無價值的流量,只有錯誤的匹配!

教育:  針對學生制定個性化的學習計劃,需要數據建模。首先,構造個性化學習路徑的優化目標“學習收益/學習成本”。其次,基于用戶的特征和歷史學習記錄形成訓練樣本,每個樣本標注了學生的背景信息。

差異化定位與品牌:品牌對業務的幫助是潛移默化的,是企業重要的隱性資產。

新進入一個市場,最好的方法不是與明確的競爭者拼搏相同的產品,而是選擇差異化的產品定位,或者干脆尋找顛覆這個市場的機會。

你雖然很強大,但我要估的和你不一橛,你的強大就與我無關。

政府提出“大眾創業,萬眾創新”后,真正能大眾創業的行業只有互聯網一個!

流量優勢是一個偽優勢,因為流量可以用資金買到!

產品保證存活,沒有需求就沒有市場;技術提供壁壘,沒有核心技術的產品大都難以長久!

大數據技術是一套數據+業務+需求的完整解決方案。思考關鍵不在于數據技術本身,而在于能否收集到足夠多、有價值的數據,以及找到適合數據技術的業務應用,即從鏈條的兩端向中間思考。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢