
大數據的道、術、釋
大數據的 本質是對效率的提升,是對精細化的追求。一上來就講到了大數據本質,有別于其他知識類的書籍。這本書更多的是從哲學思考的角度來組織“道”與“術”這兩部 分的。前言部分就提到了這一點:由于種種原因,大多數人都忙于日常生活的瑣事因此他們對于這世界的好奇心都受到了壓抑。同時,對于大數據統計,它也指出了 我們的現實:缺少的不是統計知識,而是如何應用技術的實務方法。同時,它提到一個對從事IT業人最重要的知識框架的概念:知識體系!如果不早日形成自己的 知識體系,所學知識和項目經驗就如向桌子上倒水,倒再多的水也積存不??!
論“道”
對于數據分析報告,分析就是論點,數據就是論據,兩者缺一不可。
數據分析的核心工作是人對數據指標的發析、思考和解讀,人腦所能承載的數據量是極其有限的。
數據分析的能力不只是掌握統計知識和算法模型,更多是對業務產品的認識、看法與判斷,這是很難量化的。
做好數據分析與學寫詩文一樣,真正的關鍵在技巧(統計技術)之外,而在于對業務的觀察、思考與感悟,即分析的思路。這一點很是認同,好的數據分析師不一定是一個好的技術人員,但一定是一個好的業務人員。對業務的把控要超越到技術的追求!
只有對業務有充分的調研與思考,才能產生有價值的分析思路。
這一部分,提到了兩個觀點很好,做數據分析人員最好要掌握一些經濟學與心理學的知識,只有這兩方面知識深厚的時候,我們對業務的前景把控才會更加的清晰明確。我們需要對人的心理訴求有較深刻的理解,需要從心理訴求去解讀數據,才能得到有效的結論。
如果我們熟悉經濟學和心理學,面對實際問題的時候,可以更深刻地看到數據背后的人性。
思考的重要性:思考本身也是一種實踐,使人對知識的掌握更加系統化的深入化。
如果沒有主動思考意識,光有經歷和環境,是不能使人成長的。
數據分析常用來驗證思路和啟發靈感,卻不能代表思考本身,而對業務的理解和判斷才是整件事情的靈魂。
業務分析的本質是對業務的全局認知、深入思考和超前判斷,數據分析只是輔助這種思考完成的手段(驗證思路和啟發思路)。
人對事物的認知并沒有絕對概念,只有相對概念。
以自己的所見所聞為判斷依據是人類的天性,但如果我們的所見所聞只是真實世界的一個抽樣,那么需要有足夠的理性跳出自己的圈子,以更加宏觀、總體的統計數據來認知世界。
過于復雜的理論大都是人類沒有掌握真正的本質規律。這一點非常好,我們很多時候,總是想把大數據講是十分高深,艱澀難懂,但是真正的高手會將這些知識以我們熟知的生活小常識來講解明白,所以說,真正的知識,若你不能夠很清晰的講解明白,可能是講解者對知識的理解仍不到位。
無論制作項目匯報還是分析報告,第一要務是展現形式要最大程度地輔助觀點表達,而美觀只是末節。
老板最關心的是工作成果(產品業績),其次是產品或技術方案,最不關心的是進行了哪些嘗試,以及嘗試的過程。所以,在匯報工作果,第一就是展現你的成果,其次是過程,最后才說你的困難及解決思路。
沒有任何一個數據分析項目的目標是做“數據分析”,而是以數據分析為手段,圍繞一個“明確主題”得出結論。
做好數據分析的關鍵不在于統計技術的應用,而在于對業務的思考和分析。這一個第一部分的點睛之句,可以說,它也道出了大數據分析的核心本質?,F在世面上,很 多的大數據公司,不是說他們的技術不好,不優秀。而是他們對業務的理解沒有行業內的人熟悉。這就導致了技術分析達標,但業務仍沒有較大增長的根本原因。
本章最大的收獲就是認識到業務的重要,大數據分析只是輔助。其中,經濟學與心理學是對你理解相關業務會有很大的幫助。
論“術”
術” 的這一部分,一共有四章,分的也很細。講的很透徹,看完這些內容。進而對生活中的一些例子開始有了思考,例如:淘寶廣告推薦,Uber,滴滴的基于最短路 徑推薦,等等。以前覺得算法這個神秘的東西離我們很遠,但現在看來,就在于我們的生活中,只不是統計人的思考維度是跟我們一般人是不一樣的。但同時,以 “道”御“術”,只有明確什么是優秀的數據分析,才能使我們這一部分的武器發揮出效力。
第 二章上來就是要我們學會獨立思考,去思考為什么?本書在這里就提到:“是什么”的形式并不重要,關鍵點是我們做這些事情所持的“本心”!這里提到了直方 圖,標準差,相關系數,準確率,召回率,這些曾經難懂的知識點,而本書的好處都是從我們身邊的故事講起的。這樣就更有利于我們對于這些指標的理解。透過這 些基本概念的分析,我們要養成一種思維方式。
然后又講到了統計圖形,為什么要用圖形化來展現我們的數據,因為一圖勝千言!
人腦對圖像信息的捕捉能力和記憶能力比文字強很多,畢竟文字這種“表意符號”比較抽象,屬于后天習得的知識關聯,而處理圖像信息則是人類與生俱來的能力。
而這一部分的目標原則與極簡原則又是對可視化有了一個好的提醒,這樣也是我們日后避免只追求炫而忽略有圖表的本質問題。雖然圖表是為了輔助表達觀點而存在的,但也不能為了表達觀點而故意扭曲圖形。
決策制圖要分三個步驟:拆解內容維度、確定圖形類型 、選擇表達方式!
第 三章開篇就提出了一個比較讓人深思的問題:我們能相信統計嗎?實際上,延伸一點,就到我們的生活中,我們只不過是真實世界的一個抽樣,所以不要輕易批判他 人的世界觀!在這一章節里,它里邊提到一個大數定理:真正的上帝沒有這么刻薄,他在抽樣統計值和真實值之間設置了一種函數關系,該函數關系使得統計學習在 一定程度上是可行的。這也就是所有編程函數的基礎:都是一種基于概率的信任!但在前期沒有任何數據積累時,會請相關領域專有根據經驗知識制定一套規則系 統,而不是去挖掘少的可憐的樣本數據。
樣本量越大,抽樣統計值就越接近事物的真實程度。 其中感觸最深的是里邊人才市場與價格曲線的關系。你可以不成功,但你不能不成長,也許有人會阻礙你成功,但沒人會阻擋你成長。
上帝不擲骰子,因果律依然存在,不確定性只是因為人類的無知。
當影響一個事物結果的各種因素隨機發生,根據中心極限定理,它們的總和平均表現就是正態分布。
如果說傳統統計學更多研究如何從抽樣個體的統計指標去推測全體,那么今天的統計學則更多關注如何把全體數據在置信的前提下盡量拆細,得到更細致的個體結論。
對于本章提出的問題:我們能相信統計嗎?在本章的最后給出了答案:對于統計結論,我們要基于概率的信任 ,中有當置信概率足夠大的時候,才可以相信統計結論。
本章提出了一個“思考為什么?”的五步方法論:
1,以簡為始,不斷優化
2,理想藍圖,逐漸逼近
3,觀察典型,啟發思路
4,分清主次,化繁為簡
5,需求出發,貼近應用
第四章是在2,3章的基礎上的靈活運用,如何拆相關指標,并應用于生活中。這一章尤為重要!上來就講到一個優秀的統計學家不等于一個出色的數據分析師。而要真正做好數據分析,只能是既懂統計技術又熟悉業務、掌握分析方法、又有豐富分析經驗的人。
ARPU:客戶平均消費水平
數據分析更深一層的意義就是:反映一個人對所從事工作的認知和思考能力!
樣本與總體的關系:用個案啟發思路,用統計得到結論。
在可樂與比薩的數量曲線里,隱含了一個非常隱晦的經濟價值:針對不同的的消費群體,以同樣的成本提供不同價值配比的產品,可以實現更多的用戶體驗價值。
商家的固定思考:只有價格敏感的人才忍到每年的限定時間囤貨,不在意花銷的富人是不做壽 這樣麻煩事的。
在慣于炒概念的世界中,保持一份清醒的認識。畢竟,內在本質比外在概念要少得多。
資深數據分析人員的核心能力在于豐富的知識面帶來的思考角度和分析方法。
第五章個人認為是比較落地的一章內容。主要講到OLAP跟機器學習,這里講到OLAP跟OLTP的差別,OLTP更多的是讀取數據后的存儲,而OLAP更多的偏重于分析,OLAP的主要應用是匯總分析較高層的統計數據,而不是直接處理龐大的原始日志。
在數據探索階段使用無監督學習的場景較多,而在數據建模階段使用監督學習的場景較多。
無監督算法并不真的不需要人的指導和監督,只是監督不以“提供樣例樣本”的形式出現。
一流的數據建模解決方案通常是策略算法人員與工程架構人員通力配合的結果。深入的編程技術和架構設計能力已經極大的影響了機器學習的建模效果,所以在一流的機器學習團隊,策略模型和工程架構兩種人員有合并的趨勢。
算法工程師的核心競爭力:深入理解業務、產品和數據,尋找模型和他們的結合點,的確是算法工程師的核心競爭力。
關于機器學習:
在工業界做機器學習的應用,不僅要掌握模型算法,還要看清企業面臨的市場機遇,將算法模型放在業務戰略的角度進行評估。
機器學習變成一個業務和技術并重的交叉學科,真正做好它還需要更多的實踐。
機器學習模型背后的原理是知識表示+統計學習,而不是像人一樣真的在理解和思考。
論“釋”
這一部分,更多的是從業務角度,或是從當下社會經濟角度來說大數據的。
第六章內容,主要講大數據時代,經濟引導一切的條件下,要明白大數據的經濟價值。在這個經濟社會,如果大數據有經濟價值,相信各種配套技術會層出不窮的涌現。一切不談具體應用的大數據技術都是耍流氓!
醫療:大數據的價值類似于收集到足夠多的病例,對于每一個病人,均可以找到數量眾多的相似病例,那么對病人的病情分析和治療方案會準確、有效得多。
互聯網:沒有無價值的流量,只有錯誤的匹配!
教育: 針對學生制定個性化的學習計劃,需要數據建模。首先,構造個性化學習路徑的優化目標“學習收益/學習成本”。其次,基于用戶的特征和歷史學習記錄形成訓練樣本,每個樣本標注了學生的背景信息。
差異化定位與品牌:品牌對業務的幫助是潛移默化的,是企業重要的隱性資產。
新進入一個市場,最好的方法不是與明確的競爭者拼搏相同的產品,而是選擇差異化的產品定位,或者干脆尋找顛覆這個市場的機會。
你雖然很強大,但我要估的和你不一橛,你的強大就與我無關。
政府提出“大眾創業,萬眾創新”后,真正能大眾創業的行業只有互聯網一個!
流量優勢是一個偽優勢,因為流量可以用資金買到!
產品保證存活,沒有需求就沒有市場;技術提供壁壘,沒有核心技術的產品大都難以長久!
大數據技術是一套數據+業務+需求的完整解決方案。思考關鍵不在于數據技術本身,而在于能否收集到足夠多、有價值的數據,以及找到適合數據技術的業務應用,即從鏈條的兩端向中間思考。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25