
三個常用數據分析模型的典型應用場景
為啥是這三個模型呢?因為這三個模型分別代表了數據分析的三種思路:分類,聚類,降維。
為啥沒有回歸?回歸我打算專門寫一篇,因此在本文中暫不涉及。
為啥只說應用場景?因為具體模型有很多專業書籍講的更好,而且我個人認為,模型是固定的,場景是多變的,知道什么時候該用什么模型,比會用這個模型更重要一些。
那么,接下來正文開始。
一、決策樹
定義:機器學習中,決策樹是一個預測模型;它代表的是對象屬性與對象值之間的一種映射關系。
個人認為決策樹最出名的應用應該是這個:
你們頭腦里隱藏的任何念頭,
都躲不過魔帽的金睛火眼,
戴上它試一下吧,我會告訴你們,
你們應該分到哪一所學院。
你也許屬于格蘭芬多,
那里有埋藏在心底的勇敢,
他們的膽識、氣魄和豪爽,
使格蘭芬多出類拔萃;
你也許屬于赫奇帕奇,
那里的人正直 忠誠,
赫奇帕奇的學子們堅忍誠實,
不畏懼艱辛的勞動;
如果你頭腦精明,
或許會進智慧的老拉文克勞,
那些睿智博學的人,
總會在那里遇見他們的同道;
也許你會進斯萊特林,
也許你在這里交上真誠的朋友,
但那些狡詐 陰險之輩卻會不惜一切手段,
去達到他們的目的。
分院帽應用的是個非常典型的決策樹模型(什么鬼),在上文的《分院帽之歌(節選)》中,我標粗的每個部分都可以認為是一個特征,帽子往學生頭上一扣,讀取學生的顯著特征,然后分到某個類別里。所以你看,哈利波特一開始表現出來的特征都是格蘭芬多的特征,但他畢竟是個魂器,分院帽讀取數據時候發現這個人有兩類顯著特征,于是猶豫不決,最后還是波特自己提出了要求,這就證明應用模型時的人工干預必不可少(大霧)。
言歸正傳,決策樹在實際工作中基本應用于給人群分類,最好的應用場景是要把人群分為互斥的兩類,并找到兩類人群的不同特征。當然,分為多個互斥類別也OK。
一個非常典型的場景是流失模型,對電信業來說,通過用戶的行為來提前找到哪些人有流失風險,并通過專門優惠等手段挽留,是運營中的重要部分。之前我在轉入互聯網行業時,第一選擇本來是游戲公司(可惜愿意收的給不起合理工資……),因此研究了一下游戲用戶流失模型的內容,發現跟電信業有相通之處。舉個例子,對于某款端游,定義超過一周不登錄用戶為流失,那么做過的任務、拿到的裝備、打過的副本、充值金額等等,都可以作為預測用特征,比對流失與非流失用戶,找到兩者的區別,在關鍵流失節點上加一些運營策略來減少流失。
二、k-means聚類
定義:k-means聚類的目的是:把n個點(可以是樣本的一次觀察或一個實例)劃分到k個聚類中,使得每個點都屬于離他最近的均值(此即聚類中心)對應的聚類,以之作為聚類的標準。
K-means聚類的好處在于樣本量大的時候,可以快速分群,但需要在分群后注意每個群體的可解釋性。換句話說,給你一萬個人,分成四群,需要能夠解釋每一群人的突出特征,如果有兩群人的特征很相似,那就要重新分群了;或者有一群人的特征不明顯,那就要增加分群了。
聚類與分類不同,分類的目的是得到可復用的規則,使得訓練集以外的個體可以直接分到已知的類別里;聚類屬于后驗的研究,是對已有個體的辨別。當然聚類可以在一定條件下轉化為分類,例如K-means里知道了每類的中心,那么新個體可以依據和每類中心的距離,來判斷所屬類別。但通常情況下,聚類方法本身仍是用于研究的次數更多。
K-means常用的場景是在不清楚用戶有幾類時,嘗試性的將用戶進行分類,并根據每類用戶的不同特征,決定下步動作。一個典型的應用場景是CRM管理中的數據庫營銷。舉例,對于一個超市/電商網站/綜合零售商,可以根據用戶的購買行為,將其分為“年輕白領”、“一家三口”、“家有一老”、”初得子女“等等類型,然后通過郵件、短信、推送通知等,向其發起不同的優惠活動。
明尼蘇達州一家塔吉特門店被客戶投訴,一位中年男子指控塔吉特將嬰兒產品優惠券寄給他的女兒——一個高中生。但沒多久他卻來電道歉,因為女兒經他逼問后坦承自己真的懷孕了。塔吉特百貨就是靠著分析用戶所有的購物數據,然后通過相關關系分析得出事情的真實狀況。
這個案例也算是與”啤酒和尿布“知名度差不多的一個案例。在這個案例中,那個高中生少女明顯是被聚到了孕婦那一類,因為她的行為模式與孕婦是很相近的。
(決策樹也可以做這件事,但需要先定義出特征,因此在探索特征未知的領域時,聚類可能更好用一些)
順便說一句,我原先在國企的時候干的就是這個事,而且發送渠道是最土的那種……平信……術語叫數據庫商函……也叫直復營銷(不是直銷也不是傳銷?。?。
三、因子分析
定義:因子分析是指研究從變量群中提取共性因子的統計技術。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質的變量歸入一個因子,可減少變量的數目,還可檢驗變量間關系的假設。
之前說到因子分析是降維的一種方式,而降維歸根結底就是一句話:變量太多的時候,需要將變量重構成帶有更多信息的新變量,新變量與原始變量之間存在相關性,這樣才能在不損失太多原始信息的情況下減少變量數量。
因子分析的一個典型應用場景是滿意度調查。通過市場調研方式獲取消費者滿意度時,通常會有兩位數的問題來了解消費者對哪些方面滿意,哪些方面不滿意,這個時候因子分析就很重要,可以將消費者的問題歸結為相對較少的幾個大問題方向,同時也可以看出哪些問題更為重要,需要優先解決。cda數據分析師培訓
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23