
如何利用市場細分方法構建更好的預測模型
我們使用線性或者邏輯回歸模型來開發精確模型,為了預測相關的輸出結果。我們經常為分割的部分分別創建模型。為了判斷它們的有效性,我們可以利用細分方法:如CHIAD或者CRT。
但是,這真的有必要嗎?我們可不可以創建一個單獨的模型和使它含有區融變量作為模型的輸入。
這可能可以。特別是根據市場細分創建細分模型可能是一件吃力不討好的事情,不值得。但是創建市場細分的相關模型可能能提供更精準的預測。
在本文,我不僅會針對上面的問題給出答案,而且會和大家分享有關模型的最佳市場細分指南。而且,本文也會探索利用復雜技術的市場細分模型方法,如在一個簡單的邏輯或線性回歸框架中使用隨機梯度增加模型和隨機森林模型(雖然使用起來非常有限)。
通過本文,讓大家了解建模流程的相互作用的本質和重復利用上述提到的復雜技術的優勢。
什么是市場細分?
我可以從市場的深度給大家解釋這個概念,但是,市場細分為什么能夠令復雜的事情簡單化呢?
因此,我將市場細分定義為:“在一些重要特性的基礎上劃分目標市場和客戶,可以幫助企業用更少的市場成本銷售更多的產品?!?
企業的預算是有限的。而且企業希望市場團隊可以在這樣的情況下完成大量的銷售,確保收入利益不斷增加。在有限的預算中,如何實現利益增收?答案就是:使用市場細分。
讓我們回到前面,了解企業是如何創造出人們愿意買的產品。
實際上,一個產品的創造有兩種方式:
1、經過對目標市場的需求進行分析研究后創建產品。舉例:電腦。像戴爾,IBM和微軟都是在分析了大量市場并得出電腦市場值得發展的情況下,才進入這個市場。
2、創建一個產品,能夠喚起目標市場的需求和渴望。舉例:iphone。沒有人知道他們需要觸屏手機,知道喬布斯令他們意識到自己被剝奪了這個需求。
一旦產品被創建出來,市場團隊離成功就更近了。上面提到的,他們利用了市場細分技術。這確保了產品定位在合適的客戶細分群體,可以實現更多的銷售。
市場細分技術
這兒有兩個廣義的市場細分方法:目標(有人監視的)和無目標的(無人監視的)市場細分方法。正如名稱所示,一個帶有監視的方法要求目標可作為市場細分來描述。
下面是一些有目標和無目標的方法案例。
目標市場細分:
市場細分確認客戶類型,哪些客戶對特別提供的產品感興趣。
市場細分確定客戶群眾中的高消費人群,誰可以使用電子商務進行刺激消費。
市場細分確定哪些客戶違反了貸款或者信用卡的信貸責任。
無目標的市場細分
客戶基礎的市場細分了解特定畫像,這些畫像存在于客戶基礎之中,因此多樣化的市場行為可以根據細分情況定制。
基于不同地域的人們的富裕程度和生活水平的地理市場細分,形成特定的銷售和配送策略。
基于瀏覽行為的網絡位置參觀者的市場細分,了解品牌的興起和受歡迎程度。
因此,創建基于目標市場細分的方法必須要從不同的方面入手 ,這是很關鍵的。(eg:響應要約)
但是,關于無目標的方法,根據各方面得出的市場細分和觀察結果得到的“通用畫像”不同,但是和 任何特定的追求目標沒關系。
最常用的目標市場細分方法是CHIAD和CRT。這些技術嘗試將已描述的目標的細分之間的差異最大化。(這些目標有時候是所謂市場細分的參考目標)。CHIAD使用X平方分布統計,而CRT使用不純基尼度算法。
創建無目標市場細分的常用技術是聚類分析法和K最近鄰技術(K nearest neighbor techniques)等。
這些技術使用了距離測試方法(如:歐式距離,曼哈頓距離,馬氏距離等)這些測試能把兩個細分之間差異最大化。這意味著市場細分之間的最大區別是和所有變量(或因素)的結合有關。
如何創建發展中模型的市場細分
1、通常采用的方法
如果你一直在看這篇文章,那么我們已經準備好去深入研究這些創建市場細分的方法。當然,考慮為每個市場細分創建單獨模型作為唯一目標。
讓我們思考下面這個例子:
在這里,我們將創建一個邏輯回歸模型來預測客戶對供給的產品的可能(接受)性。當然也可以使用線性回歸模型。我將在下一節進行討論。
邏輯回歸:
該模型在歷史運動數據中使用1或0指示,指明客戶對提供的產品是否做出反應。
通常,使用已經被確定了模型發展的目標(或者已知的“Y”作為獨立變量)來進行市場細分。記住,每個細分將建立單獨的模型。一個市場細分計劃可實現和通常選擇的目標有關的不同市場細分的最大差異。下面是該方法的舉例:
圖1:建立一個邏輯回歸模型的市場細分案例—普遍采用的方法
此圖譯為:
以上市場細分方法是最好的可能用來發展目標市場細分的方法,因為這些細分演示了跟目標有關的最大區別。(如:反應率)。
在上面的這棵樹中,每個分割模塊應該代表一個統計學上跟目標有關的不同節點之間的顯著差異。如果使用CHIAD算法開發市場細分這棵樹,那么每個分割(單獨)模塊的X平方值應該是從0開始有顯著差異。(通過分割法的“P”值測試)
另外,這是普遍的“商業直覺”(不是通常都可以擁有完整的統計理由),為了發展單獨的模型,相鄰節點之間的反應率應該相差至少30%(如:如果指定節點的反應率是0.7%,同樣的,它相鄰的節點是0.5%,那么它們反應率應相差30%)。
通常采用的方法建議應該為每個終端節點或者結束節點建立一個單獨的模型,它已經顯示為表中綠色部分。但是,這是從建模的角度得到的最好方法嗎?為了回答這個問題,我們需要找到一個測試方法,可以從建模的角度評價一個市場細分。
為了建立單獨的模型和評價一個市場細分計劃的最有效的方法是提升預測能力,它可以通過建立市場細分模型實現。將用下面的案例進行描述。
讓我們假設一個邏輯模型,是建立在總人口上的,用來預測反應的可能性。
我們設計這個為模型-1(主要分析描述它作為母模型),該模型的基尼度為0.57。市場細分開發方法的一部分,建立5個單獨的模型,對應每個結束節點(主要作為子節點進行分析描述)。
邏輯模型2-1:市場細分“年齡小于30”的預測反應
邏輯模型2-2:市場細分“年齡介于30-48之間,且收入少于800K盧布”的預測反應
邏輯模型2-3:市場細分“年齡介于30-48之間,且收入大于等于800k盧布”的預測反應
邏輯模型2-4:市場細分“年齡大于48,收入少于100萬盧布”的預測反應
邏輯模型2-5:市場細分“年齡大于48,收入大于等于100萬”的預測反應
在建立5個單獨模型之后,各自的觀察結果(或記錄)和5個數據集(針對每個結束節點)計算得分或者預測可能性是附加的操作。
結合數據集的基尼度將與模型-1的基尼度做對比。然后,兩個系數將被設計去提升預測力量。舉例:如果結合數據集的基尼度為0.6,那么提升后將是1.05。這可以通過圖表看出,雖然市場細分是最佳的可能目標市場細分,但是它僅提供了5%的額外的預測能力的提升。
讓我們尋找為什么該案例會是這個樣子。它應該被提到,當發展線性模型的時候,應該考慮調整判定系數的提升而不是 基尼系數的提升。
當建立整體模型(模型1),可以使用合適的虛變量法來表示市場細分。比如,可以使用下面的虛系數(它應該根據自由約束度被標記,將有一個小于所有虛擬系數的數)
虛擬-1:年齡小于30,1或0
虛擬-2:年齡介于30-48,1或0
虛擬-3:收入800k盧布
虛擬-4:收入介于800k至100萬盧布
如果使用虛擬數據去重復市場細分樹,那么模型的預測能力將會更好。
虛擬-1:年齡小于30
虛擬-2:年齡介于30和48之間,和收入少于800k盧布
虛擬-3:年齡介于30和48之間,收入超過800K盧布
虛擬-4:年齡超過48且收入少于100萬盧布
這些虛擬變量可以提供反應率相同的差異化,作為5個獨立的細分 。因此,可以通過市場細分看到反應率的差異化,可以通過整個回歸模型的一系列虛擬變量輕易的重復。
但是,這不是預測能力的微提升背后的完整解釋。表二提供了子模型的變量列表。
這些模型的變量是根據它們的預測優勢能力排序(通過卡方統計量和標準化測試版本進行測試)。這些相同的顏色用來描述整個細分的特定變量,為了更加容易的進行對比。
表2:貫穿5個子模型的變量
上圖對應譯為:
可以觀察發現5個子模型的變量相當相似,雖然變量的相關序列有些許不一樣。這意味著在整個細分里促使反應的因素是相似的。另外,如果考慮整個市場細分的特定變量的預測模式,可以觀察一些更有趣的。
表3描述了變量“過去12個月的購買數目”的預測模型。對于描述這樣的模式,證據權重正在發揮作用。
證據權重是普遍的測試方法,這是對于一個變量來說,用來了解值的特定范圍是否有集中度較高或者較低的預期目標。證據權重的正面值意味著有較高的集中度,反之亦然。
在這種情況下,對于購買次數相對高的值,將觀察到一個更高的證據權重。意味著受訪者有著相對更高的集中度。當創建一個線性模型時,在每個變量里,目標的平均值應該用來了解預測模式。
表格的外在檢查揭示了雖然在市場細分里,證據權重是不同的,但是趨勢是非常相似的。這意味著變量的預測模式在市場細分里是相似的。因此,變量在整個模型的影響不是有那么大差異的,對比市場細分帶來的明智的影響。
換句話而言,這意味著市場細分變量(年齡和收入)和預測變量“過去12個月的購買次數”。因此,市場細分不能令人們的獲得任何利益,即使提升了預測能力。
同樣注意到,在這個案例里,市場細分的變量信息值是相似的。就線性模型而言,部分判定系數可以使用而不是使用信息值。如果這是高度預測變量的情況,那么市場細分應該添加極限值去提高整個預測能力。
表3:在5個市場細分中,變量“過去12個月的購買次數”的預測模式
藍色:邏輯模型2-1:市場細分“年齡小于30”
紅色:邏輯模型2-2:市場細分“年齡介于30-48之間,且收入少于800K盧布”
綠色:邏輯模型2-3:市場細分“年齡介于30-48之間,且收入大于等于800k盧布”
紫色:邏輯模型2-4:市場細分“年齡大于48,收入少于100萬盧布”
藍色:邏輯模型2-5:市場細分“年齡大于48,收入大于等于100萬”
2、合適的方法
為了利用市場細分變量和預測變量之間的相互作用,設計市場細分的方案很重要,預測者和變量的預測模式在市場細分是不同的。
這將幫助人們創建方案,可以使市場細分的模型的預測能力高于整體模型的預測力量。
表4提高了一個可選的市場細分方案,來解決之前提到的問題。
表4:為創建邏輯模型進行市場細分模型-可選的方法
這種情況下,應該開發下面這些市場細分模型(子模型)
邏輯模型3-1:預測“過去12個月沒有購物”的市場細分反應
邏輯模型3-2:預測“過去12個月至少購物兩次”的市場細分反應
邏輯模型3-3:預測“過去12個月購物2次以上和沒有提交過產品評價”的市場細分反應
邏輯模型3-4:預測“過去12個月購物至少2次以上以及提交產品評價至少一次以上”的市場細分反應
子模型的變量已經在表5描述。作為之前提到的情況,常用變量已經用相同的顏色突出表示??梢杂^察到在這樣的情況下,市場細分之間的變量重疊的范圍是非常有限的。因此,每個市場變量代表一個相同組的客戶,他們的反應驅動因素幾乎完全不同。
因此,在這樣情況下,模型的市場細分系統的基尼系數是明顯高于整體模型的基尼系數的。這個市場細分提供了具備明顯優勢的預測力量,因為市場細分變量和預測變量的相互作為而產生。
表5:4個子模型的變量
表6:在5個市場細分里,變量“過去24個月購買次數”的預測模式
藍色:模型3-1過去12個月沒有購買記錄
紅色:模型3-2過去12個月至少兩次購買記錄
綠色:模型3-3過去12個月多于2次購買記錄,沒有提交產品評價
紫色:模型3-4過去12個月多于2次購買記錄,至少一次提交產品評價
在這樣的情況下,觀察到在市場細分中,特定變量的預測模式是具有明顯的不同的。表5的線更加分散,與表3相比看起來差別更加明顯,這意味著變量的預測模式在市場細分里是不同的。
因此,變量的影響在整個模型中,對比市場細分的明智的影響是相當不一樣的。換句話來說,這意味著,在市場細分變量和預測變量“過去18個月沒有不同的購買項目”之間有著顯著的相互作用。
因此,市場細分期望在預測能力中產生最佳提升。在這種情況下,它應該被標記,變量的信息值在市場變量中是不同的。
使用機器學習進行市場細分
這又是另外一個有趣的方面。對于市場細分,考慮基于多棵樹的機器學習算法是好的。多重累計回歸樹,自由森林樹和增加隨機梯度這些技術可以使用眾多的樹和相同的整體進行預測。
如:如果考慮增加隨機梯度,在一個非常簡單的情況下(可能業余水平的情況下),包括建立一棵完整的樹,令第一棵樹的殘差作為第二棵樹的目標,依此計算下去直到發現預測能力得到進一步的提高。
在這樣的情況下,樹組成一些節點,確保它不會過度擬合數據?,F實中,這些樹希望能捕捉到相互之間的作用而不是和手頭的目標靠的太近??梢月撓氲綖榱税l展模型而進行的市場細分創建背后的哲理,其中市場細分的目標不是去實現更加接近目標的擬合,而是去確認相互作用的效果。
事實上,為了發展單獨的模型,確認市場細分的可能性方法包括考慮在樹的隨機梯度增加完整的情況下得到第一批樹的節點,考慮它們是否適合創建市場細分方法。
結束語
通過本文,我們學習了幾個方面:
1、當為了模型發展而執行市場細分時,應該努力實現預測能力的提升,而不僅僅是為了追求目標的差異性。
2、市場細分捕捉相互作用的效果,因此預測者和預測模式是有一定的重要性的,他們在市場細分中發生改變。
3、創建市場細分的過程,包括發展每個市場細分的模型 ,以及投資已經從各子模型中選出來的變量。
4、在市場細分中,高度的預測變量的圖形化測試可以獲得有價值的洞察來。因此,這個過程要求對子模型進行迭代和詳細分析。只依賴CHAID或者CRT算法可能無法獲得合適的結果。必須記住,最初的目標是提高市場細分系統的預測能力。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25