熱線電話:13121318867

登錄
首頁精彩閱讀企業數據挖掘實際運用的模型
企業數據挖掘實際運用的模型
2018-07-17
收藏

企業數據挖掘實際運用的模型

這是好幾年前寫的一篇文章,今天突然翻出來看到,我覺得對于很多在做數據挖掘的朋友有一定參考。

聽了幾位從公司幾位同事和外面專家介紹關于數據挖掘、數據模型的一些東西??偟膩碚f,很有收獲,當然收獲并不在具體的技術細節上。更多是在看法,理念上。

我以前也搞過很多模型,從最基本的聚類、決策樹、logisitic、回歸分析、生存分析、神經網絡,還有市場調研中一些聯合分析、感知分析、因子分析/主成分分析,當然還有更高級一點的結構方程。在期貨公司呆的一年中,還搞過計量模型:ARMA簇、ARCH簇、VaR等,當時對自己產生的模型,感覺很不自信。因為當時的模型識別率指標(例如:R方,并沒有達到傳說中在學校做論文或者平時玩模型的90%以上),感覺這個模型就是不好的,并不完美。

去年抱著學習的心態,去一家數據量極其豐富的互聯網公司,想去看看大公司玩數據到什么程度,雖然以前和許多牛人們交流過,但當時一直覺得應該不是這么簡單。

到新公司后同幾位做modeling的同事和聽了外部專家的演講,某種程度上我釋然的。感覺自己以前在做模型的時候,更多是在做學術研究一樣,也許和我是一個追求完美的人有關。

例如:模型成立的假設條件,與變量選擇。

模型的假設條件,對數據的分布要求;

模型的變量選擇,以及變量的各種預處理;

針對最終的目的理論上可以使用的模型,都去嘗試。比如:會員流失問題:決策樹、邏輯回歸、生存分析,我都會去嘗試使用,根據其最終的LIFT值最大的,然后選擇。

但實際上,從幾位同事與朋友的介紹來看,邏輯回歸是許多公司是都在用的模型,

為什么不用更“高級”,更先進的模型呢?原因有二個:

第一個:模型的健壯性。這些模型都是被之前實踐證明是最好的,或者性能相對來說最穩定的。衡量的指標不外乎:穩定性、可解釋性(這點在商業很重要)、簡單性。

第二個:商業運用,已經是流程式的過程,不會輕易去改變,就是你生產線上一樣。模型的輕微改變可以要牽動許多方面,是一個大工程。

從與他們的交流來說,我好像忘記了一個東西:這些都是為商業服務的,商業過程不要太復雜,最好的商業模式往往是最簡單,不是嗎?

我的觀點:也許和自己的工作經歷有關,但是我覺得對于一個數據分析師或者是數據建模師來說,雖然你用的很簡單。但是你掌握的東西應該很多,很復雜,也正是因為有這些基礎,你才能選擇最好的模型,所以在玩數據挖掘或者數學建模為商業服務的時候,經驗很重要,當然這些專業知識的扎實也是最根本的之一。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢