熱線電話:13121318867

登錄
首頁精彩閱讀大數據挖掘是個什么鬼?先搞定以下五大關系
大數據挖掘是個什么鬼?先搞定以下五大關系
2016-07-29
收藏

數據挖掘是個什么鬼?先搞定以下五大關系

數據科學家”作為一個新興的名詞,他們主要是采用科學方法、運用數據挖掘工具來做大數據洞察的工程師。一個優秀的數據科學家需要具備諸如數據采集、模型算法、數學軟件、分析預測、市場應用等多方面的素質。如果你也想成為一名數據科學家,那么可以先從本文介紹的數據挖掘過程中的五個關系開始,一點點探索整個數據挖掘的藍圖。

1.樣本與總量

相信大家讀書的時候,數學老師曾經扔給你一批樣本數據,然后讓你去根據課堂上的知識做個分析或者建個模型,當時大家心里有沒有想過,自己拿這么點數據分析出來的結果到底能用到實際中去么?其實平常工作學習中,我們在數據挖掘或建模的時候,采用的往往是樣本數據而非總體數據。以貸款業務為例,一個P2P貸款公司只有曾在其公司有過貸款行為的客戶的數據,而這些客戶是所有貸款客戶的一個樣本。那么,有很多人就會擔心這樣一個問題:采用這樣的樣本數據訓練模型是否會對結果造成影響?

這個問題的答案取決于樣本大小和樣本偏差。 首先來聊聊樣本大小。

假設我們要做一個信用評分模型,這個模型以某一客戶群體的數據作為訓練樣本。假設每個客戶由性別和職業兩個變量來描述,如果性別有2種取值,而職業有18種取值,則描述這個客戶群體的特征分布需要2*18=36個參數。在這種情況下,如果僅有幾百個樣本,那么樣本量恐怕是不足夠的。

一般來說,描述客戶群體的維度越多,需要的樣本量也越大。如果每個客戶由K個變量表示,而每個變量有V種取值,則描述這個群體的特征分布需要O(K^V)個參數,需要樣本量至少為10^2~10^3*O(K^V)。 再來聊聊樣本偏差。

如果所抽取的樣本不是隨機的,那么無論其選擇的樣本量有多大,則根據這些樣本數據所估計的參數就不能準確反映所研究的總體性質的分布,這種情況下樣本存在偏差。

樣本偏差在實際問題中是不可避免的。還是以貸款業務為例,一個針對大學生群體的P2P公司的樣本數據與貸款客戶的總體數據是有偏差的。如果用存在偏差的樣本訓練風險評分模型,那么其在總客戶群體上的表現可能一般。這種情況下,可以通過對樣本加權重的方法來調整其特征分布,從而修正樣本偏差。

2.數據質量與模型選擇

聊完數據樣本的問題,我們接著看看數據質量和模型選擇的關系。人們常說garbage in garbage out. 所以有人要說:“數據質量最重要!模型是浮云”這個時候,每天研究各種模型算法的人抬頭看一眼那哥們兒,怒火中燒。那么這兩者到底什么關系呢?其實,數據質量和模型選擇是實現準確預測的關鍵。數據質量決定了預測準確性的上限,而模型選擇(包括參數調優)決定了如何達到上限。數據質量包括三個方面:一個是數據的長度,即有多少數據能夠供我們分析使用,另外一個是數據的寬度,即數據的信息量是否全面。最后一個是數據的飽和度,即對于每一個研究的單元對象,其信息是否都真實反應了本體,而不存在大量缺失。訓練數據集的質量直接決定了模型的可靠程度,故數據質量測試、數據清洗是在建立模型之前不可或缺的一步。

為了實現某一個商業目標,有很多模型可以作為候選。例如解決最常見的分類預測問題時,有非常多的備選的模型:線性回歸模型(邏輯回歸)、概率圖模型(Tree-augmented na?ve bayes)、深度學習模型等。然后可以通過KS、AUC等指標,調整模型中的參數,從而提高其表現。在數據挖掘競賽中,單個模型表現往往中庸,而一個廣泛采用的策略是通過多模型混合來提升預測的穩定性和表現。

然而,相對數學模型,數據質量乃是最關鍵的要素。一個數據挖掘工程師可能80%的時間用在篩選變量和清洗數據上。在現實環境中,我們首要的是經常問這樣一個問題:“where is the data?”

3.模型準確性和模型可解釋性

有時候會發生這樣一個場景:建模型的人欣喜若狂的拿著個評分卡模型去給業務部門看,驕傲的說了一通自己的模型有多牛逼,能如何準確地發現潛在風險違約客戶。結果業務部門的人一臉困惑的問了一句:“我拿你這個結果拒絕了客戶的話,我要怎么跟客戶解釋原因?”這里模型的準確性指的是能否準確地發現潛在風險違約客戶,而模型的可解釋性指的是如何理解模型評分,即,如果一個客戶的信用評分為400分,那么是什么造成了他的分數比較低的。

通常情況下,模型的準確性和模型的可解釋性是不可兼得的。模型越簡單,則其越容易理解,但簡單的模型預測準確性往往不好,例如,決策樹模型可以讓人一目了然的知道哪個群體的人存在風險,但其表現往往在所有模型中墊底。而一些非參數模型(如隨機森林等),其規則復雜到難以用自然語言描述,無法直觀的被人理解,但其預測效果卻很優秀。

那么,在兩者不可兼得的情況下,我們應該更重視模型的準確性還是其可解釋性?相信很多人會認為準確性更重要。的確,在大多數數據挖掘競賽中,模型算法是通過其準確性來衡量優劣的。這很容易理解,如果一個P2P借貸公司完全依靠評分卡模型來做準入審核,那么模型的準確性會直接影響到貸后的違約率,直接決定了這個公司的CEO是要跑路還是走向人生巔峰。

然而實際情況是,評分卡模型僅僅是其準入審核的一個環節,在初篩之后,風控專家會對評分卡模型不能有效分辨好壞的客戶進行人工審核。人工審核的過程不僅會全面收集客戶的信息,更需要通過話術策略有效的鑒別客戶所提供信息是否虛假。例如,在照會過程中,風控人員可能會故意將客戶提供的一些資料說錯而觀察其反應等。

在這種情況下,模型的可解釋性就變的尤為重要。設想,如果一個評分卡模型不僅能告訴風控人員客戶的潛在違約率,更可以幫風控人員在錯綜復雜的客戶數據中梳理出一條明晰的調查線索,告訴風控專家應該著重調查客戶的哪個方面以及客戶之前提供的信息有哪些初看起來正常但實際自相矛盾的地方,這將對提高風險控制能力有很大作用。 4.統計分析數據挖掘

統計分析數據挖掘都是商業智能的一方面。統計分析是運用統計方法,基于假設分布和假設檢驗的理論方法,總結數據與基礎群體之間的聯系并做預測。數據挖掘是基于訓練(Training)、驗證(Validation)、測試(Test)數據集的關聯,通過算法,搜索出隱藏于其中的信息。統計分析需要更多的概率分布假定,而數據挖掘更注重驗證結果的可靠性。但是兩者往往互通互容、相互支持,之間并沒有明確的界限。

5.當前模型和模型迭代

人類的行為模式在科技發展的今天是在不斷演變的,所以當前模型只能反應出過去的歷史規律和判斷,且一般都有一個有效期。模型迭代是保證模型有效性的必然步驟。

在迭代模型的過程中,需要在風險管理階段對上一階段的執行情況作出判斷、規劃下一步的執行內容、評估風險及控制時間與資源。

最后,送給大家三句秘籍:

在最終的分析中,所有知識皆為歷史

在抽象的意義下,所有科學皆為數學

在理性的世界里,所有判斷皆為統計

這三句秘籍可不是我說的,是來自印度的傳奇數學家拉曼努楊。我想,只有那些優秀的“數據科學家”,方能深切體會上面三句話的含義。在漫漫歷史長河里,所有的判斷結論皆為概率存在,這也是這個世界之所以迷人的終極原因。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢