熱線電話:13121318867

登錄
首頁精彩閱讀為什么懂應用的數據挖掘人才更值錢?這9套模板絕對值得收藏
為什么懂應用的數據挖掘人才更值錢?這9套模板絕對值得收藏
2021-11-17
收藏


對于了解機器學習的人來說,數據挖掘無疑是一個范圍更大且錢力無限的方向。但隨著這兩年越來越多的有IT編程經驗的職場老鳥轉行到數據分析大賽道,企業對人才的要求也越來越高了。前一陣,廣大碼農們被官方劃成了“新生代農民工”,引起了咱圈里或多或少的不服不忿。咱作為技術人才,怎么就成了工具人了?

算法崗的你也別不服氣,問個問題:雖然手上掌握大幾套算法理論,但換個應用場景或業務需求,你還那么底氣十足嗎?

01、技術側的數據挖掘,你缺了啥?

我在互聯網公司工作多年,看過大量的類似案例,給我最深的感覺就是:同樣一個算法大多用在同樣的業務場景。我們在做精準營銷的時候,大家往往會用邏輯回歸做一個,神經網絡再做一個,然后對比兩者之間的結果,再從中選擇最優者,其實這樣的研究很多時候只能說是在浪費資源。


因為大家都知道神經網絡是非線性模型,效果肯定好。但是做研究的目的并不是為了創造一個神經網絡算法,所以類似的研究結果沒有任何實質意義。

長此以往下,精于算法理論的你會產生一種挫敗感:費了這么大功夫,產生的價值只是測試了這套算法的可行性。至于當被質問如何能用算法更好解決復雜多變的實際業務問題時,可能在一臉滄桑的淡定面孔下是慌亂一批的心。

所以,如果你才剛踏入這個行業或者還有心力把能力和薪資都往上提一提,那么你一定要看看更值錢的那批頂尖的人,除了技術比你強在哪里。


我們分析了BOSS上的3000個算法崗位發現,想要拿到年薪百萬,把算法應用摸透了或者說將算法用到該用到的地方是你一定要具備的能力。


02、企業對數據的需求點

在企業當中,數據主要是為了支持我們做決策,一般也就是在四個層級產生價值:戰略、管理、運營和操作。


戰略層級,毋庸置疑,C-Level的這群企業高管一般要定的是1年周期計劃或是3-5年的戰略方向。哪個賽道有機會?企業增長點在哪里?這時候,主要用到的是PEST分析,通過研究報告、行業分析、宏觀經濟等維度,對數據進行直接的采集和應用。

第二層級就是我們企業的中堅力量——重要部門的管理者,這一Part考驗的是咱數據人商業策略的優化能力。再往下每個分支機構的管理者,就是咱最基層的廣大執行部門小領導了。數據在這個層面主要就是以報表的形式幫助管理者進行業務決策。

最下面一個層級的執行操作層環境復雜,工作繁復,拿著民工的錢操著老板的心。這一層級絕對是數據和算法崗相愛相殺的好戰友,既依賴你給策略又埋怨你不落地。如果你不懂應用場景,怎么能搞定這幫眼冒綠光的狼人呢?
比如做節點大促,需要通過你的算法支持進行用戶運營和市場觸達。如果你不清楚用戶畫像、沒搞明白前后端的部門協同關系、SOP流轉關鍵結點和流量的轉化路徑,再牛的算法理論都只能是紙上談兵。

不管哪個行業,都需要這樣一個能給操作層級進行AI賦能,讓業務效果肉眼可見的蹭蹭漲起來的數據大神。


03、掌握解決你99%業務問題的算法絕對不靠耗命

看了上面這些,你一定想問:算法在我們實際工作中到底能應用于哪些領域?

在波特的價值鏈模型中,真正產生價值的是哪些呢?主要集中在最下端的基本活動。

比如說我們是賣手機的,從進料、后勤生產、后勤銷售、售后服務,這個就是我們真正的價值鏈。


我們說工業革命,其實是實現了制造業的自動化,使得我們的物質極為豐富了。那么這次數字化,其實是在非生產領域產生顛覆性的價值體現。

有些學者會認為,生產領域也是數字化轉型很重要的一個部分,這點不可否認。但是我們說在數字化概念提出之前,像德國這種制造業的老牌國家,它的生產領域已經非常智能,基本上實現了機器人的完全自動化。

那么問題來了,人家在數字化概念提出之前,就已經實現了完全智能化,那么我們的數字化特點體現在哪里?就像我上文所說的,非生產領域是我們數字化轉型的重點方向。比如說庫存管理階段的進料、后勤、發貨,銷售營銷,數字化運營,售后服務,還有研究與開發等等。

此外,如人力資源管理和一些其他的企業基礎設施,比如說財務,在這次的數字化革命當中,體現的也非常多。

價值鏈上環節那么多,如果你還是不懂變通的花費大量精力去啃那些只適用于固定場景的算法理論,那么我勸你不如看看我們總結的能解決你99%業務需求的“三大分析范式,九大算法模板”。

04、三大分析范式,九大算法模板

學術研究講求標新立異,而數據挖掘商業應用實踐講求的是標準化和模型質量穩定。因此CDA.F認證委員會提出數據挖掘建??蚣艿娜齻€原則,即以成本-收益分析為單一分析框架、區分分析主體和客體兩個視角、全模型生命周期工作模板。并且將紛繁多樣的數據挖掘應用主題歸納為以下“三大分析范式和九大算法模板”。


想要用好這些范式和模板,首先要明確的是要以“成本-收益分析”為單一分析框架。

世界萬事萬物都具有矛盾的兩面性,數據挖掘建模力圖通過數據反應行為背后的規律,緊抓主要矛盾就是找尋規律的捷徑。大家都知道,挖掘有效的入模特征數據挖掘建模的難點,一旦我們了解了分析課題的主要矛盾,這個難點就迎刃而解了?!疤煜挛跷踅詾槔麃?,天下攘攘皆為利往”,因此行為分析建模以成本-收益為主要矛盾便是不二的選擇。下面講解如何使用這個框架進行分析。

以金融行業為例,舉三個常見應用:

01

信用評分模型中,是否逾期是被預測變量,而解釋變量中經常出現的收入穩定性、職業穩定性、家庭穩定性、個人社會資本都是在度量其違約成本。信用歷史既是被解釋變量的滯后項,而且也反應了違約成本,這就是所謂“破罐子破摔”的人違約程度低。收益會用貸存比、貸收比、首付占比等指標來衡量。

02

申請欺詐模型,其標簽往往是客觀存在的。入模的特征構建以反應異常為主,比如異常高的收入、異常高的學歷、異常密集的關系人網絡等。這背后有其統一的成本-收益分析框架。之所以會顯示出異常,是因為造假是有成本的,信用卡申請欺詐者知道收入證明造假可以獲得更高的信用額度,但是由于其居住地、職業和學歷沒有造假,因此按照這三個維度對其收入進行標準化之后很容易發現其收入會異常的高。這個可以說是公開的秘密,因為信用卡公司會根據造假成本對非可靠申請者進行授信,使得欺詐者無利可圖。

03

運營優化模型比如資產組合的持倉問題,其收益是資產的收益率,而成本是其帶來的風險,即波動率。建模人員需要選擇收益-成本最優的組合。

其次是要區分分析主體和客體兩個視角。

數據挖掘建模中,定義標簽是主體視角。比如營銷預測模型中客戶是否響應,是建模人員自己定的規則,這個規則有可能是收到營銷短信后三天內注冊賬號并產生訂單。在構建入模的特征集時需要采用客體視角,比如手機銀行的營銷響應模型中,入模的特征應該反應客體的成本-收益的變量,比如年齡反應的是使用手機銀行和去實體渠道的成本。當建模人員意識到標簽是自己主觀臆斷的時候,便會對該標簽的選擇更用心,當意識到入模的特征來自于客體時,才會從客體的視角出發更高效的構建特征集。

最后討論全模型生命周期工作模板。

CDA.F認證委員會在CRIP-DM和SEMMA的基礎上提出 “高質量數據挖掘模型開發的七步法”。在以上七步中,前三步是蓄勢階段,更多的是從業務人員、數據中吸收經驗、形成感知。制作特征、變量處理和建立模型階段是豐富特征、尋找有效模型的階段,幾十個變量和一兩個模型顯然是沒什么選擇必要性的,因此需要通過各種手段探查到最有效的特征精度最高的模型。最后,模型輸出階段,選出的模型不但精度高,還要穩定性強,在業務人員使用時要有清晰的業務表述。



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢