
探索性數據分析(Exploratory Data Analysis,EDA)是指對已有數據在盡量少的先驗假設下通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規律的一種數據分析方法。
常用的第三方庫
數據科學庫
常用函數
數據簡略觀測
數據總覽
數據檢測
缺失值檢測
異常值檢測
預測分布
總體分布概況:
很多模型假設數據服從正態分布,數據整體服從正態分布,樣本均值和方差則相互獨立。當樣本不服從正態分布時,可以做如下轉換:
查看skeness 和kurtosis
預測值的具體頻數
當某范圍預測值很少時,可將其當作異常值處理填充或刪除。若頻數很失常,需對數據進行處理,例如進行log變換,使數據分布較均勻,可據處理后的數據進行預測,這也是預測問題常用的技巧。
特征分析
數字特征
類別特征
數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。俗話說:garbage in, garbage out。分析完數據后,特征工程前,必不可少的步驟是對數據進行清洗。
數據清洗作用是利用有關技術如數理統計、數據挖掘或預定義的清理規則將臟數據轉化為滿足數據質量要求的數據。主要包括缺失值處理、異常值處理、數據分桶、特征歸一化/標準化等流程。
缺失值處理
關于缺失值處理的方式, 有幾種情況:
異常值處理
常用的異常值處理操作包括BOX-COX轉換(處理有偏分布),箱線圖分析刪除異常值, 長尾截斷等方式, 當然這些操作一般都是處理數值型的數據。
數據分桶
連續值經常離散化或者分離成“箱子”進行分析, 為什么要做數據分桶呢?
當然還有很多原因,LightGBM 在改進 XGBoost 時就增加了數據分桶,增強了模型的泛化性?,F在介紹數據分桶的方式有:
數據轉換的方式有:
特征工程指的是把原始數據轉變為模型訓練數據的過程,目的是獲取更好的訓練數據特征。特征工程能使得模型的性能得到提升,有時甚至在簡單的模型上也能取得不錯的效果。
特征構造
特征選擇
特征選擇主要有兩個功能:
通常來說,從兩個方面考慮來選擇特征:
數據特征維度太高,首先會導致計算很麻煩,其次增加了問題的復雜程度,分析起來也不方便。但盲目減少數據的特征會損失掉數據包含的關鍵信息,容易產生錯誤的結論,對分析不利。
PCA降維方法,既可以減少需要分析的指標,而且盡可能多的保持了原來數據的信息。
但要注意一點, 特征選擇是從已存在的特征中選取攜帶信息最多的,選完之后的特征依然具有可解釋性,而PCA,將已存在的特征壓縮,降維完畢后不是原來特征的任何一個,也就是PCA降維之后的特征我們根本不知道什么含義了。
特征工程也好,數據清洗也罷,都是為最終的模型來服務的,模型的建立和調參決定了最終的結果。模型的選擇決定結果的上限, 如何更好的去達到模型上限取決于模型的調參。
建模的過程需要我們對常見的線性模型、非線性模型有基礎的了解。模型構建完成后,需要掌握一定的模型性能驗證的方法和技巧。同時,還需要掌握貪心調參、網格調參、貝葉斯調參等調參方法。
回歸分析是一種統計學上分析數據的方法,目的在于了解兩個或多個變量間是否相關、相關方向與強度,并建立數學模型。以便通過觀察特定變量(自變量),來預測研究者感興趣的變量(因變量)
這種分布會使得采樣不準,估值不準,因為尾部占了很大部分。另一方面,尾部的數據少,人們對它的了解就少,那么如果它是有害的,那么它的破壞力就非常大,因為人們對它的預防措施和經驗比較少。
欠擬合:訓練的模型在訓練集上面的表現很差,在驗證集上面的表現也很差。即訓練誤差和泛化誤差都很大。原因:
過擬合:模型的訓練誤差遠小于它在測試數據集上的誤差。即訓練誤差不錯,但是泛化誤差比訓練誤差相差太多。原因:
由此引出模型復雜度概念模型中的參數,一個簡單的二元線性的函數只有兩個權重,而多元的復雜的函數的權重可能會什么上百上千個。
模型復雜度太低(參數過少),模型學習得太少,就難以訓練出有效的模型,便會出現欠擬合。模型復雜度太高(參數很多),即模型可訓練空間很大,容易學習過度,甚至于也將噪聲數據學習了,便會出現過擬合。
損失函數后面會添加一個額外項,稱作 L1正則化 和 L2正則化,或者 L1范數和 L2范數。
L1正則化和L2正則化可以看做是損失函數的懲罰項。所謂『懲罰』是指對損失函數中的某些參數做一些限制。對于線性回歸模型,使用L1正則化的模型建叫做Lasso回歸,使用L2正則化的模型叫做Ridge回歸(嶺回歸)。
正則化說明:
正則化作用:
調參方法
貪心調參 (坐標下降)坐標下降法是一類優化算法,其最大的優勢在于不用計算待優化的目標函數的梯度。與坐標下降法不同的是,不循環使用各個參數進行調整,而是貪心地選取了對整體模型性能影響最大的參數。參數對整體模型性能的影響力是動態變化的,故每一輪坐標選取的過程中,這種方法在對每個坐標的下降方向進行一次直線搜索(line search)網格調參GridSearchCV作用是在指定的范圍內可以自動調參,只需將參數輸入即可得到最優化的結果和參數。相對于人工調參更省時省力,相對于for循環方法更簡潔靈活,不易出錯。貝葉斯調參貝葉斯優化通過基于目標函數的過去評估結果建立替代函數(概率模型),來找到最小化目標函數的值。貝葉斯方法與隨機或網格搜索的不同之處在于,它在嘗試下一組超參數時,會參考之前的評估結果,因此可以省去很多無用功。超參數的評估代價很大,因為它要求使用待評估的超參數訓練一遍模型,而許多深度學習模型動則幾個小時幾天才能完成訓練,并評估模型,因此耗費巨大。貝葉斯調參發使用不斷更新的概率模型,通過推斷過去的結果來“集中”有希望的超參數。
這里給出一個模型可調參數及范圍選取的參考:
通過融合多個不同的模型,可能提升機器學習的性能。這一方法在各種機器學習比賽中廣泛應用, 也是在比賽的攻堅時刻沖刺Top的關鍵。而融合模型往往又可以從模型結果,模型自身,樣本集等不同的角度進行融合。
模型融合是比賽后期一個重要的環節,大體來說有如下的類型方式
1. 簡單加權融合:
2. stacking/blending:
3. boosting/bagging:
簡單算術平均法
Averaging方法就多個模型預測的結果進行平均。這種方法既可以用于回歸問題,也可以用于對分類問題的概率進行平均。
加權算術平均法
這種方法是平均法的擴展??紤]不同模型的能力不同,對最終結果的貢獻也有差異,需要用權重來表征不同模型的重要性importance。
投票法
假設對于一個二分類問題,有3個基礎模型,現在我們可以在這些基學習器的基礎上得到一個投票的分類器,把票數最多的類作為我們要預測的類別。
堆疊法(Stacking)
stacking 就是當用初始訓練數據學習出若干個基學習器后,將這幾個學習器的預測結果作為新的訓練集,來學習一個新的學習器。對不同模型預測的結果再進行建模。
把原始的訓練集先分成兩部分,比如70%的數據作為新的訓練集,剩下30%的數據作為測試集。
其基本思想是:增加前一個基學習器在訓練訓練過程中預測錯誤樣本的權重,使得后續基學習器更加關注這些打標錯誤的訓練樣本,盡可能糾正這些錯誤,一直向下串行直至產生需要的T個基學習器,Boosting最終對這T個學習器進行加權結合,產生學習器委員會。
下面給出加州大學歐文分校Alex Ihler教授的兩頁PPT:
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23