cda

數字化人才認證

您的位置:首頁 > 活動列表 > CDA承接的全球頂級機器學習Scikit-learn 中文社區上線啦!

CDA承接的全球頂級機器學習Scikit-learn 中文社區上線啦!

2020-12-31

CDA作為國內知名的全棧數據科學教育和認證品牌,一直致力于讓優質的教育人人可得。Scikit-learn作為機器學習的入門工具庫,深受初學者的喜愛。但是由于官方文檔是英文撰寫,限制了很多機器學習愛好者的學習過程。因此,專業、規范、實時的Scikit-learn中文學習社區,一直以來都是國內學習者所急需。

CDA?全國教研團隊從2016年已經開始大規模使用Scikit-learn作為Python機器學習課程授課的主要工具庫。無論是CDA就業班系列課程,還是周末集訓課程,還是2018年推出的系列Scikit-learn課程,均深受國內數據科學愛好者的歡迎。

基于CDA全國教研團隊近5年的Scikit-learn課程研發經驗,為了響應越來越多的數據科學愛好者的學習需求,CDA通過一年多的Scikit-learn文檔的翻譯和認真校對,并在CDA研發部門的密切配合下,Scikit-learn中文社區終于上線了。從用戶指南到API?、再到案例,翻譯字數達一百余萬字,相較與網絡上流傳的其他機器翻譯的Scikit-learn中文資料,CDA Scikit-learn中文社區的翻譯是最新的官方版本,并且內容更加全面,格式更加規范,翻譯更加專業精準,努力為機器學習愛好者提供更便捷的學習途徑。點擊下方社區Logo,可進入CDA Scikit-learn中文社區!記得分享保存哦?。ㄗⅲ簊cikit-learn的官網是www.scikit-learn.org,CDA承接的中文社區網址是www.scikit-learn.org.cn,這同時也標志著CDA與全球頂級深度學習和機器學習框架更進一步融合,CDA認證更加得到全球頂級技術框架的認可!


Scikit-learn(也稱為sklearn)是針對Python編程語言的免費機器學習庫。2007年,Scikit-learn首次被Google Summer of Code項目開發使用,現在已經被廣泛大眾認為是最受歡迎的機器學習庫。

Sklearn具有許多的優點:

· 支持包括分類,回歸,降維和聚類四大類機器學習算法。還包括了特征提取,數據處理和模型評估三大模塊,具有著豐富的API接口。

· 代碼樣式清晰一致,這使得機器學習代碼易于理解和再現,大大降低了機器學習的入門門檻。

· 得到了大量第三方工具的支持,有非常豐富的功能,適用于各種場景等。

如果你正在學習和使用機器學習,那么Scikit-learn可能是最好的工具庫。Scikit-learn擁有著完善的文檔,上手容易,具有著豐富的API,在機器學習愛好者中的被廣泛使用。其已經封裝了大量的機器學習算法,同時Scikit-learn內置了大量數據集,節省了獲取和整理數據集的時間。

下面介紹Scikit-learn工具庫使用的一些便捷方法

Scikit-learn是一個開源的機器學習庫,它支持有監督和無監督的學習。它還提供了用于模型擬合,數據預處理,模型選擇和評估以及許多其他實用程序的各種工具。

· 擬合和預測:估算器基礎

Scikit-learn提供了數十種內置的機器學習算法和模型,稱為估算器。每個估算器可以使用其擬合方法擬合到一些數據。

這是一個簡單的示例,其中我們使用一些非?;镜臄祿碛柧?


所述擬合方法通常接受2個輸入:

· 樣本矩陣(或設計矩陣)X。X的大小通常為(n_samples, n_features),這意味著樣本表示為行,特征表示為列。

· 目標值y是用于回歸任務的真實數字,或者是用于分類的整數(或任何其他離散值)。對于無監督學習,y無需指定。

雖然某些估算器可以使用其他格式(例如稀疏矩陣),但是通常,兩者X和y預計都是numpy數組或等效的類似數組的數據類型。

估算器擬合后,可用于預測新數據的目標值。而無需重新訓練估算器,非常便捷:

· 轉換器和預處理器

機器學習工作流程通常由不同的部分組成。典型的管道(Pipeline)包括一個轉換或插入數據的預處理步驟,以及一個預測目標值的最終預測器。

在中scikit-learn,預處理器和轉換器遵循與estimator對象相同的API(實際上它們都繼承自同一?BaseEstimator類)。轉換對象沒有預測方法,但是需要有一個輸出新轉換的樣本矩陣X的轉換方法:


有時,如果你想要應用不同的轉換器去處理不同的特征:ColumnTransformer專為這些用例而設計。

· 管道(Pipeline):連接預處理器和估算器

可以將轉換器和估算器(預測器)組合在一起成為一個統一的對象:一個?Pipeline。這條管道提供相同的API作為常規估算器:它可以用fit和predict來訓練和預測。正如我們將在后面看到的,使用管道還可以防止數據泄漏,即在訓練數據中泄露一些測試數據。

在以下示例中,我們加載Iris數據集,將其分為訓練集和測試集,然后根據測試數據計算管道的準確性得分:

· 模型評估

用一些數據來訓練模型并不意味著在一些未知的數據上也能預測得很好,這需要直接評估。

將模型擬合到一些數據并不意味著它將在看不見的數據上很好地預測。這需要直接評估。我們剛剛看到了train_test_split函數可以將數據集分為訓練集和測試集,但是scikit-learn提供了許多其他模型評估工具,尤其是用于交叉驗證的工具。

我們在這里簡要展示了如何使用cross_validate幫助程序執行5折交叉驗證過程。需要注意的是,還可以使用不同的數據拆分策略以及使用自定義評分功能來手動實現遍歷。有關更多詳細信息,請參閱我們的用戶指南

· 自動參數搜索

所有估算器都有可以調整的參數(在文獻中通常稱為超參數)。估算器的泛化能力通常關鍵取決于幾個參數。例如,在隨機深林回歸器?RandomForestRegressor中,n_estimators參數?確定林中樹木數量,max_depth參數確定每棵樹的最大深度。通常,這些參數的確切值是多少我們都不太清楚,因為它們取決于拿到的數據。

Scikit-learn提供了自動查找最佳參數組合的工具(通過交叉驗證)。在以下示例中,我們使用RandomizedSearchCV對象隨機搜索隨機森林的參數空間。搜索結束后,RandomizedSearchCV的表現就像是已經訓練好最佳參數集的RandomForestRegressor。在用戶指南中可以閱讀更多內容:


完 謝謝觀看

分享
收藏

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码