熱線電話:13121318867

登錄
首頁大數據時代為什么以及如何學習“生產性數據科學”?
為什么以及如何學習“生產性數據科學”?
2022-02-28
收藏


數據科學和機器學習可以以不同程度的效率和生產力進行實踐。無論應用領域或專業,數據科學家--初學者或經驗豐富的專業人員--都應努力提高他/她在典型數據科學任務的所有方面的效率,


這意味著執行所有這些任務,

  • 以較高的速度
  • 通過更快的調試
  • 以同步的方式
  • 通過充分利用任何和所有可用的硬件資源

在這個過程中你應該期望學到什么?


讓我們假設有人正在教授“生產性數據科學”課程或寫一本關于它的書--使用Python作為語言框架。對這樣一門課程或一本書的典型期望應該是什么?


本課程/書應該面向那些希望超越執行數據科學和機器學習任務的標準方式并利用Python數據科學生態系統的全部范圍以獲得更高生產力水平的人。

應該教讀者如何在標準流程中尋找低效和瓶頸,以及如何跳出框框思考。

重復性數據科學任務的自動化是閱讀本書的讀者將培養的一個關鍵心態。在許多情況下,他們還將學習如何擴展現有的編碼實踐,以便在Python生態系統中已經存在但在任何標準數據科學中都沒有教授的高級軟件工具的幫助下高效率地處理更大的數據集。

這不應該是一個常規的Python烹飪書教學標準庫,如Numpy或Pandas。

相反,它應該關注一些有用的技術,比如如何測量ML模型的內存占用和執行速度、質量測試數據科學管道、模塊化應用程序開發的數據科學管道,等等。它還應該包括Python庫,這些庫非常適合于自動化加速任何數據科學家的日常任務。

此外,它應該涉及幫助數據科學家處理大型復雜數據集的工具和包,而不是遵循標準的Python數據科學技術智慧。

一些需要掌握的具體技巧



為了把事情具體化,讓我們總結一些學習和實踐生產性數據科學需要掌握的具體技能。我也嘗試著加入一些有代表性的文章的鏈接,作為每一項技能的參考。

  1. 如何為data Science/ML編寫快速高效的代碼,以及如何度量它們的速度和效率(參見本文)
  2. 如何構建模塊化的、有表現力的數據科學管道以提高生產率(參見本文)
  3. 如何為數據科學和ML模型編寫測試模塊(參見本文)
  4. 如何有效地處理大型和復雜的數據集(這在傳統的DS工具中是很困難的)
  5. 如何充分利用GPU和多核處理器來完成各種數據科學和分析任務,而不僅僅是專門的深度學習建模(參見本文)
  6. 如何為data Science/ML思想或模型調優的演示開發快速GUI應用程序(請參閱本文),或者如何在應用程序級別輕松(快速)部署ML模型和數據分析代碼(請參閱本文)

一本關于這個主題的理想的書將…



  1. 教授如何在標準數據科學代碼中查找低效和瓶頸以及如何跳出框框來解決這些問題。
  2. 教授如何編寫模塊化、高效的數據分析和機器學習代碼,以提高多種情況下的生產力--探索性數據分析、可視化、深度學習等。
  3. 涵蓋范圍廣泛的附帶主題,如軟件測試、模塊開發、GUI編程、ML模型部署作為web-app,這些對于初露頭角的數據科學家來說是非常寶貴的技能,在任何一本標準的數據科學書籍中都很難找到。
  4. 包括并行計算(例如DASK、Ray)、可伸縮性(例如VAEX、Modin)和GPU驅動的數據科學堆棧(Rapids)。
  5. 向讀者展示并引導他們了解數據科學工具的更大且不斷擴展的Python生態系統,這些工具與軟件工程和生產級部署的更廣泛方面相聯系。

一個具體的例子:GPU驅動的分布式數據科學


雖然GPU和分布式計算的使用在學術界和企業界被廣泛討論用于核心AI/ML任務,但他們發現它們在常規數據科學和數據工程任務中的應用很少覆蓋。然而,使用GPU進行常規的日常統計分析或其他數據科學任務將大大有助于成為眾所周知的“高效數據科學家”。

例如,theRAPIDS軟件庫套件和Apis讓您--一個普通的數據科學家(不一定是深度學習從業者)--可以選擇和靈活地完全在GPU上執行端到端數據科學和分析管道。


即使使用一個普通的GPU,這些庫在速度上也比普通的Python庫有了顯著的提高。當然,對于生產性數據科學工作流,我們應該盡可能地采用這些方法。



類似地,有極好的開源機會可以超越Python語言的單核特性的限制,在不偏離典型的數據科學家角色的情況下接受并行計算范例。

摘要


我們討論了生產性數據科學工作流的實用程序和核心組件。我們想像一個關于這個主題的理想課程或書籍會給讀者提供什么。我們提到了一些具體的例子,并說明了這些好處。在要掌握的技能的上下文中還提供了一些相關的資源。

您可以查看作者的GitHub存儲庫以獲取機器學習和數據科學方面的代碼、思想和資源。如果你和我一樣,對人工智能/機器學習/數據科學充滿熱情,請在LinkedIn上添加我或在Twitter上關注我。



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢