熱線電話:13121318867

登錄
首頁精彩閱讀想入門數據科學領域?明確方向更重要
想入門數據科學領域?明確方向更重要
2018-12-18
收藏

作者 | Jeremie Harris

翻譯 | Mika

CDA 數據分析師原創作品,轉載需授權

 

我在一家數據科學培訓公司工作。對于學員,我常常給出的建議并不是推薦庫或者工具,而是讓他們首先明確自己想成為什么樣的數據科學家,確定自己的方向。


當中的原因在于,數據科學并不是單一且定義明確的領域,公司并不會雇用所謂的全能型數據科學家,而是會選擇有擁專業技能的個人。


為了更好的理解,假設你們公司想聘請數據科學家。那么,你們肯定有明確的問題需要解決,而這需要具體的技術知識和專業知識。例如,有些公司將簡單模型應用于大型數據集;有些公司將復雜模型應用于小型模型;有些公司需要動態訓練模型;有些公司根本不使用(傳統)模型。


以上這些都需要完全不同的技能。對于想進入數據科學領域的人群收到的建議往往是:學習使用Python,構建分類/回歸/聚類等項目在開始找工作,這其實是不太合理的。


數據科學家在工作中承擔了很多責任。人們會將過多的內容歸入“數據科學”的范疇。為生產構建強大的數據管道,這應該是數據科學方面的問題。開發一種新的神經網絡,這應該是數據科學方面的問題。


這種現象并不好,因為這會讓有抱負的數據科學家失去方向和對特定問題的關注。


為了避免成為全能型數據科學家,再次之前讓我們先了解數據科學領域主要有哪些職位,以及他們常常被混淆的原因:


1. 數據工程師


> 職位描述

為處理大量數據的公司管理數據管道。這意味著在數據需要從源頭進行有效地收集和檢索,而且在使用前需要進行清理和預處理。


> 重要性

如果你只使用過存儲在.csv或.txt文件中的相對較小的數據集(小于5G),那么你可能很難理解為什么需要專人維護數據管道。

當中的原因在于:1)計算機很難承載大小為50 G的數據集,因此需要以其他方式將其提供給模型;2)大量數據可能需要花費大量時間來處理,并且經常需要冗余存儲。進行管理存儲需要專業的技術知識。


> 技能要求

你需要使用Apache Spark、Hadoop、HiveKafka。還需要有扎實的SQL的基礎。


> 處理的問題

如何構建每分鐘能處理1萬個請求的管道?

如何在不將其全部加載到RAM的情況下清理該數據集?



2. 數據分析師


> 職位描述

將數據轉化為可操作的商業見解。你通常會成為技術團隊和商業策略業,銷售或營銷團隊之間的中間人。數據可視化是你日常工作的重要組成部分。


> 重要性

有些人很難理解為什么數據分析師如此重要,但他們確實如此。數據分析師需要將經過訓練和測試的模型,以及大量用戶數據轉換為易于理解的格式,以便轉化為圍商業策略。數據分析師幫助確保數據科學團隊不會浪費時間來解決無法提供商業價值的問題。


> 技能要求

技能包括Python,SQL,Tableau和Excel。你還需要出色的溝通能力。


> 處理的問題

是什么帶來了用戶增長?

如何向管理層解釋最近的使用費讓用戶望而卻步?


3. 數據科學家


> 職位描述

清理和探索數據集,并進行能帶來商業價值的預測。你的日常工作包括訓練和優化模型,并將其部署到生產中。


> 重要性

當你有大量難以被解析的數據,你需要從中提取出可理解的分析見解。這是數據科學家的基本工作:將數據集轉換為易于理解的結論。


> 技能要求

包括Python、scikit-learn、Pandas、SQL、也許還需要掌握Flask、Spark、TensorFlow、PyTorch。有些數據科學職位純粹是技術性的,但大多數人要求你具備一定的商業意識。


> 處理的問題

我們有多少種不同的用戶類型?

是否能建立一個模型來預測哪些產品將銷售給哪些用戶?



4. 機器學習工程師


> 職位描述

構建、優化機器學習模型,以及部署到生產。你的工作離不開機器學習模型,而且需要將其放入全棧應用程序或硬件中,但也需要自己設計模型。


> 技能要求

需要掌握Python、Javascript、scikit-learn,TensorFlow 、PyTorch,以及SQL或MongoDB。


> 處理的問題

如何將此Keras模型集成到我們的Javascript應用程序中?

如何減少推薦系統的預測時間和預測成本?


5. 機器學習研究員


> 職位描述

找到解決數據科學和深度學習中的挑戰性問題的新方法。你不會使用開箱即用的解決方案,而是需要創建解決方案。


> 技能要求

需要用到Python、TensorFlow、PyTorchSQL。


> 處理的問題

如何將模型的準確性提高到最高水平?

自定義優化器有助于減少訓練時間嗎?


結語

我在這里列出的五個職位絕對不是孤立的。例如,在早期創業公司,數據科學家也需要充當數據工程師或數據分析師的角色。但是大多數工作會按類別分類,公司規模越大,類別則越具體。

總的來說,為了找到心儀的工作,你需要明確具體的方向。如果你想成為一名數據分析師,就不用學習TensorFlow;如果你想成為一名機器學習研究員,那么不用先學Pyspark。

可以思考一下你希望為公司帶來哪方面的價值,并朝著這個方向努力,這是入門的最佳方式。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢