熱線電話:13121318867

登錄
首頁職業發展成為一名數據分析師的新手指導
成為一名數據分析師的新手指導
2015-12-12
收藏

成為一名數據分析師的新手指導

本文是著名學習網站Udacity的數據分析基礎性文章。由于Udacity的就業導向,不同于單純介紹學習路徑,文章還從職業人士的角度講述數據分析的方方面面。文章同時附有視頻,不失為一篇好的介紹文。以下為小標題:

- 數據分析師們做些什么?
- 如何在沒有相關正規教育經歷的情況下成為數據分析師?
- 一份能使你直通面試的簡歷
- 數據分析的概念
- 數據科學家是什么?
- 機器學習和自動駕駛車輛
- 文化基因如何在Facebook上傳播?
- 什么是數據角力?
- 學什么?以什么順序?
- 工具
- 資源

數據分析師干什么?

數據分析師的主要職責包括尋找、檢索、整理和傳遞從數據中來的見解。數據分析師也幫助報告和發現隱藏在數據潛在產品中的有意義的見解。從商業指標到用戶行為和產品表現,他們負責獲取、分析和報告范圍的數據。

舉個例子,職責可能涵蓋:

書寫查詢從數據庫中檢索數據,和正確的利益相關者分享數據
瀏覽用戶行為來尋找可以用來提升公司產品表現的見解或趨勢
解釋A/B測試的結果,基于此結果做出產品推薦
在有(或無)正規教育的情況下這樣成為數據分析師

作為一名數據分析師,具有分析(數學/統計和編程)、溝通能力(展示/數據可視化)、注重細節地解決問題的系統化途徑、和在商業文案中應用它們的能力等強大的組合能力。下面我們概述了一些你可以學習一些新技能的途徑。

網上有許多公開的數據集——它們是很好的資源,提供給你機會去建立有趣獨立項目的組合。我們在Mortar的朋友建立了一個主要列表,收錄了從當今這個領域最好的知名的一些數據科學家那里找到的有趣數據集。

如果機器學習更符合你的風格,Kaggle競賽會是一個磨練你的技能和自我提升的好舞臺(一些公司招聘時搜索Kaggle排行榜)。

如果你想通過數據可視化展示你的發現,你可以在像Many Eyes、Plot.ly或Blocks.io的網站上創建并與其他人分享有趣的可視化。

想展示你的新技能和項目,你可以通過GitHub pages、WordPress、Medium或其他網頁或個人博客平臺創建的網站來展示。

能使你獲得面試的技能組合

優秀的技能組合應該展現一系列項目和你學過的技能范圍

完美地,這些項目要展示你的:

R語言、Pandas、Numpy、Scipy、Scikit-Learn包或者相關數據分析工具方面的實踐經歷
使用和整理大規模(太大而難以適合一個電子表格)、不相干的和(或)非結構化數據集的經歷
機器學習數據挖掘技術的知識
強大的問題解決、數學、統計和定量推理的技能
最重要的,這些項目應該展示你出色的溝通能力。特別地,顯示你能分析復雜數據集,尋找有趣的見解,用正確的商業文案清晰而簡潔地展示它們。

數據分析師的概念

視頻:數據科學家是什么

了解數據科學家應該具有的能力。

視頻:機器學習和無人駕駛汽車

了解谷歌的無人駕駛汽車怎樣運用機器學習。

視頻:模仿因子怎么通過Facebook傳播

了解模仿因子和它們怎樣在社交媒體中傳播

視頻:什么是 Data Wrangling

了解它是什么意思和它怎樣用于數據分析。

以什么順序學習?

技能

如果你有興趣成為數據科學家,你應該在日常工作中勝任和能夠運用以下技能。

編程

作為數據分析師,具有編程能力很重要。曾經很多次你使用過非編程工具,如Excel,但是最好和最常用的一些工具,如Pandas、Numpy,以及其他一些庫,都是基于編程的。使用這些基于編程的工具,你能夠做更深入、更高效的分析。由于流行度高,Python和R都是很好的入門編程語言。

統計學

最低要求,你應該能理解基本的統計描述和統計推斷。你應該理解分布的不同類型,哪種統計檢驗適用于哪種文本,還要能夠在面試中解釋線性回歸的基礎知識。

機器學習

如果你有大量數據,機器學習中的技術是難以置信的強大。你需要用這些數據去預測未來,或者給出合適的建議。你應該懂得一些最常用的監督學習和非監督學習的算法(他們是兩種不同類別的機器學習算法),比如k最近鄰算法、支持向量機和k均值聚類。你可能不必懂得這些算法背后的理論和實現細節,但知道什么時候使用這些算法很重要。

數據清理

在理想的世界里,你面對的數據集是干凈的、準備好進行分析的。然而,現實世界中,絕少是這樣的。你的數據集很可能缺失數值、格式錯誤、或者輸入錯誤。例如,讓我們討論一些日期,一些系統表示2014年9月1日為9.1.2014,其他一些系統會表示為09/01/2014。像這樣的情況,你的數據清理技能會派上用場。

溝通和數據可視化

作為數據分析師,你的工作不僅要解釋數據,還要同其他利益相關者高效交流你的發現,這樣你就能幫他們做出數據提供的決策。許多利益相關者不會對你的分析背后的技術細節感興趣,這就是為什么你能通過易于理解的途徑交流和展示你的發現很重要。

工具

這里使你入門的是你要熟知的一些最流行的編程語言和工具。

Python或R:不僅僅是這些編程語言易于學習(相對于C來說),一些最流行的數據科學庫,從數據分析到數據可視化,都是在這兩種編程語言之上建立的。
Pandas/Numpy/Scipy:Python數據科學庫中的三駕馬車一起工作真的很好。Pandas有助于結構化數值或時間系列數據,這樣數據就容易用于分析和處理。Numpy有助于實現許多常用的科學和數學運算,如矩陣乘法,所以你不必重復發明輪子。Scipy在Numpy基礎上拓展,包含很多比你能在Numpy找到的數學運算功能更完備的版本。
Scikit-Learn:機器學習算法難以高效且正確地實現。Scikit-Learn是一個經過實戰測試的工具,它是一個已經為你實現了常用機器學習算法的Python庫,從組合方法到k均值到SVM,它都有。
當你準備創建一個指數尺度的散點圖和成千上萬的數據點,Mattplotib和Ggplot2應該是你要找的庫。他們分別是Python和R的實質上的繪圖可視化標準庫。
這是列表中僅有的JavaScript庫。如果你想創建靜態可視化或圖形,Mattplotib和Ggplot2很棒。然而,如果你想創建交互式可視化,例如當你的鼠標停在圖形上,一些東西彈出,或改變形狀,D3.js是你要的庫。不過,你要使用一些HTML、CSS和JavaScript,所以在嘗試D3.js之前,確保復習一下你的前端web開發技能。



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢