熱線電話:13121318867

登錄
首頁精彩閱讀如何通過網絡數據的獲取,做出這些數據分析項目?
如何通過網絡數據的獲取,做出這些數據分析項目?
2019-10-10
收藏
如何通過網絡數據的獲取,做出這些數據分析項目?

作者 | AlfredWu

來源 | Alfred數據室

最近有很多人在問,我是如何收集網絡的數據,如何進行數據處理、數據分析以及可視化呈現的。

也有人問的更具體,關于Python數據分析的一些問題。到底應該怎么學?如何快速入門,以及技術和業務之間的瓶頸如何突破?

因為深度的數據分析往往可以看到事情的本質,而這又是一項在任何情況下都超級加分的技能??偨Y了一些經驗,希望能夠給還沒入門、或者入門之后就遇到瓶頸的新手一些建議。主要是關于如何系統地進行學習規劃,以及可以避免的一些坑。

有的同學看到數據分析幾個字,就馬上開始Python函數+控制語句、R語言和ggplot庫……上來一頓騷操作,還沒入門就放棄了。

這就是需求不明確導致的,當然學習方式也值得商榷,那到底數據分析需要什么樣的技能呢?這里作為例子,從招聘網站上找了幾個數據分析的崗位,我們來看看具體的要求是怎樣的。

如何通過網絡數據的獲取,做出這些數據分析項目?
如何通過網絡數據的獲取,做出這些數據分析項目?
如何通過網絡數據的獲取,做出這些數據分析項目?

其實企業對數據分析師的基礎技能需求差別不大,可總結如下:

  • 分析工具:一般要求SPSS/SAS/R/Python等分析工具至少會一種,會兩種以上加分,有的企業因內部需求,會指定的一種;
  • 數據庫:絕大會要求會SQL,部分要求SQL/NoSQL會一種,高級的分析師或者大型企業要求能夠處理大數據,需要Hive(較少的需要Hadoop/Spark);
  • 統計學:若無相關專業背景,需要具備相應的統計學、概率論等基礎知識;
  • 數據挖掘:少部分要求會建模,了解基本的算法模型,能夠做數據預測,即便不要求,算法也是加分項;
  • 結果輸出:Excel/PPT/Tableau。Excel和PPT要求的比較多,主要用作常規的數據呈現,與業務部門溝通等,Tableau一般作為可視化或者分析工具的加分項或者要求之一;
  • 業務/思維:對某個領域(如電商、金融等)相關業務的了解或具有產品、運營方向的分析經驗,有自己的數據分析的方法論和項目經驗,具備Data Sence。

看上去很簡單呀,對吧,但其實你把每個技能拆分開來,都是一個不小的知識體系。如果我們按照數據分析的流程來細分的話,每個部分應該掌握的技能,大概是這樣的:

如何通過網絡數據的獲取,做出這些數據分析項目?

那對于這個技能體系,應該如何進行技能的訓練呢?先后順序是什么?哪些地方可能出現困難和瓶頸?

按數據分析的流程的順序循序漸進,你會知道每個部分需要完成的目標是什么,需要學習哪些知識點,哪些知識是暫時不必要的。

接下來我們分別從每一個部分講講具體應該學什么、怎么學。

- ? -

數據獲?。号老x與公開數據

數據是產生價值的原材料,這也是數據分析項目的第一步。

通常我是通過爬蟲獲取相關數據的,一來數據有很高的時效性,二來數據的來源可以得到保證,畢竟網上的信息是異常豐富的。

這些分布在網上零散的信息,通過爬取整合之后,就有比較高的分析價值。

比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息,爬取租房網站上某城市的租房信息,獲取知乎點贊排行、網易云音樂評論排行列表?;诨ヂ摼W爬取的數據,你可以對某個行業、某個事件、某類人群進行分析。

在爬蟲之前需要先了解一些 Python 的基礎知識:數據類型(列表、字典、元組等)、變量、循環、函數………

以及,如何用 Python 庫(urllib、BeautifulSoup、requests等)實現網頁爬蟲。如果是初學,建議從requests+xpath開始。

當然,并不是說公開數據就沒用了,在進行分析的時候,需要一些歷史數據進行對比,需要一定的行業標準進行參考的時候,公開數據的價值就體現出來了。

一些科研機構、企業、政府會開放一些數據,還有一些行業研究報告、他人的調查結果,都可以成為你的數據來源。這些數據集通常比較完善、質量相對較高。

如何通過網絡數據的獲取,做出這些數據分析項目?

- ? -

數據存?。?a href='/map/sql/' style='color:#000;font-size:inherit;'>SQL語言

我并不是每次都會用到數據庫,但很多時候這確實是做數據分析項目的必備技能,包括求職就業,也是必選項。

通常數據庫的使用能夠讓數據存儲、管理更方便,同時也能提高數據提取和使用的效率,特別是在數據上了一定的量級之后,誰用誰知道。

大多數的企業,都會以SQL的形式來存儲數據,如果你是一個分析師,也至少要懂得SQL的操作,能夠查詢、提取公司的數據。

SQL作為最經典的數據庫工具,為海量數據的存儲與管理提供可能,并且使數據的提取的效率大大提升。需要掌握以下技能:

  • 提取特定情況下的數據:企業數據庫里的數據一定是大而繁復的,你需要提取你需要的那一部分。比如你可以根據你的需要提取2017年所有的銷售數據、提取今年銷量最大的50件商品的數據、提取上海、廣東地區用戶的消費數據……,SQL可以通過簡單的命令幫你完成這些工作。
  • 數據庫的增、刪、查、改:這些是數據庫最基本的操作,但只要用簡單的命令就能夠實現,所以你只需要記住命令就好。
  • 數據的分組聚合、如何建立多個表之間的聯系:這個部分是SQL的進階操作,多個表之間的關聯,在你處理多維度、多個數據集的時候非常有用,這也讓你可以去處理更復雜的數據。

SQL這部分比較簡單,主要是掌握一些基本的語句。當然,還是建議找幾個數據集來實際操作一下,哪怕是最基礎的查詢、提取等。

- ? -

數據處理:Pandas/Numpy

爬回來的數據通常是不干凈的,數據的重復、缺失、異常值等等,這時候就需要進行數據的清洗,把這些影響分析的數據處理好,才能獲得更加精確地分析結果。

那么我們需要用相應的方法去處理,比如重復數據,是保留還是刪除;比如殘缺數據,我們是直接去掉這條數據,還是用臨近的值去補全,這些都是需要考慮的問題。

如何通過網絡數據的獲取,做出這些數據分析項目?

對于數據預處理,學會 pandas/Numpy (Python包)的用法,應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下:

  • 選擇:數據訪問(標簽、特定值、布爾索引等)
  • 缺失值處理:對缺失數據行進行刪除或填充
  • 重復值處理:重復值的判斷與刪除
  • 異常值處理:清除不必要的空格和極端、異常數據
  • 相關操作:描述性統計、Apply、直方圖
  • 合并:符合各種邏輯關系的合并操作
  • 分組:數據劃分、分別執行函數、數據重組
  • Reshaping:快速生成數據透視表

數據清洗通常被視為臟活,但事實上這步非常重要,這直接決定了你的分析結論的準確性,決定你的項目是否能順利進行下去。

- ? -

數據分析與可視化

這個是從數據中發現信息、挖掘價值的過程,大多數的結論在這個步驟產生,主要做兩件事情。

一是對于既定的數據分析主題進行拆解,評估需要從哪些維度進行分析,提取哪些數據,這個步驟很大程度上來源于經驗或者對于具體事務的理解;

二是通過探索數據分布的規律、數據的特征,發現從表面看不到的信息,完成這個流程主要是通過數據本身進行探索。

前者對應的是描述性的數據分析,主要考慮數據的指標,看從不同的角度去描述數據能夠得出哪些結論。

這個地方就需要對統計學的相關知識有一定的了解,比如:

  • 基本統計量:均值、中位數、眾數、百分位數、極值等
  • 其他描述性統計量:偏度、方差、標準差、顯著性等
  • 其他統計知識:總體和樣本、參數和統計量、ErrorBar
  • 概率分布與假設檢驗:各種分布、假設檢驗流程

后者則是探索型的數據分析,主要通過繪制數據的分布圖形,來觀察數據的分布規律,從而提取隱藏的某些信息。

這里就需要對掌握可視化的技能,Python中的Matplotlib/Seaborn都可以完成可視化的工作。可視化既是探索性分析的工具,也可以輸出最終結果呈現的圖形。

當然,還有一種是預測型的數據分析,需要構建模型來預測未來數據,我在推文中用的比較少,但在企業中應用非常多。

做數據分析的話,會用比如線性回歸、邏輯回歸、決策樹等這些基本的算法,用于解決基本的回歸和分類問題,就OK了。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢