熱線電話:13121318867

登錄
首頁精彩閱讀數據科學優質課程推薦2:統計入門課程篇
數據科學優質課程推薦2:統計入門課程篇
2017-05-04
收藏
一年前,我退出了加拿大最好的計算機科學項目之一,利用在線課程資源開始創建屬于自己的數據科學碩士課程。通過 edX ,  Coursera ,以及 Udacity 我可以學習我所需要的一切,而且學的更快、效率更高,成本更低。

之后我分析了目前所有的在線數據科學課程,并整理出了一系列課程清單。在本系列的第一篇文章中我推薦了一些優質的編程課程(想學習數據科學?我們整理了一份優質編程入門課程清單),作為本系列的第二篇文章,我將為數據科學初學者推薦一些統計類課程。


統計和概率


課程清單中很多課程我都上過,其他課程均根據網站評分和評論等進行了篩選。我知道成為一名數據分析師以及數據科學家的學習者需要掌握什么技能。

對于本指南,我花了 15 多個小時查找截止到 2016 年 11 月前所有關于統計和概率的在線課程,并從其大綱和評論中提取關鍵信息,對其評分。除了開源的 Class Central  社區和其數以千計的課程評分及評論的數據庫,我沒有借助其他任何幫助。

自 2011 年以來, Class Central 的創始人 Dhawal Shah 一直密切的關注著在線課程。在 Dhawal 的幫助下,我列出了這份課程清單。

如何選擇課程

每個課程必須符合以下四個標準:

1.必須是入門課程,幾乎不需要或者需要很少統計學和概率知識。
2.必須可以隨時學習或每幾個月可以學習。
3.必須有一定教學時長:完成課程至少需要十個小時。
4.必須是可互動的在線課程,沒有書本或文本教程。 雖然后者也是學習統計學和概率的可行方法,但本指南更側重于課程。
我們盡力涵蓋符合上述標準的所有課程。由于 Udemy 上關于這個領域的課程總共有幾百個,所以在此僅考慮評論最多和綜合評分最高的課程。如果我們錯過了一些課程,請給我們留言。

如何評估課程

我們從 Class Central 以及其他評論網站整合了課程的平均評分和評論數量。然后計算每個課程的綜合評分。如果一系列課程有多個課程(如德克薩斯大學奧斯汀的“數據分析基礎”系列就分為兩個部分),我們就計算所有課程的平均評分。同時還根據評論內容進行補充。

我們根據以下三點對課程做出推薦:

1.每個課程均通過編程示例進行教學—— 最好是R 或 Python 。
2.涵蓋概率和統計學的基礎內容。 最好包含描述性統計,推理統計和概率理論。
3.教學大綱與數據科學的相關度。大綱中是否包含一些生物統計學課程中所教授的基因組學內容。 大綱中是否涵蓋數據科學中不常用的前沿概念。

Python 和 R 語言是數據科學領域最主流的兩種編程語言

為什么要針對編程?

擁有哈佛大學應用數學碩士學位的數據科學家 William Chen 在 Quora 上回答過一個熱門問題:“針對數據科學,如何學習統計數據?”

丨對于任何有抱負的數據科學家,我強烈建議根據編程示例學習相關統計,最好以 Python 或 R 語言為例.

由于許多數據科學家的統計工作是以編程進行的,那么掌握當下流行的工具當然是有益的。

統計與概率

概率不等同于統計數據,反之亦然。 關于兩者的區別,我最喜歡的解釋來自于石溪大學:

丨概率用于預測未來事件發生的可能性,統計則用于分析過去事件的頻率。

而且進一步解釋道,“概率是數學的理論分支,它用于研究數學定義的影響,統計是數學的應用分支,它試圖分析現實世界的現象”。

統計通常被視為數據科學的支柱之一。 對于概率的關注較少,但是它也是數據科學課程的重要組成部分。

來自哈佛統計局的教授 Joe Blitzstein 在 Quora 上回答中表示,有抱負的數據科學家也應有較好的概率理論基礎。

擁有沃頓商學院統計學博士學位的數據科學家 Justin Rising 認為“較好的基礎” 意味著要達到概率學本科學歷水平。

我們認為最合適數據科學家的統計和概率課程是…

· 數據分析基礎 - Part 1:使用 R 語言進行統計 德克薩斯大學奧斯汀分校(edX)

· 數據分析基礎 - Part 2:推論統計學 德克薩斯大學奧斯丁分校(edX)


“數據分析基礎”包含兩個評論最多的統計學課程,課程有 20 條評論,綜合評分為 4.48 。 該系列是少數以編程為例,且高評分的課程。 雖然在任何一個課程標題中沒有體現,但是課程大綱基本符合我們的課程標準。這些課程在基礎知識的深度和廣度上非常適合數據科學初學者。

“數據分析基礎”系列講師是來自德克薩斯大學奧斯汀分校的講師和高級統計顧問 Michael J. Mahometa 。

這兩個課程均免費。 每個課程的預計學習時長為 6 周,每周 3-6 小時。有評論寫道:

“是十分優秀的課程! 我學習了Part 1,收獲頗多,所以決定繼續學習 Part 2。Mahometa 博士是非常好的老師,他們的團隊十分優秀。 練習很有趣,材料(視頻,實驗室和習題)都選擇得當。 我向任何對統計分析感興趣的人推薦本課程(作為機器學習,大數據,數據科學等課程的入門)。 若從 1 到 10 分打分,我給 50 分!”


專業課程推薦

截止至( 2016 年 12 月 5 日):我們原本的第二推薦,加州大學伯克利分校的 “ Stat2x :統計入門”系列在本文發布幾周后關閉了他們的課程。所以我們把在其他推薦部分排名第一的課程放在此處。

使用 R 語言學習統計 杜克大學 Coursera
包含以下五個課程:
· 概率和數據入門
· 推論統計
· 線性回歸和建模
· 貝葉斯統計
· 使用 R Capstone 學習統計
這五門課程基于杜克大學的優質課程數據分析和統計推理(有 55 條評論,綜合評分 4.82 )。課程很綜合性、全面的介紹了概率。

Mine?etinkaya-Rundel 博士是此課程的主要講師。個別課程盡管無法評分,但是可以免費試聽。每個課程的預計學習時長為 4-5 周,每周 5-7 小時。有評論認為:

“這是我迄今為止上過的很棒的課程之一。?etinkaya-Rundel 博士是一位很優秀的老師,他非常喜歡與學生交流。課程有各種各樣的教學方法和工具。課程中有很多小測試讓我們練習,同時還有 R 語言編程實驗室和項目。課程不是太難?!?

其他概率學課程

· 概率入門——科學的不確定性 麻省理工學院(MIT)
如果想更深入的學習概率學,可以試試課程。該課程有 34 條評論,綜合評分 4.91 。注意:該課程是一個挑戰,比大多數 MOOC 課程長很多。還涉及些數據科學初學者不需要掌握的內容。

該課程的老師來自麻省理工學院電氣工程與計算機科學系的 John Tsitsiklis 教授和 Patrick Jaillet 教授。本課程的內容與相應的 MIT 課程(概率系統分析與應用概率)基本相同,后者課程已在 50 多年內持續的改進。預計學習時間為 16 周,每周 12 小時。有評論寫道:

“許多在線課程模式類似,但是該課程感覺像在麻省理工學院這樣頂尖學校的課程——嚴格并以練習驅動。教授精湛的教學經驗令人佩服,在課程中沒有一秒是多余的,老師們按照適合的講課速度配合詳細的講解。練習能夠幫助你理解運用概念。這是我上過最好的在線課程?!?

其他推薦

我們推薦 #1 系列課程有 20 條評論,綜合評分為  4.48 。下面讓我們看看其他課程推薦。

· MedStats :醫學統計學(斯坦福大學/斯坦福大學 OpenEdx ):課程著力于醫學。 包含少數 R 語言課程,盡管不像不如 UT Austin 系列那么多。即使對于非醫學方向的人來說也是不錯的選擇。該課程有 32 條評論,綜合評分 4.58 。
· SOC120x:我 “心”統計:學會愛統計(圣母大學/  edX ):針對沒有技術背景的觀眾。不包含編程內容。課程和老師看起來都很有趣。該課程有 11 條評論,綜合評分 4.54 。
· QM101x:商業統計(印度管理學院班加羅爾/  edX ): 4 門課程系列之一。著重商業方面。課程內容包括編程。截至 2016 年 11 月,該系列的最后兩節課尚未發布。該課程有 27 條評論,綜合評分 4.43 。
· 概率與統計研討會(Udemy):課程講師,加州大學洛杉磯分校安德森管理學院執行MBA課程副主任 George Ingersoll 博士。該課程付費。課程使用 Excel 。該課程有 452 條評論,綜合評分 4.4 。
· 描述性統計簡介(圣何塞州立大學/ Udacity):2 門課程系列之一。課程視頻很短,內容不含編程。該課程有 8 條評論,綜合評分 3.38 。
· 推論統計簡介(圣何塞州立大學/ Udacity):2 門課程系列之一。兩門課程我都上過,作為對我本科生統計課程的復習,從中我對推論統計獲得了更深入的認識。我很喜歡 Katie Kormanik 老師的教學風格。課程視頻很短。該課程有 5 條評論,綜合評分 4.4 。
· 6.008.1x:計算概率和推理(麻省理工學院/ edX):著力于 Python 編程示例的兩門統計學系列之一。該課程有 12 條評論,綜合評分 4 。
· 基礎統計(阿姆斯特丹大學/ Coursera):阿姆斯特丹大學的兩門統計學課程——社會科學專業方法與統計學之一。課程內容不含編程。 該課程有 8 條評論,綜合評分 4.06 。
· 推論統計(阿姆斯特丹大學/ Coursera):阿姆斯特丹大學的兩門統計學課程——社會科學專業方法與統計學之一。課程內容不含編程。該課程有 3條評論,綜合評分 4 。

阿姆斯特丹大學的社會科學專業方法與統計課程包含基礎統計和推理統計。

· PH525.1x:統計和 R 語言(哈佛大學/ edX):edX上的 7 門類型課程之一。著力于生命科學。使用 R 語言,但評論認為 UT Austin 系列更好。該課程有 26 條評論,綜合評分 3.96 。
- PH525.3x:統計推論和高通量實驗建模(哈佛大學/ edX):edX上的 7 門類型課程之一。著力于生命科學。使用 R 語言,但評論認為 UT Austin 系列更好。該課程有 4 條評論,綜合評分 4.63 。
· 統計簡介(Udacity):這是 Udacity 最早的課程之一,有一些缺陷。內容不含編程。該課程有 41 條評論,綜合評分 3.93 。
· 數學生物統計學訓練營1(約翰·霍普金斯大學/ Coursera):2 門系列課程之一。著力于生命統計學。該課程有 23 條評論,綜合評分 3.13 。
· 數學生物統計學訓練營2(約翰霍普金斯大學/ Coursera):2 門系列課程之一。著力于生命統計學。該課程有 3 條評論,綜合評分 3.83 。
· KIexploRx:使用 R 語言探索統計(Karolinska Institutet / edX):該課程比起統計學不如說更偏向數據探索。內容含編程。該課程有 22 條評論,綜合評分 3.77 。
· 統計推論(約翰霍普金斯大學/ Coursera):約翰霍普金斯大學的數據科學專業兩個統計學課程之一。評論不高。該課程有 29 條評論,綜合評分 2.9 。
· 回歸模型(約翰·霍普金斯大學/ Coursera):約翰霍普金斯大學的數據科學專業兩個統計學課程之一。評論不高。該課程有 30 條評論,綜合評分 2.73 。
· DS101X:數據科學與數據分析的統計思考(哥倫比亞大學/ edX):微軟數據科學專業課程認證的一部分。教學大綱簡短。評論不高。該課程有 24 條評論,綜合評分 2.77 。
· 了解臨床研究:統計學背后(開普敦/ Coursera):“這不是一個全面的統計學課程,但它為醫學研究和常用統計分析領域提供了實用的方向?!?著力于醫療。該課程有 15 條評論,綜合評分 5。
· MED101x:應用生物統計學導論:醫學研究統計(大阪大學/ edX):著力于生物統計學。內容包含編程。該課程有 3 條評論,綜合評分 4.5。
· 概率與統計(斯坦福大學/斯坦福大學OpenEdx):課程大綱不錯。內容不含編程。該課程有 1 條評論,綜合評分 4.5。

斯坦福大學的概率與統計課程看起來不錯,但評論很少。

· 推論和預測的商業統計(伊利諾伊大學香檳分校/ Coursera大學):管理經濟與商業分析專業化 7 門系列課程之一。使用Excel。該課程有 1 條評論,綜合評分 5。
· 探索和制作企業決策數據(伊利諾伊大學香檳分校/ Coursera大學):管理經濟與商業分析專業化 7 門系列課程之一。使用Excel。該課程有 1 條評論,綜合評分 5。
· 概率,統計和隨機過程導論(馬薩諸塞州阿默斯特/獨立課程):沒有視頻課程。該課程有 2 條評論,綜合評分 2.5。
· 005x:基因圖譜統計方法導論(京都大學/ edX):著力于遺傳學。需要一定統計和 R 語言知識。該課程有 1 條評論,綜合評分 2.5。
· 基因組數據科學統計(約翰霍普金斯大學/ Coursera):著力于基因組。不是很好的入門課程:“該課程對于對這個領域感興趣,并且有 R 語言程序背景的人來說是不錯的選擇?!痹撜n程有 2 條評論,綜合評分 2。


截至2016年11月,以下課程沒有評論。


· 使用 R 語言的統計入門(DataCamp):內容包括編程。 包括 26 小時的視頻內容,有超過 4萬5千 人參加。 DataCamp 是一個熱門的選擇。
· 使用 R 語言學習統計計算 ——簡單入門(倫敦大學學院/獨立):內容包含編程。
· 概率與統計(Carnegie Mellon):使用 R 語言。主要是基于文本教程。相當于大學一個學期的統計課程。
· 概率與統計簡介(馬薩諸塞理工學院/麻省理工學院 OCW):傳統講座形式(視頻)。
· 工程統計分析基礎(俄克拉荷馬大學/ Janux):著力于工程。
· 基礎商業統計(俄克拉荷馬大學/ Janux):著力商業。
· STAT101x:大數據應用生物統計學(德克薩斯大學醫學部/ edX大學):著力于生物統計學。
· 416.1x:概率:基本概念和離散隨機變量(Purdue University / edX):2 門系列課程之一。
· 416.2x:概率:分布模型和連續隨機變量(Purdue University / edX):2 門系列課程之一。
· 商業統計與分析專業(萊斯大學/ Coursera):使用Excel。
· 統計入門:概率(哈佛大學):傳統講座形式(視頻)。Quora 上常常推薦。
· 統計(Dataquest):多課程系列,內容約 12 小時。需要訂閱。使用 Python 編程示例的兩門統計課程之一 。 根據 Dataquest :“統計課程目前正在重新編寫,預計將于11月底發布?!?


結語


本文是六部曲系列的第二篇文章,涵蓋了數據科學領域的最佳在線課程。 我們在第一篇文章中介紹了編程,該系列的剩下部分將涵蓋數據科學的其他核心部分:統計學,數據科學過程(data science process),數據可視化機器學習。

最后一篇將會是對這些課程的總結,以及其他主題的最佳 MOOC 課程,如數據整理,數據庫以及軟件工程。


原作者   David Venturi
編譯 CDA 編譯團隊
本文為  CDA 數據分析師原創作品,轉載需授權


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢