熱線電話:13121318867

登錄
首頁大數據時代如果你必須重新開始統計,你會從哪里開始?
如果你必須重新開始統計,你會從哪里開始?
2022-03-30
收藏

作者李·貝克,Chi-Squared Innovations的聯合創始人兼首席執行官。

這些年來,我經常被初學者問到,他們應該從哪里開始統計,他們應該首先做什么,他們應該優先考慮統計的哪些部分,以使他們達到他們想要的地方(這通常是一個高薪的工作)。

現在,由于我幾乎完全是自學成才,我并不真的認為自己是一個人應該從哪里開始的權威,我很難用任何堅定的信念來回答這個問題。

當然,我對這個問題有一些想法,但這些想法是由我自己的經歷決定的。

所以我想我應該聯系一下我們的一些統計學朋友,看看他們能給派對帶來什么。

這篇文章中的每個統計人員都被問到了同樣的問題:

答案令人震驚--結果是如何從零開始成為一名現代統計學家的路線圖。

簡而言之,如何成為一名未來的統計學家而不需要任何一節課!

統計理論應用統計學

統計上存在分歧。一方面,你有那些在統計理論方面受過正規教育的人,另一方面,那些在實踐中學習的人。如果你像我一樣,你會是一個完全自學成才的統計學家,他渴望地看著另一邊甜美的綠草,希望我得到了適當的教育,這樣我就不會犯那么多愚蠢的錯誤。

但其他統計學家對此怎么看?

杰奎琳·諾里斯和我有相同的道路,但她和我的感覺不一樣。Jacqueline(@skyetetra)是一名數據科學顧問,也是《在數據科學中建立職業生涯》一書的作者之一,她告訴我,她從未接受過正規的統計學教育,而是學會了工作中需要的一切:

“如果我必須重新開始,我會做和第一次一樣的事情!我的背景是應用數學,所以我只在學術界上了一門統計學課程。統計方面的在職教育對我很有幫助,我認識的那些有更嚴格統計背景的人似乎沒有用到他們學到的很多東西。任何時候,我需要一些像不尋常的統計方法,我都可以自己閱讀和學習它。作為一名數據科學家,你需要對數據進行更廣泛的理性思考,這種思考可能來自許多領域,而不僅僅是統計學。對我來說,這是數學,但我見過許多人從許多背景中獲得它?!?

我對我從有限的統計教育中獲得的職業生涯非常滿意--如果我重新開始,我會害怕踩到統計蝴蝶,害怕改變時間表,以至于我最終成為一名用戶體驗設計師什么的?!?

另一方面,你有數據移動我(@datamovesher)的克里斯汀·凱爾,他受過正規的統計學教育。她告訴我:

“我在本科階段學習的大部分概率和統計都是理論上的。如果我必須重新開始,我會在本科階段學習更實用的統計課程。但即使我從頭開始學習,我也不會改變我在這個主題上攻讀正式學位的決定?!?

有趣的是,Chatroulette(@lisachwinter)的高級產品研究員麗莎-克里斯蒂娜·溫特(Lisa-Christina Winter)給我的建議恰恰相反:

“我會從統計理論開始--通過理解基本概念和它們的重要性。為了把它放在一個易于理解的框架中,我會在簡單的實驗設計的背景下研究理論?!?

那么為什么統計學的理論基礎對你來說很重要呢?

“雖然我在第一次學習統計學的時候并不欣賞,但我現在看到了通過使用公式書和分布表手工解決統計問題有多重要?,F在和某人一起工作時,很快就會非常清楚,更深入的統計理解是超級重要的?!?

怎么會呢?

“在忙于應用統計數據之前,先瀏覽大量理論統計數據,這讓我遠離了大量錯誤,而這些錯誤是我通過簡單地編寫語法永遠不會意識到的?!?

為商科學生創建數據科學課程的馬特·丹喬(@mdancho84)有一些關于學習統計的建議可以分享,他告訴我:

“我會做盡可能多的項目--構建產品是你學習的方式。當你遇到錯誤時,排除故障,創建,學習。這是一種可以直接轉移到你的業務中的技能?!?

他還告訴所有那些告訴我們如何學會多任務處理的人(我相信你們都知道一位大學講師告訴你們要學會這一點):

“我會專注于一個學習目標--這很容易分心。這會讓你花費數年時間。相反,專注于一個項目或一個學習目標。不是你聽到的每一項新技術。這會扼殺你的生產力。專注對學習至關重要?!?

OpenIntro團隊(@Minebocek)的米恩·切廷卡亞-倫德爾也建議遵循應用的統計路線:

“我從傳統的統計學入門課程開始學習統計學,讓我們記住一些公式,但并不真正接觸數據。在第一堂課之后,我花了一段時間才把這些東西放在一起,理解(并愛上?。┱麄€數據分析周期?!?

那么如果她不得不重新開始統計數據,她會怎么做?

“如果我重新開始,我很樂意在可以處理數據的地方開始學習統計學,進行實際數據分析(用R?。?,并專注于如何提出正確的問題,以及如何開始在真實、復雜的數據集中尋找這些問題的答案?!?

Garrett Grolemund在他給統計學新手的建議的第三部分的第二部分(看,我告訴過你我們會再收到他的信,不是嗎?)說如果他有機會重新開始統計:

“我會認真思考隨機性到底是什么。統計學是這些東西的應用版本,但我們太快就直接跳到數學/計算上了?!?

所以我們有了。十分之九cats統計學家更喜歡應用統計學!因此,下次當你為自己沒有理論背景而分析數據而感到遺憾時,請記住,你正在遵循許多受過正式培訓的統計學家如果有時間的話會走的道路。如果對他們來說足夠好,你知道剩下的...

頻率統計貝葉斯統計

在統計學中有一個分裂,那就是頻率論者和貝葉斯論者之間的分裂。

讓我們看看統計學家對這場辯論有什么看法。

我們從柯克·伯恩(@kirkdborne),天體物理學家和火箭科學家(嗯,火箭數據科學家)開始。令人驚訝的是,他告訴我他對當宇航員從來沒有任何興趣!

“我不是統計學家,也沒有上過一門統計學課程,盡管我在大學里教過。這怎么可能?”

有趣的是,這對我來說也是一樣的!他從哪里得到所有的數據?

“我在本科物理中學到了基本的統計學,然后在研究生院及以后,我作為天體物理學家做了多年的數據分析,學到了更多。大約22年前,當我開始探索數據挖掘、統計學習和機器學習時,我學到了更多的統計學。從那以后,我就沒有停止學習統計學?!?

這聽起來有點像我的統計教育。你所需要做的就是從天體物理學中去掉“Astro”,它們是完全相同的!那么他對重新開始統計數據有什么看法?

“我會從貝葉斯推理開始,而不是把早年的所有時間都投入到簡單的描述性數據分析中。這會讓我更早地學習統計學習和機器學習。我會更早地學會探索和利用貝葉斯網絡的奇跡和力量?!?

這也是作者、納什維爾范德比爾特大學醫學院生物統計學教授弗蘭克·哈勒爾(Frank Harrell)對按下統計重置按鈕(@f2harrell)的看法。他告訴我:

“在學習任何關于抽樣分布假設檢驗的知識之前,我會從貝葉斯統計開始,徹底了解貝葉斯統計?!?

當我問Data-Mania的首席執行官莉蓮·皮爾森(Lillian Pierson)從哪里開始時,她也提到了貝葉斯統計學:

“如果我必須重新開始統計,我會從3個基礎開始:t檢驗、貝葉斯概率和皮爾森相關性?!?

就我個人而言,我沒有做過很多貝葉斯統計,這是我在統計方面最大的遺憾之一。我可以看到用貝葉斯方法做事的潛力,但因為我從來沒有老師或導師,我從來沒有真正找到一種方法。

也許有一天我會--但在那之前,我會繼續傳遞來自這里統計學家的信息。

跟我重復:

學習貝葉斯統計。

學習貝葉斯統計。

學習貝葉斯統計!

模擬統計是新的黑色

谷歌決策情報主管凱西·科濟爾科夫(Cassie Kozyrkov)也給了我一個非常有趣的觀點,她告訴我她:

“大概喜歡用打印的統計表生篝火吧!”

嗯,阿門,但說真的,你會從哪里開始統計數據?

“模擬!如果我必須從頭開始,我想從基于模擬的統計方法開始?!?

好吧,我同意你的觀點,但為什么特別是模擬呢?

“在大多數STAT101課程中教授的‘傳統’方法是在計算機出現之前發展起來的,不必要地依賴于限制性假設,這些假設將統計問題塞進你可以用常見的分布和那些討厭的過時印刷表格分析解決的格式?!?

我抓到你了。那么你對打印的表格到底有什么不同呢?

“嗯,我經常想知道傳統課程是否弊大于利,因為我不斷看到它們的幸存者犯‘第三類錯誤'--正確回答錯誤的方便問題。有了模擬,你可以回到第一原理,發現統計學的真正魔力?!?

統計有魔力?

“當然可以!我最喜歡的部分是,通過模擬學習統計學迫使你面對你的假設所扮演的角色。畢竟,在統計學中,你的假設至少和你的數據一樣重要,如果不是更重要的話?!?

當談到他的建議時,KDnuggets(@KDnuggets)的創始人格雷戈里·皮亞特斯基建議:

“我會從利奧·布雷曼關于兩種文化的論文開始,另外我會研究貝葉斯推理?!?

如果你還沒有讀過那篇論文(這篇論文是開放存取的),Leo Breiman為算法建模做了鋪墊,在算法建模中,統計數據被模擬成一個黑箱模型,而不是遵循一個規定的統計模型。

這就是凱西得到的--統計模型很少適合現實世界的數據,我們要么試圖將數據復制到模型中(對錯誤的問題得到正確的答案),要么切換它,做一些完全不同的事情--模擬!

還有更多...

這是我的原始帖子的摘錄,它相當長--太長了,不能完整地在這里發布(有30多個世界級的貢獻者?。?。

如果你喜歡閱讀,你可能會有興趣聽聽Dez Blanchfield對領域專家的看法,或者Michael Friendly和Alberto Cairo對數據可視化的過去、現在和未來的看法。

還有一本免費下載的書詳細介紹了貢獻者的所有評論,包括Natalie Dean和Jen Stirrup對信息流和偵探工作的看法。

不要讓我從Charles Wheelan和Chelsea Parlett-Pelleriti關于交流的史詩般的建議開始,或者Apache Crunch項目創始人Josh Wills關于統計食譜、微積分和模擬統計之間的比較。

太棒了--你真的不想錯過他們!

請過來閱讀原始帖子。

簡歷:李·貝克里斯是一位獲獎的軟件創建者,他住在黑暗的房間里的鍵盤后面。只有監視器發出的光照亮他,他渴望找到電燈開關。他在科學、統計和人工智能方面有幾十年的經驗,他熱愛用數據講故事,然而盡管解釋了十幾次,他的母親仍然不明白他是做什么的。他堅持認為數據分析比我們想象的簡單得多,他創作了友好、易懂的書籍和視頻課程,教授數據分析和統計的基礎知識。作為卡方創新公司的首席執行官,有一天他想退休去做一些更簡單的事情,比如鱷魚摔跤。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢