熱線電話:13121318867

登錄
首頁精彩閱讀數據科學的七種常見錯誤丨轉行,你適合數據科學嗎
數據科學的七種常見錯誤丨轉行,你適合數據科學嗎
2017-06-06
收藏

數據科學的七種常見錯誤丨轉行,你適合數據科學嗎

商業領域的數據科學家其實和偵探有著異曲同工之處,就是要去探索未知。不過在這過程中可能一不小心就會墜入“陷阱”,所以這就需要去了解和避免這些“陷阱”。

愛爾蘭小說家James Joyce 提到過 “錯誤是探索的入口”,這句話在大部分情況下這是無可厚非的。

對于數據科學家而言,犯錯可以幫他們發現新的數據趨勢和找到更多數據模式。話雖如此,對于數據科學家而言,允許的誤差范圍往往非常小。數據科學家是通過大量考察才被高薪聘請的,而企業也擔不起由于忽略失敗案例和重復犯錯所產生的嚴重后果。因此,這些錯誤有可能會毀掉一個數據科學家的職業生涯。因此對數據科學家來說,追蹤所有數據實驗、從錯誤中吸取經驗教訓、以及避免在未來的項目中出錯是至關重要的。

夏洛克·福爾摩斯以下的這句話很好的詮釋了數據科學家在商業領域中扮演的角色:

“我是夏洛克·福爾摩斯,去了解別人不知道的事是我的使命”

而對于企業而言,如果想在商業中保持競爭力,并不僅僅要依靠大數據分析。如果不事先評估數據質量以及他們希望達到的目標和利潤,就很難判斷出哪個數據分析項目會帶來盈利。出現第一次失誤是可以接受的,但反復地在同一個地方摔倒,就會造成商業運營中的重大損失。

應用Python語言去學習數據科學,并成為企業數據科學家

以下來分享該如何避免常見的數據科學錯誤:

錯誤 1:因果關系和相關性的概念混淆

對于任何數據科學家而言,把相關性和因果性混淆都會造成損失?!赌Ч斫洕鷮W》里提到了伊利諾伊州的一個案例,由于分析顯示每個家庭的書籍數量和學生考試分數有直接聯系,導致了伊利諾伊州給每個學生都發了書。而進一步的研究顯示,家里有書的學生可能從未翻閱過這些書,但他們的學術水平表現的更為優秀。因為那些經常買書的父母更能提供給孩子更加好的學習氛圍,而這個觀點則是在原來的假設上做了修正。

大量數據科學家在處理大數據時會假設相關性,直接映射因果關系。雖然用數據來衡量兩個變量之間的相關性沒錯,但是總用“起因和影響”來類推,可能會導致錯誤的預測和低效的決定。為了利用大數據去呈現最好的結果,數據科學家需要去弄清相關性和因果本質區別。相關性是指X與Y通常會被放在一起觀察,而因果關系是指X引起了Y。這在數據科學中是完全兩種不同的概念,但這些差別經常被數據科學家忽視。在不知道起因的情況下,僅根據相關性所作出的決定的成效,完全取決于企業的數據類型和想解決的問題。

每個數據科學家必須明白:“在數據科學中,相關性不代表因果關系”,如果兩個事物互相關聯,這不代表一個是由另一個引起的。

錯誤 2:沒有選擇適合的可視化工具

大部分數據科學家都致力于學習分析技術,但忽略了用可視化路徑去更好地展現和分析數據的方式。如果數據科學家沒有選擇合適的可視化工具去研發模型、監控未知數據或展現結果,那么再好的機器學習模型,價值也會因此被削弱。

另外一個常見的誤區就是,很多數據科學家選擇可視化圖表類型不是基于數據集的特征,而是他們自身的審美愛好。為了避免這種情況,第一步就是要定下可視化主要目的。

僅僅一個優秀的機器學習模型并不能立刻分享和傳達重要的數據信息。數據科學家需要結合有效的可視化工具來解釋數據規律以應用到實際工作中。常言道“一圖勝千言”,數據科學家不僅要熟練運用可視化工具,并且還要了解其中的原理,用更直觀和易于理解的方式,對數據分析的結果進行分享和溝通。

因此,解決任何數據科學問題的關鍵一步就是深入了解數據,通過豐富直觀的可視化,了解分析的基礎和搭建相應的模型。

錯誤 3:沒有選擇合適的模型驗證頻率

有部分數據科學家認為,建立出優秀的機器學習模型之后就勝券在握了,但實際上,確保模型能夠維持相應的預測能力也相當重要。所以這需要數據科學家在一定時間內,反復驗證自己的模型。而這一點往往很容易被忽略。他們習慣性地認為,如果預測模型和觀測數據相吻合,該預測模型就是理想的。

然而,已建立的模型的預測效果,往往會隨模型關系不斷變化而改變。因此,為了避免這種情況,最好的解決方法是:每個小時都用新數據對模型進行評分,或者基于模型中的關系變化快慢逐日逐月評分。

由于不同因素影響,模型的預測能力往往會變弱,因此數據科學家需要確定一個常數,用以確保模型的預測能力不能低于可接受的水平。實際工作中,數據科學家有時需要重建數據模型。而且通過多個數據模型來解釋變量的分布要遠優于依靠單個模型。

同時,為了保留模型的預測效果和有效性,選擇迭代周期是非常重要的,如果無法做這點,那最后結果也會差強人意。

錯誤 4:缺少對問題或計劃的分析

數據科學協會主席Michael Walker提出:“在數據科學中,最極致的方法之一就是設計實驗、根據科學的標準去提出好的問題、收集合適的數據集、收集并解釋你所得到的結果?!?

數據科學是一個結構化的過程,以明確的目標和問題為始,隨后提出假設,最終找到答案。然而,數據科學家有時會直接分析數據,而沒有事先考慮,“我需要去解決一個什么樣的問題?”對于任何數據科學家來說,設定一個項目目標和模型目標都是必不可少的。如果不知道自己想要解決什么問題,那最后結果往往也是不盡如意。

很多數據科學項目最終是為了回答“是什么”的問題,因為數據科學家無法時刻攢問題在手,所以也無法根據這種理想的路徑進行數據分析。然而,數據科學應該是利用大數據去回答“為什么”的問題。數據科學家應該采用新的方式去整合已知的數據集,去探討一個未曾有過答案的問題。為了改善現狀,數據科學家應該關注在:“如何獲得正確的分析結果?!边@可以通過明確的實驗設計,變量和數據準確性,并且清晰明白他們想在數據中獲取什么信息。這也將簡化以往通過滿足假設的統計方法來回答商業問題的過程。就像Voltaire說的那樣,“判斷一個人,是通過他提出的問題,而不是他所給的答案?!边@對于任何企業來說,首先明確好研究問題對于達到研究目標是至關重要的。

錯誤5:僅僅關注于數據

博思艾倫咨詢公司的首席數據科學家Kirk Borne曾說過,“人們往往忽略了關于數據使用、數據保護、還有統計方面的倫理問題。再者,人們忽略了如果用足夠長的時間去處理數據,便可以從中挖掘很多信息。如果能收集大量數據,便會發現其中的關聯性?,F在人們認為如果他們擁有大數據,他們會相信他們所看到的任何事情?!?

數據科學家經常會對來自多個數據源的數據感到興奮,然后在沒有考慮加強商業意識的情況下,開始創建圖表和可視化處理來做分析報告。這種行為能把任何企業推向危險邊緣。數據科學家通常賦予數據太多決策權力,但他們不夠重視培養自己的商業意識,不夠了解如何才能使企業受益。數據科學家不僅僅要只讓數據說話,而且還要善用自己的智慧和商業意識。數據是可以影響項目的決策,但絕不是判定決定權的最終因素。企業可以聘請那些能把各領域知識和專業技術相結合的數據科學家,這也是為了避免此類錯誤的解決方案。

錯誤 6:忽略可能性

有時候,數據科學家往往會忽略了方案的可能性,更容易導致失敗的決策。數據科學家常常犯一些主觀性錯誤,比如他們認為,企業采取了X操作就一定會實現Y目標。然而,某些特定問題是沒有唯一答案的,因此數據科學家要理解,從不同可能性中所做的選擇。某些特定問題都存在一個以上的可能性,而其中每種都有一定程度的不確定性。情景規劃和概率理論是數據科學兩個不可忽視的基本核心,它們可以加大決策正確性的概率。

錯誤 7:在一個錯誤的測量總體上建立模型

如果某個項目的目標是建立一個影響客戶選擇因素的模型,那么,僅僅考慮高影響力客戶行為的數據并不完善。該模型還需要考慮到那些影響雖然不大,但卻具有潛在影響力的客戶的行為數據。低估任何一組的預測能力都可能導致模型歪斜或者一些重要變量被弱化。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢