熱線電話:13121318867

登錄
首頁大數據時代數據科學不會在10年內滅絕,你的技能可能
數據科學不會在10年內滅絕,你的技能可能
2022-02-28
收藏

作為一個在數據科學領域工作了十多年的人,看到人們預言該領域將在10年內如何滅絕是令人沮喪的。給出的典型原因是emergingAutoMLtools將如何消除從業者開發自己算法的需求。

我發現這樣的觀點特別令人沮喪,因為它阻止了初學者足夠認真地對待數據科學,從而在它方面出類拔萃。坦率地說,對于一個需求只會進一步增加的領域,看到這樣的預言是對數據科學界的傷害!


為什么任何一個理智的人會投入有限的時間和精力去學習即將滅絕的東西?


給你點東西。如果有一個領域你最有可能真正退休,那就是數據科學。我將給出數據科學不會很快滅絕的四個關鍵原因。然后我也會給你我的建議,以確保你在10年后保持在數據科學的正確一邊。

數據科學不會滅絕,但如果你不跟上它的步伐,你的技能可能會滅絕。我們潛水吧。

1。數據科學已經存在了幾個世紀


讓我們從科學開始。我不必讓你相信科學已經存在了幾個世紀??茖W的本質是從數據中學習。我們觀察世界上的事物(收集數據),然后我們創建一個模型(傳統上稱為理論),可以總結和解釋這些觀察。我們創建這些模型來幫助我們解決問題。

數據科學的本質也正是如此。收集數據,通過創建模型從中學習,然后使用那些模型解決問題。多年來,不同的學科已經開發和完善了幾個工具來實現這一點。根據該領域的重點,使用不同的名稱來描述這組工具和過程。術語Data Science。

然而,以前的時代與現在的不同之處在于數據量和我們可用的計算能力。當我們只有幾個數據點和幾個維度時,手工將它們放在紙上并擬合一條直線(回歸)或識別模式是可能的?,F在,我們可以廉價地從多個來源(多個特性)收集大量數據。當你有大量的數據點和維度時,擬合一條直線(或集群)是不可能的,也是不可行的。


如果收集數據并開發模型來解釋它的做法已經存在了幾個世紀,為什么你認為它會在未來10年內滅絕?


如果有什么不同的話,我們將收集更多種類的數據,我們將需要創造性地將它們結合起來解決問題的新方法。

2。開發模型只是實際項目的一小部分


在“自動機器學習”的保護傘下的幾種工具正在獲得吸引力,其中一些可能會導致數據科學的民主化。但是,大多數這樣的工具將有助于加快對cleaned數據輸入的不同算法的測試和實現。

但是向模型中獲取干凈數據的能力一點也不簡單。

事實上,一些與數據科學相關的調查已經指出,任何數據科學家在收集和清理數據上花費的時間都是不成比例的。例如,Anaconda的年度調查(數據科學家使用的領先分布之一)指出,數據科學家將66%的時間用于數據加載、清理和可視化,只有23%的時間用于模型訓練、選擇和評分。我在這個領域工作了十多年的個人經歷也是類似的。

學習算法如何在底層工作并理解它們的細微差別一點也不簡單,許多在線課程花時間解釋這些都是正確的。然而,這種對算法的關注只會造成一種錯誤的錯覺,好像數據科學就是關于模型的。許多有經驗的實踐者開始看到以數據清理為代價對模型的過度強調。Andrew Ng(該領域的領先專家)一直鼓勵數據科學界轉向以數據為中心的方法,而不是我們大多數人目前在數據科學項目中采用的以模型為中心的方法。在他的《收入通訊》中,他說:


這是一個常見的笑話,80%的機器學習實際上是數據清理,好像這是一個較小的任務。我的觀點是,如果我們80%的工作是數據準備,那么確保數據質量就是機器學習團隊的重要工作。


像Kaggle這樣的網站進一步加劇了這種情況,在這些網站上,參與者可以獲得干凈的數據,任務僅限于開發不同的模型,目的是最大化預先確定的性能指標。(Kaggle真棒?。?/em>

一個真實的項目處理幾個問題,而這些問題并不是從仔細清理的數據或定義的問題開始的。在大多數項目中,我們先驗地不一定知道哪些特性是相關的,收集數據的頻率如何,以及需要回答的正確問題是什么。歡迎來到現實世界!

新的自動化工具的出現將繼續使不同模型的實現變得容易和可訪問。然而,它無法對現實世界項目中更具挑戰性的問題進行分類。許多這樣的問題依賴于上下文,自動化的時機還不成熟。

3.現實世界的數據科學項目需要迭代開發


也許是受到關于數據科學的炒作的驅使,我遇到過這樣的情況,人們接近我,告訴我他們有數據,并希望我應用“數據科學”來解決他們的問題(這可能也不一定是明確定義的)。我敢打賭,許多不是數據科學家的人認為它是某種魔力(一個可以在一邊輸入數據,另一端獲得輸出的工具)。

恰恰相反,真正的項目有需要平衡的權衡。這需要一種迭代方法,首先部署初始模型,然后在收集更多數據以進一步改進時監視性能。

任何部署的模型只有在按預期使用時才有用。這是不能保證的。需要有一個熟練的人員元素,可以繼續監視和診斷已部署模型的使用,并提出適當的解決方案來改進它。然而,監測部分不一定要自動化,甚至不一定要定量??赡軙l生你無法預料的非常意外和奇怪的事情。

倫敦大都會面部識別系統


不久前,倫敦大都會警察局測試了一個實時面部識別系統。該系統有攝像頭,可以掃描購物中心和公共廣場上的人,提取各種面部特征,然后將這些特征與觀察名單中的嫌疑人進行比較。然后,該系統將顯示任何匹配,供官員審查并決定是否需要阻止任何嫌疑人(在某些情況下,逮捕)。關于該系統運作的一項獨立聲明提出了重大關切,并強調了幾個限制。在經過6次審判確定的42名嫌疑人中,只有8名(僅19%)證明是正確的匹配。

有許多數據科學算法被歪曲的例子,使它們不夠充分,需要進一步發展。就目前的情況來看,我們甚至還沒有處于模型被廣泛部署和使用的階段。因此,我們甚至沒有足夠的模型漂移或出錯的用例來進一步自動化此類工具。到目前為止,我們所擁有的最好的方法是在模型部署時識別問題(例如,銀行、醫療保健、警務)。

這是最先進的。我們開發和部署模型,但結果證明它們是不夠的,不適合目的。我們正處在一個階段,我們只看到使用不合適的模型的早期后果。有沒有自動化的解決方案來處理這個問題?一個都沒有!

即使是手動,我們也在受到挑戰!

4。數據科學是科學是有原因的


這是我最喜歡的一點。一段時間以來,平凡的、重復的、非認知要求的任務一直處于自動化的風險之中。然而,這種干擾只會導致更多需要人類創造力和解決問題的工作。我們的記憶很糟糕,但我們,人類,在識別模式以解決問題時,卻異常出色。


“你的頭腦是用來有想法的,而不是拿著它們?!贝笮l·艾倫


數據科學是科學是有原因的。而是解決問題。我們面臨的問題,需要創造性的、巧妙的解決方案。我們正是在這一點上大放異彩,這是一種非常令人向往的技能。數據科學的用例只會增加。這僅僅是因為我們正在收集更多的數據,我們有更多的計算能力在小芯片上實現復雜的數學運算。

讓我向您展示實現當今最著名的機器學習算法是多么的微不足道。

假設您已經仔細清理了輸入變量(x)和輸出變量(y),準備進入模型。使用ingscikit-learn(Python中一個著名的開源機器學習庫),我們可以用以下兩行代碼實現決策樹

from sklearn import tree
tree.DecisionTreeClassifier.fit(X,Y)


我們可以用以下兩行代碼實現支持向量機

from sklearn import svm
svm.SVC.fit(X,y)


你看到圖案了嗎?我們所需要做的就是改變函數名,然后你就有了模型。真正的數據科學家不會坐著從頭開始重新實現這些算法。他們最終將使用行業中成熟的庫,如Scikit-learn。


但你真的認為大多數數據科學家都在這樣做,并因這項技能而被雇傭嗎?改變模型中的一個單詞,然后運行,然后報告結果?不!


然而,作為一名數據科學家,如果這是你關注的全部,那么對這種技能的需求很快就會消失。

實現一個模型是大多數人可以做的事情,如果他們知道工具,而且很容易讓人接受培訓。硬的部分是:

  • 知道何時使用某個工具
  • 為什么某個工具不能很好地執行
  • 哪些步驟可能有助于提高性能
  • 在給定的問題中,哪些權衡是重要的
  • 有洞察力和能力將以上所有內容與總體目標聯系起來
  • 具備與領域專家溝通的技能

上面提到的技能是通過在現實世界中工作而獲得的,具有挑戰性的項目。它們需要時間,學習過程需要認知能力。然而,隨著我們收集更多的數據,面對獨特的行業挑戰,面臨更多的競爭(而不是更少?。?,這些技能將變得越來越重要。

我上面列出的技能屬于解決問題和創造力的永恒領域。這些技能將繼續備受追捧,因為它們不能自動化。

最后的想法


無論如何,你應該有一個你學習的工具,變得熟練,并理解來龍去脈,因為你得到了更多的經驗。但是,要確保你能利用那些讓你在挑戰性項目中工作的機會,在這些項目中你可以鍛煉你的創造性和解決問題的技能。

不要擔心數據科學很快就會滅絕。這樣的擔心只會分散你享受旅程的注意力,你會帶著半心半意的信念接近這個領域。如果你相信這樣的末日預言,你將無法利用有希望的機會,讓你的技能停滯不前。事實上,你的需求將會消失!


“無論你認為你能,還是你認為你不能,你都是對的?!焙嗬じL?


但是,如果您繼續從事具有挑戰性的數據科學項目(從數據收集到模型部署),10年后您將處于該領域的正確一邊,您的需求只會增加!

選擇權在你。對此,作者提出了建議



數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢