熱線電話:13121318867

登錄
首頁精彩閱讀10個表明數據科學能力成熟的跡象
10個表明數據科學能力成熟的跡象
2016-04-05
收藏
如果你想造一艘船,

不要鼓勵人們去伐木、去分配工作、去發號施令。

你應該做的是,教會人們去渴望大海的寬廣無邊和高深莫測。

——安東尼·德·圣-??颂K佩里

在我們與美國政府、商業和國際組織的多年合作工作中,我們已經具備了幫助我們的客戶設計和建立一個數據科學功能以支持和驅動他們的任務的能力。這些任務包括提高健康水平、保衛國家、合理調配能源布局、更好地服務公民和退伍軍人、提升醫藥研究水平、等等。

通常情況下,我們的業務已經轉向為練習組織運作方式的轉型——“建設一種能力”意味著建設一種文化來支持和充分利用數據科學。在許多情況下,這種文化的改變能夠為世界上的許多挑戰性難題提供方向——貧困、疾病爆發、海洋健康等等。我們已經遇到了許多成功組織結構、技術水平、科學技能和算法模式。

基于這些經驗,我們在這里分享我們的觀點

如何評估您正在建設的數據科學能力是否已經成熟。這里是我們總結的一個成熟的數據科學能力所具備的特點TOP10,以下排名不分先后。

一個成熟的數據科學組織會……

1.將所有數據和數據訪問公開化

讓我們從弄清楚一件事開始:Silossuck!大多數在數據科學學習曲線上的早期組織會耗費大量時間收集數據而不去分析數據。而成熟的數據科學組織認識到,為了成功,他們必須使他們的成員能夠訪問和使用所有可用的數據——不是一部分數據、不是數據的一個子集、不是一個例子,而是所有的數據。律師不會只帶著部分支持他們的證據出庭,他們會帶上全部支持證據。同樣,成熟的數據科學組織使用他們所有的數據來了解他們的業務范圍,需求和性能。成功的組織會花時間去了解他們收集的所有資料,了解其用途和內容,并允許其被方便地訪問。

最近的一些文章指出大數據和數據科學是相互排斥的:專注增加數據收集(大數據)犧牲了質量分析(數據科學)。我們不這么認為。它們在數據驅動的決策上相互促進,并能在分析方法的創新上獲得巨大回報。

大數據并不是數據量,而是“全部數據”——用新奇有趣的方式連接不同數據源,以促進數據科學的探索,以及用于強大的預測和規則分析的所有數據資源的探索。

成熟的數據科學離不開公開所有數據的訪問權限。包括規范元數據、訪問協議和發現機制。直到你公開所有的數據,你的組織才會成熟。

組織的文化因素很重要。我們也看到過許多組織仍然使用把數據權限當成攔路虎:我們聽說我們無法獲得數據,因為數據管理者會使我們的訪問會受到限制。管理是必要的,但它不能是一個人或團體控制數據訪問的借口。放手吧,讓數據探索和創新搞起來!

2.全面使用Agile并利用dataops

(即,DevOps的數據產品開發)。

一些傳統組織陷在舊的管理流程和發展方式中。如果您的IT和發展部門提需求需要花一年或更多的時間,你可能會體驗到這種感受。這些組織拒絕改變——因此,對新工具的需求要經過評審委員會的評審和無休止的架構/設計部門的支出核算。通常,很多精力耗費在只是研究建議解決方案的可行性上了。其他時間,一個委員會將決定哪些是最為緊迫的問題。為了實現數據科學的成熟與成功,這種冗長的流程必須被打破。官僚主義在科學界無用,在數據科學方面也沒有用處??茖W界感謝探索,Agile,快速失敗的實驗設計(見“7.…感謝快速失敗的合作文化”)。

就像Agile開發深諳用戶故事,縮短了冗長的反復提需求和延遲的流程,Agile數據科學既需要與企業密切合作,也需要實驗的自由。Agile不是一種軟件開發的方法論,而是一種思維傾向。它滲透到所有成熟水平的組織。上次你的CEO或高管舉辦回顧或Scrum會議是什么時候?理解如何推動一個靈活的文化和組織、技術共同運行可能具有挑戰性,但因其合作方式和培養出的創造力,它是非常有益的。

有一種AgileDevOps的數據產品開發方法是至關重要的-我們稱之為dataops。Dataops與DevOps原則相同:產品開發人員和最終用戶之間的緊密合作業務;簡明清晰的需求收集和分析周期;較短的迭代周期產品發布(包括成功和快速失敗的機會);更快的上市時間;更好的定義你的MVP(最小可行產品)以更低的產品失敗率取得快速成功;創建一個動態的、有參與感的團隊氛圍。除了這些一般的Agile的特點,dataops還具備加速現時數據分析能力,隨之開拓了新的快速數據結構(如讀取數據湖架構),使以前不可能的分析變成可能。dataops將精確的重點放在每一個MVP和相應的SCRUMsprints,最大限度地減少團隊因漫長的審查周期和不同項目間的認知轉換成本而造成的停頓時間。

成熟的數據科學能力滿足一個Agiledataops環境的全部條件。

3.利用數據狂人與企業合作(即數據冠軍、編程馬拉松等)

生活在一個圈子中的數據科學團體會錯過圈子外最好的社區。能造成良好社會效應的數據科學活動,包括公開的或內部的競賽(如Kaggle),是提煉技能、學習新知識或與其他部門的業務合作的一個好方式。

此外,成熟的數據科學團體不會自己單獨進行嘗試,而是與組織的其他部門一同協作。成功策略之一是鼓勵內部科學競賽,這有利于團隊建設和整合。成熟的數據科學組織有一種合作文化,數據科學團隊會與企業合作,使用數據解決關鍵問題。

另一種方法是內部眾包(組織內)-這對于將最好的問題平面化供數據科學家解決尤為有效。成熟的數據科學能力內部眾包了數據科學處理流程里的多個不同的任務,包括數據選擇、數據清理、數據準備與轉換;集合模型生成;模型評價;和假設精煉化(見“4.……遵循嚴格的科學方法,,即測量、實驗、紀律化、迭代、精煉所需的假設”)。由于數據清理和準備會消耗整個項目50-80%的經歷,你可以通過并行化(通過眾包)這些清理和準備工作,特別是通過眾包,分配給組織里最熟悉特定的數據產品和數據庫的人,顯著節省了項目時間,并減少了風險。

此外,算法不能解決所有問題。讓算法了解所有可能的情況下的結果并選擇正確的結果仍然是極為困難的。人類仍然在不斷追尋著,人們深知挑戰的背景是對數據的實體解釋并建立精確的模型。

4.遵循嚴格的科學方法,即測量、實驗、紀律化、迭代、精煉所需的假設

求知心和無紀律是不相容的。這并不意味著約束、限制想象力或官僚化。一些組織會雇用一些數據科學家將他們安排在小房間里,并期待即時結果。另一種情況則是,數據科學家在IT組織里負責操作,而不是發現和創新。

成熟的數據科學能力建立在科學方法的基礎之上。首先,進行觀察(即,收集對您的業務產生影響的對象、事件和過程的數據)——收集數據,以便在您的業務流程中的適當的地方嵌入測量系統或流程(或人員)來了解您的業務。思考有趣的問題,探索,然后與您的業務伙伴制定可供實驗的假設。當你有了一套好的問題和假設,然后測試他們的分析數據,制定一個科學的數據模型,或者設計一個新的算法來驗證每一個假設,或者細化的假設和迭代。這種方法將確保值是設定在正式科學嚴謹的應用之上。這是一個成熟的數據科學能力無需置疑的特點。

科學流程的關鍵部分之一是了解你樣本的局限性。尋找和測試選擇偏差是關鍵。同樣重要的是要理解“大數據”并不意味著結束不完整的樣本(不公平抽樣)或樣本方差(自然多樣性)。

5.吸引和雇用各種參與者,給予他們探索的自由

關鍵詞:各種。一大堆數學書呆子有什么好玩的?(三個統計人員一起外出打獵。過了一會兒,他們發現一只兔子。第一個統計學家在一米范圍內瞄準并射偏了兔子。第二個在一米內內瞄準但沒有射中兔子。第三個人大叫“我們打中了!”)一些組織正在尋找偉大的程序員的數據科學家,他們也理解和運用復雜的應用數學,知道很多關于具體的業務領域,能與所有利益相關者的溝通?;蛟S會有一到兩個這樣的人存在,我們稱之為紫色的獨角獸。成熟的組織將數據科學視為一項團隊運動,每個成員都會貢獻寶貴的獨特技能和觀點。

他們的技能和能力如下:先進的數據庫/數據管理和數據結構,智能元數據索引,搜索,檢索,數據挖掘機器學習)和分析(KDD=數據知識探索);統計和統計程序設計;數據與信息可視化;挖掘網絡分析圖(一切都是圖?。?;語義(自然語言處理、本體);數據密集型計算(如Hadoop,Spark,云,等);建模與仿真(計算機數據科學);和特定領域的數據分析工具。

但不要以為每個人都一開始就要有這些技能中的至少一個——一些最好的數據科學組織,通過提煉目前員工中能夠促成數據科學成功的核心能力,培養這些技能(即使在非技術培訓的員工范圍內)。這些核心能力包括10個C:好奇(好奇)、創新(創新),溝通,協作,勇敢的解決問題,致力于終身學習、咨詢(可以做,會做的態度),冷靜的壓力下(堅持,應變能力,適應性和模糊性),計算,和關鍵思想家(客觀分析儀)。

多元化觀點的益處是多方面的。它們使提出的問題更有趣,但更重要的是,它們使答案更有趣、有用、有益。更大的背景下的答案可以產生更大的影響。成熟的數據科學能力意味著,你需要的不僅僅是數學或計算機科學方面的人。成熟的組織能夠完美整合業務專家、中小企業、“數據講故事的人”,創新的“數據藝術家”,然后給予他們探索和發掘數據資產的全部權力的自由。這種富有多樣性的團隊輸出將比任何紫色獨角獸更為豐富。記住,擁有一匹馬和一頭鯨比獨角獸更好!

6.毫不留情地問正確的問題,并不斷尋找下一個。

一個成功的、成熟的數據科學能力的基礎是能夠提出正確數據類型問題的能力。這是基于理解企業如何運作或經營的挑戰體現在自身身上。最好的數據科學團隊有著前面提到的所有優秀品質(見“5…吸引和保留不同的參與者,使他們自由地探索?!保汉闷?、創意、溝通、協作、勇敢的問題解決者、終身學習者、實干者、有韌性。

成熟的數據科學能力的展現在不懈追求新問題(甚至可能是之前永遠不會被問到的問題)和在問題中提出疑問!數據科學成熟使組織能夠從企業的整體層面上去提出一些尖銳的問題,只需規定如何詢問這些問題,而不害怕得到“錯誤的答案”。

在這種情況下,隨著數據科學能力的成熟的是分析能力的成熟。高級分析往往被描述為超越傳統商業智能的分析的新階段,包括描述性分析(后見)和診斷分析(監督)。當前高級分析包括了這些新階段:預測分析(遠見)和規范分析(充分地洞察你的業務,知道哪些決定、行動或干預將導致最佳的、最優的結果)。分析的下一個新興階段成熟是認知分析(“正確的景象”)-知道你的數據(在正確的時間,在正確的語境,正確的使用案例。這種“認知”的能力不只是得到正確的答案,還要能提出正確的問題(特別是從來沒有被要求或考慮的問題)。分析成熟度是數據科學能力的最高水平成熟。正如諺語所說:“最壞的問題是你不問的那個問題?!?/span>

7.感謝快速失?。╢ast-fail)的合作文化。

文化是一種很難定義的東西,但是如果你用文化來評估一個團隊,它是很好的指標。有些組織害怕失敗,或有一種“不贊成”文化。他們更加注重戰略而不是文化。但不少企業專家提醒我們“文化早餐策略(或午餐)”,因此,你對數據科學文化所做的準備要早于你的數據科學策略。承認錯誤是一回事,但有目的地用你的數據去探索未知并不是一個錯誤。你可以通過自我提問測試你的組織成熟度:當我的假設失敗時會發生什么?快速失敗的心態就是這句話表達的含義:“好的判斷來自經驗。而經驗來自壞的判斷?!?/span>

真實的數據科學(基于嚴謹的科學方法論,見4.……遵循嚴格的科學方法,即測量、實驗、紀律化、迭代、精煉所需的假設)探索那些可以通過agility的多個假設的迭代很快學會的事物。這可能需要你邀請你的業務合作伙伴探討你的數據‐使用DataOps(見“2.……全面使用Agile并利用dataops(即DevOps的數據產品開發)”)。擁有數據和工具直接關系到它的成功和成熟(見“1.……將所有數據和數據訪問對其成員開放?!保?。成熟的數據科學能力會考慮到一個迭代的fast-fail文化可能會幫你實現最有價值的發現,做出以證據為基礎的最好的決定,并為您的組織提供最具創新性的選擇。

一個項目失敗的陰影往往難以被克服。很難界定花費有限的資源卻發現假設是錯誤的——來自知道在文化中那些沒有做的事常常會失去或不被慶祝的價值。一個成熟的數據科學能力和傳統的A/B測試相似。設計實驗來測試、用評估替代假說,其中一個可能包括一些干預或調整(治療樣本)二是零假設(適用于控制,未經處理的樣品)。通常情況下,這些實驗中的一個將失敗,另一個不會。這是一個測試的全部要點。如果一個組織不能接受失敗,那么他們就無法獲得成熟的數據科學。

值得強調的是,快速失敗構成了機器學習算法的分析基礎。具體而言,許多分類算法的目標是盡可能準確地定義邊界(盡管是復雜的)來區分不同類別的對象。

這個邊界可能是線性的(例如,如果你的團隊比我的團隊獲得更多分數,你便獲勝),它也有可能是傾斜的(例如,如果你A+B兩門考試的總成績是140(滿分200)然后你便通過這門課程),或者它可能很復雜(當你處理高維的復雜數據時,超平面能夠用支持向量機SVM)算法將兩個類別區分開來)。

為了在復雜的分類規則之間劃分邊界(例如,商業決策、產品選擇或類標簽),這個問題的空間可以表示為一個在不同區域的邊界被精確地定義的映射的練習。

沿每一個“英寸”確定邊界的位置需要詳細、全面的調查。例如,如果你想檢驗當你打折時你的客戶會在黑色星期五購買你的產品這一假設,那么你需要嘗試多種折扣(10%,20%,30%,40%,甚至0%)看哪里是真正的邊界。在確定你的投資回報率優化的邊界上,你的利潤率是非常關鍵的,這意味著尋找邊界兩側的點(失敗和成功的條件),直到找尋邊界點最后形成一個框架。在這種情況下,快速失敗是必要的,否則資源投資就浪費了。

8.通過插圖和講故事來展示自己的見解

大多數組織都有某種形式的報告。這通常集中產生于月度或每周回顧中,其中折線圖、柱狀圖或餅圖會說明了在報告中的時間內發生了什么。這意味著,該組織的能力不會超越問“發生了什么,什么時候?”這個水平,它局限于描述性分析的世界里。它為預測和規范分析的興起提供契機。因此,成熟的數據科學組織將會問:“為什么會發生這樣的事情,接下來會發生什么,我們能做什么來取得更好的結果?”并且組織可以通過詢問“我應該對我的數據提出什么問題?”取得進一步成熟。

當有洞察力的產生來回答“如果怎么樣會怎么樣”問題(“什么可能發生”或“什么是所有可能的結果,如果我們…?),這些回答不能被簡化為一個直線圖或條形圖來說明結果的影響。圖表、美麗獨特的插圖不僅是你努力工作的證明,更會產生關鍵性的影響。成熟的數據科學能力聚焦于更難回答的問題,然后用新的和創造性的方式回答(說明),故事,和見解,數據顯示出來。

因此,成熟的數據科學團隊包括一個或更多的以藝術家的角度描繪數據和用數據講故事的人。故事和可視化是我們在事實間建立聯系的地方。它們使聽者能夠更好地理解上下文(什么?),為什么(這么說?),以及“什么將在未來發生”(現在會發生什么?)。

9.建立價值證明,而不是概念證明。

許多組織寄希望于從現成的數據科學中尋找答案。他們想利用供應商告訴他們會解決他們的問題特定的工具,所以他們成立了一個Hadoop環境(或類似的),將數據導入到它,問一個問題,看看系統是否有提供了現成的“正確答案”!對嗎?

錯!

成熟的數據科學能力意味著有條理地安排你的試驗。什么是你真正希望你的試驗證明的概念或真正的商業價值?價值證明改變了工作的價值命題。所以,更多的關注于價值(回答新的問題,開拓新的市場,獲得新的見解),而不是那些你已經知道了答案的問題。因此,專注證明你正在建設的數據科學能力將是一個持續證明價值的旅程,(例如,10倍于許多我們已有的經驗),這將解決組織最大的“未知的未知數?!?/span>



建立與價值的思想,用Agile來武裝你所做的(見2.……全面使用Agile并利用dataops(即DevOps的數據產品開發))。DataOps文化慶祝成功的MVP(最小可行產品)-盡可能快的提供有價值的產品(而不是概念證明),從而使團隊走向下一個成功。

10.將數據科學作為一種做事方式,而不是一件要做的事。

數據科學不僅僅是一個口號,或只是數據分析師或商業智能功能的一個標簽。不要把它用來做一個更好的月度報告(“請呈上TPS報告封面”)。它當然不是一勞永逸的。

數據科學是組織思考方法和運作模式的根本轉變。它包括以數據為核心的所有功能,是一種新的有趣的方式,使組織更具創新性。成熟的數據科學能力的證據是一個組織相信并以此為信條:“我們現在是時候開始思考將數據科學作為一種職業,而不是工作;作為企業文化,而不是企業議程;作為一種戰略,而不是一個計謀;作為一種核心競爭力,而不是一個過程;作為一種行事方法,而不是一件要做的事情?!?/span>

最后,我們提供一些組織可能需要的識別當前成熟度的指標,以及國家走向大數據科學成熟的建議指標。


原文 | Peter Guerra & Kirk Borne翻譯

 數盟

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢