
數據科學有助于數據挖掘,數據分析
“數據科學家”這一術語尚未失去吸引力,據Metamarkets公司的共同創始人及首席技術官Michael Driscoll說。Metamarkets是一家為數字、社交和移動媒體公司提供預測分析的創業公司。
當Driscoll 用這個術語描述在分析和商業智能領域出新出現的一種角色時,其他人并不打算這樣做,并且這個頭銜倍受爭議。
Driscoll把數據科學家們形容成土木工程師。
“土木工程師一部分是物理學家,一部分是建筑工人,”他說。同時,數據科學家必須能夠在數據領域里找到理論和實踐之間的平衡。
最近業務調查分析公司與Driscoll一起談論了數據科學家以及他們如何利用預測分析闡明未來。
什么是數據科學?
Michael Driscoll:數據科學是一種新詞語,因此像所有的新詞一樣,它是一個進化的術語和標題。實際上,數據科學家是那些將數學家和統計學家的理論專業知識和注重實踐的軟件開發人員的工程操作相結合的人。在過去的十年里,處于統計分析、應用數學和計算機科學交叉領域的機器學習正在復興。但要讓所有這些理論被利用,最后還需要進行編碼。所以數據科學家能將這些理論和實際相結合的人。
當你談論數據科學的實踐這一塊時,你指的是什么?
Driscoll:我一般以三種技能來描述數據科學,首先,“數據轉型”,它包括切片和切塊的能力,轉換,提取和以一種輕便、流動的方式處理數據。第二個技能是數據建模,它主要是得到一組數據并能夠在數據中開發一種模式的假設,再利用統計工具對這一假設進行測試。第三個技能是數據可視化。一旦你將數據轉換成可利用的形式 ( 第一個技能), 你就已經開發出一種關于一些數據特征的模型可能涉及到一系列觀察,一些數據的結果 ( 第個二技能)。然后你需要以一種決策制定者能了解的方式傳達這樣的洞察力。這需要能夠講一個故事或建立一種視覺敘事的能力,而這正是數據可視化要解決的問題。
為什么是建立一種敘述是如此的重要?
Driscoll:如果一位數據科學家正致力于這個海量信息及大量信息輸出的時代,我們需要一種以同等高效率來消費這些信息的方法。數據可視化是其中的方式之一。事實上,它可能是我們可以一種非常高的效率來消費信息的最重要的方式。
預測分析如何與數據科學組合在一起?
Driscoll:數據做數據的事情。所有這些數據科學的目標最終是預測系統和消費者的行為。實際上,僅擁有數據表面的洞察力是不夠的。你希望能夠對下一步會發生什么進行預測。據Karl Popper說,科學的整體目標是做出可以否定的預測。而做出預測真的是數據科學家所有工作的最終目標。它是前瞻,而不是后顧。有人或許會說,商業智能和這種報表的領域都是關于過去的;預測分析是關于未來的。
然而,一些人說預測分析需要回顧才能預測未來。
Driscoll:絕對的。數據挖掘,預測分析的目標是研究過去,但最終能生成對未來的預測。我舉個例子。Facebook嘗試去了解在Facebook 系統上什么類型的用戶行為會導致更高的參與平臺,才可能會在注冊后三個月保持活躍。所以他們查看了所有用戶的過去。他們查看用戶的性別,有多少朋友,他們都在什么樣的學校。他們查看所有的這些不同用戶特征的觀察,然后,三個月之后,他們研究了這些被觀察到的特征中有哪些最有可能會響應不久后的高層次的活動。他們發現導致三個月后更活躍地使用Facebook的最高相關特征是你擁有的朋友數量。這就是一種預測力解析的洞察力。結果,一旦人們在Facebook上注冊,他們就努力建議盡可能多的人加入你的網絡。預測分析本質上是將觀察的事件和結果之間建立聯系;這可能是最簡單的解決方式。有很多方法來切分它,但最終,你是在建立一個系統的數學模型。為了測試數學模型是否是正確的,你做出預測,然后觀察未來事件是否能證實或反駁你對系統做出的假設。
但是,你真的需要一個數據科學家來建立你的模型嗎?
Driscoll:這里有一個預測模型的例子:你想看看用信用卡購物的行為特征以及是否它是欺騙性的采購。讓我們假設你的兩個特征是一天之中的時間和采購所處的國家。在某些情況下,通過國家進行的信用卡欺詐行為的簡單可視化數據會跳到你面前。任何在愛沙尼亞發生的采購,如果信用卡持有人在美國,就會是欺詐購買。你不需要一個統計模型告訴你這一切。它只是對數據的測繪。事實是當差異變小了,那么你需要依靠統計來告訴你是否觀察到的趨勢是有意義的。顯而易見的事情是容易的。歸結為更加細致入微的區別時,需要統計區分出噪音和信號之間的區別。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25