
出品 | CDA數據分析研究院
來源 | 《Data Scientists at Work》
本系列整理對世界頂尖數據科學家們的訪談記錄。讓我們一起來領略他們對數據科學的理解和看法。
采訪的第一位嘉賓是Chris Wiggins。
Chris Wiggins是《紐約時報》的首席數據科學家,哥倫比亞大學應用數學副教授。
Chris Wiggins在《紐約時報》工作期間,正在創建一個機器學習小組,分析記者制作的內容、讀者消費文章所產生的數據,以及更廣泛的讀者導航模式所產生的數據,其首要目標是更好地傾聽《紐約時報》消費者的聲音,并重新思考未來100年的新聞業將會是什么樣子。
在哥倫比亞大學,Chris Wiggins專注于將機器學習技術應用于生物大數據研究。這包括對自然發生的網絡的分析,應用于生物時間序列數據的統計推斷,以及計算生物學中的大規模序列信息學。作為他在哥倫比亞大學工作的一部分,他是該大學數據科學與工程研究所(IDSE)和系統生物學系的創始成員。以下是采訪Chris Wiggins的對話整理內容。
您在哪里工作?
我在哥倫比亞大學(Columbia University)和《紐約時報》(New York Times)之間度過了一段時間。我在哥倫比亞大學擔任應用數學副教授,在《紐約時報》擔任首席數據科學家。
我可以長時間地談論每個機構。作為背景,我對紐約有著長久的愛。上世紀80年代,我作為一名本科生來到紐約上哥倫比亞大學。我認為哥倫比亞大學本身就是一個偉大的實驗,看看你能否在紐約市的實驗中培養一個常春藤盟校的教育和一個強大的科學研究社區,紐約市充滿了興奮、分心和變化,最重要的是,充滿了人性。哥倫比亞大學是一個非常令人興奮和充滿活力的地方,充滿了非常具有顛覆性的學生和校友,包括我自己,而且已經有幾個世紀了。
《紐約時報》也有上百年的歷史。這是一家有著163年歷史的公司,我認為它也代表了一套我堅信的價值觀,而且與我非常喜歡的紐約有著非常緊密的聯系。每當我想到《紐約時報》,我就會想到托馬斯·杰斐遜(Thomas jefferson)所表達的一種觀點:如果你可以在經營良好的民主與經營不良的媒體之間做出選擇,或者在經營良好的媒體與經營不良的民主之間做出選擇,他寧愿選擇經營良好的媒體。你們需要一個經營良好的新聞媒體和一個良好的新聞文化,以培育和確保民主的存續。
數據科學如何與您的工作相適應?
我想說,在數據科學、學術界和《紐約時報》工作是一個令人興奮的時刻。數據科學現在已經成為一個學術領域。你可以在計算統計學家比爾?克利夫蘭(Bill Cleveland) 2001年的一項提議中找到它的學術根源。顯然,你也可以在職位描述中找到數據科學家的根源,最著名的例子是LinkedIn的帕蒂爾(DJ Patil)和facebook的杰夫?哈默巴赫(Jeff Hammerbacher)。然而,在某些方面,知識分子的根源可以追溯到1962年統計學家約翰?圖基(John Tukey)的著作。
半個世紀以來,學術界一直在醞釀著這樣一種現象:統計學作為一個越來越多的數學領域,與世界每時每刻都在產生越來越多的數據、計算能力隨著時間呈指數增長這一現實之間的脫節。越來越多的字段有興趣嘗試從數據中學習。
我在哥倫比亞大學(Columbia university)過去10年或更長時間里的研究一直是我們現在所說的“數據科學”——我過去常稱之為“應用于生物學的機器學習”,但現在可能被稱為“自然科學中的數據科學”?!拔覀兊哪繕耸桥c具有領域專長的人合作——甚至沒有必要——非常定量的或數學領域的專長——這些專長是在數十年的實踐中積累起來的,涉及生物學工作中一些實際問題,這些問題很復雜,但肯定不是隨機的。處理這些問題的社區發現自己越來越被數據淹沒。
所以這里有一個智力上的挑戰并不完全是機器學習的智力上的挑戰。更大的智力挑戰是嘗試使用機器學習來回答來自真實世界領域的問題。很長一段時間以來,在生物學領域的研究一直很令人興奮。
能在《紐約時報》工作也令人興奮,因為《紐約時報》是規模更大、經濟更穩定的出版商之一,同時捍衛民主,并在歷史上為新聞誠信設置了很高的標準。他們通過幾十年甚至幾百年強烈的自我反省來做到這一點。他們不怕質疑公司的原則、選擇,甚至是領導層,我認為這創造了一種非常健康的知識文化。
與此同時,盡管作為出版商,它的經濟實力很強,但過去兩個世紀左右的出版商業模式在過去10年里已經完全消失;超過70%的平面廣告收入直接蒸發了,最急劇的蒸發發生在2004年2月左右。因此,盡管這棟大樓里擠滿了非常聰明的人,但就如何定義可持續新聞的未來而言,它正在經歷一場明顯的巨變。
目前的領導層,一直到記者,都非常好奇“數字”。這意味著:當你把新聞與傳播媒介分離開來時,它會是什么樣子?甚至“報紙”這個詞都不會涉及到報紙。報紙對《紐約時報》來說仍然非常重要,不僅是事物的組織方式,甚至是日常日程的組織方式,而且在概念上也是如此。與此同時,我認為這里有很多非常有遠見的人,包括記者和技術人員,他們開始使《紐約時報》傳播新聞的方式多樣化。
要做到這一點,你需要不斷地做實驗。如果你在做實驗,你需要測量一些東西。
在2014年,你衡量事物的方式,是通過人們對產品的投入程度。因此,從weblog到每次有人與移動應用程序交互的活動,這家公司都能獲得大量的數據來弄清楚:讀者想要什么?他們看重的是什么?當然,這個答案可能是動態的。有可能,2014年讀者想要的與2013年或2004年截然不同。因此,我們在數據科學小組中要做的就是從《紐約時報》收集的大量數據中學習,并使之有意義。
您是什么時候意識到想以數據科學為職業?
有一天,我在研究生院和其他一些研究生一起吃午飯的時候。
一名研究生走進布拉哈德,他的基因組是第一個自由測序的活體。這是一種100年前就被發現的病原體。但是,把某樣東西按順序排列意味著,你從有它的圖片,或者你把東西倒在上面,然后它可能變成藍色的實驗,到有了電話簿上有價值的信息。不幸的是,這些信息是用我們沒有選擇的語言寫的,只是一個四個字母的字母表。
這就引出了一個統計和科學的問題:你如何理解這些豐富的信息?
我們有數據。我們已經用了100年了。我們知道它的作用,現在我們面對的是一種完全不同的方式來理解數據。
上世紀90年代初,當我開始攻讀博士學位時,我正在研究物理學家的建模風格,即尋找簡單的問題,在這些問題中,簡單的模型可以揭示洞察力。物理學和生物學之間的關系在不斷發展,但在性質上卻受到了限制,因為物理學家建模的風格通常是試圖確定一個問題,這個問題是關鍵要素,是關鍵的簡化描述,它允許基本的建模。突然把電話簿放在桌上,然后說“讓他有意義”,這是一種完全不同的理解方式。在某種程度上,它與物理學家所推崇的基本模型背道而馳。那就是我開始學習學習的時候。
幸運的是,物理學家也很擅長進入其他領域。我有很多文化經紀人,我可以以其他物理學家的形式去找他們,他們勇敢地投身于計算神經科學或其他領域,在這些領域,科學領域與如何理解數據之間已經建立了良好的關系。事實上,機器學習中最杰出的會議之一叫做nipand, N代表“神經科學”。在基因組學出現之前,這個群體就已經在嘗試我們現在所說的“數據科學”,也就是用數據來回答科學問題。
上世紀90年代末,當我完成我的博士學位時,我對這個不斷增長的關于人們提出生物學統計問題的文獻非常感興趣。不能把小麥從谷殼中分離出來,真使我惱火。當我讀這些論文的時候,真正把小麥和谷殼區分開來的唯一方法就是自己動手寫論文,試著找出哪些是可行的,哪些是不可行的。學術界有時在揭示什么是小麥,什么是谷殼方面進展緩慢,但最終它做得非常好。論文數量激增,幾年后,人們意識到哪些東西是金子,哪些東西是傻瓜的金子。我認為現在有一個潮流就是,人們使用機器學習來回答科學問題。
對您來說,數據科學中最令人興奮的事情是什么?
對我來說最令人興奮的事情不是新事物。
對我來說最令人興奮的事情是意識到每個人都認為的新事物實際上是舊事物。
關于這個叫做“數據科學”的新事物有很多令人興奮的地方?!拔艺J為去看那些比Tukey還要古老的統計數據真的很有趣。例如,Sewall Wright在20世紀20年代使用圖形化的遺傳學模型。真正讓我興奮的不是新奇的東西。它特別圍繞著思想,而不是太多的東西,因為,再說一遍,人,思想,和事物的順序。改變的事情。當我們認為自己有了一個新想法時,這是很有趣的,但通常我們隨后意識到這個想法實際上是非常古老的。你對此有所了解,這就非常棒。
例如,隨機優化和隨機梯度下降,在過去的5年里取得了巨大的成功,但是它們來自于羅賓斯和蒙羅在1951年1月12日寫的一篇論文,這是一個好主意,但事實上,我認為這是一個好主意意味著很久以前有人用鉛筆在紙上仔細思考過。試著通過數據和你的電腦來了解這個世界是個好主意。這就是為什么圖基在1962年寫了一篇關于統計的文章,當時他命令每個人重新定位統計學作為一門專業學科。1962年,他寫了一篇名為《數據分析的未來》(The Future of Data Analysis)的文章。
上世紀90年代,里奧?布雷曼(Leo Breiman)一直在給他的統計學家社區寫信,“讓我們用數據,統計社區!”上世紀90年代末,他在寫論文,告訴他所有的同事們開始研究數據科學——這就像他走進荒野,回來后對伯克利的每個人說,伯克利是最早的數理統計學院之一,“你們需要醒過來,因為它著火了。你們還在證明定理。外面著火了。醒醒!”
我認為人們有一個傳統,那就是通過數據來理解世界是多么的強大,多么的不同。
“數據至上”是伯克利大學的一位數理統計學家在很久以前就用過的一個詞,伯克利大學強調的這種根深蒂固的傳統是通過2001年從約翰·圖基到里奧·布雷曼再到比爾·克利夫蘭的這種極端思想而延續下來的。他們中的一些人認為自己是正統的統計學家,盡管他們是相當極端的人。因為統計學每五年就會在數學上翻一番,因為數學的起源使統計學成為一個真正的領域。
這就是我認為最令人興奮的事情——不要被今天的事情分心,而要找到那些比你年長得多的人和他們的世界觀。
數據科學的未來會是什么樣子?
數據科學的未來,這是一個很大的話題,是它的形式?還是它的內容呢?還是去使用它的人呢?他們的未來都是不一樣的。
我認為數據科學沒有理由不像其他許多領域那樣遵循同樣的過程,因為它在學術界找到了歸宿,這意味著它成為一種認證功能,尤其是在專業領域。你將獲得碩士學位和博士學位。該領域將具有意義,但也將具有專門性。您已經看到人們使用“數據工程”和“數據科學”這兩個短語作為分隔符。我在《紐約時報》的團隊是數據科學組,它是數據科學與工程更大團隊的一部分。人們開始理解數據科學團隊如何涉及數據科學、特征工程、數據可視化和數據體系結構。
數據還不是一種產品,但如果你看一下,比如說,數據科學是如何在linkedin發生的——數據科學是如何通過產品層次結構報告出來的。在其他公司,數據科學通過業務報告;或者it通過工程報告?,F在我身處《紐約時報》的工程部門,獨立于產品,獨立于營銷,獨立于廣告。不同的公司在不同的部門定位數據科學。
所以我認為會有資格認證,我認為會有專業化。紐菲爾德誕生了——我不會一直這么說,因為按照現實世界的標準,學術界從來沒有發生過什么事情——但大學里每隔幾年就會誕生新的院系。它發生的方式是創建新字段的一部分。我已經長大了,我有幸目睹了,比如說,系統生物學作為一個領域誕生,合成生物學作為一個領域誕生,甚至納米科學作為一個領域誕生。我在20世紀80年代的第一個研究項目是在一片混亂中進行的,而那個時候正是一個新的領域誕生的時候。詹姆斯·格萊克(James Gleick)當時為《紐約時報》撰寫了一本關于這方面的著名著作,名為《混亂:創造新科學》(Chaos:Making a New science)。只是和現實世界的節奏相比,它實在是太慢了,我認為這是最好的。年輕人的未來危在旦夕,所以我認為情況其實沒那么糟。
因此,我認為數據科學的未來是成為學術界的一部分,這意味著不同大學之間就什么是真正的數據科學展開激烈而有爭議的對話。你已經開始看到這方面的工作了。例如,在哥倫比亞大學,我的一位名叫馬特·瓊斯的同事,他是一位歷史學家,正在寫一本關于機器學習和數據科學歷史的書。所以你已經開始看到人們意識到數據科學并不是在2008年從真空中誕生的。從智力上講,我們所有的數據科學都已經意識到——也就是說,在統計和機器學習之間存在鴻溝,還有一些其他的東西。所以我認為人們會更加欣賞歷史。
當一個領域成為一個學術領域時,會發生三件主要的事情——
學術經典是一組我們認為是該領域核心知識分子的課程。最后,通過對歷史的研究,我們可以了解當時的背景:這些想法從何而來?
當人們使用的名稱和短語變得更有意義時,你就有了專業化的可能性,因為我們現在所擁有的是,當人們說“數據科學”時,他們可能意味著許多事情。
它們可能意味著數據可視化、特征工程、數據科學、機器學習或其他一些東西。隨著技術本身的使用更加細化,我認為您你會看到團隊更加高效的專門化。你不可能有這樣一個足球隊,每個人都說:“我是一個鄉巴佬?!薄坝腥诵枰蔀槎ㄎ磺蚴?,有人需要成為持球手,有人需要成為后衛。當人們開始專業化的時候,你就可以通過了。你可以與人進行有意義的合作,因為人們知道他們的角色和“完成的任務”是什么樣子的。
現在,我認為未來數據科學究竟是什么樣子還有待觀察,但是能確定的是走向專業化的細分。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24