
作者 | CDA數據分析師
來源 | 《Data Scientists at Work》
受訪者簡介
Yann LeCun是全球最大社交網站Facebook的人工智能研究總監。
Facebook的核心業務是促進人與人之間、人與人與數字世界之間的溝通??紤]到涉及的數據規模之大,支持這項任務所需的技術是巨大的。截至2014年,Facebook擁有超過13億的活躍用戶(彼此之間的連接超過1500億)和8.29億的每日獨立登錄。這些用戶平均每天上傳約3.5億張照片,分享約47.5億項內容,發送約100億條信息。這些流數據集的可用性是如此之大,以至于在大多數情況下,Facebook的系統只有一次時間查看任何數據。這樣的活動水平帶來了一系列獨特的挑戰:如何最好地理解和理解所有的數據,以及如何使用這種信息關聯來做出決策
在加入Facebook之前,LeCun是紐約大學計算機科學、神經科學、電子和計算機工程的銀牌教授,現在仍然是紐約大學數據科學中心的創始主任。
在多倫多發展理論后,他加入了美國電話電報公司貝爾Laage處理研究部門。2003年加入紐約大學。在他迄今為止的職業生涯中,他發表了180多篇關于機器學習、計算機視覺、筆跡識別、圖像處理和壓縮以及神經網絡作品的技術論文和書籍章節。他尤其以他在深度學習方法方面的工作而聞名,這些方法被公司用來理解圖像、視頻、文檔、人機交互和語音。
LeCun是一個無與倫比的數據科學家的例子,他有一個轉型的愿景——在他的例子中,使用深度學習來教機器感知世界——他努力在學術和工業研究實驗室實現這一愿景。 LeCun的采訪證明了他對機器學習的熱情和對未來的信念,以下為整理的采訪內容。
您的工作職責是什么?
我是Facebook的人工智能研究總監。
這個角色的一部分涉及到數據科學,盡管Facebook也有其他團隊在做數據科學。如果你愿意,人工智能研究可以被認為是數據科學更先進的一面。我也是紐約大學的兼職教授,就在我的Facebook實驗室對面。雖然我現在是一名大學教授,但我的大部分職業生涯都是在工業研究方面。
早些時候,我在貝爾實驗室的一個小組里工作,當時,這個小組致力于機器學習,神經網絡和類似的項目。然后我成為AT&T實驗室的部門主管,這是AT&T在1996年公司分裂后的研究實驗室的名字。我2003年加入紐約大學,所以我在這里已經11年多一點。我是在2013年底加入Facebook的。
您的職業生涯是如何形成的?
雖然在我工作過的機構方面沒有明確的途徑,但在我感興趣的技術問題方面有明確的路徑。事實上,我感興趣的是相當恒定的,除了很短的時間。我從小就對人工智能和相關學科非常著迷。上世紀70年代末至80年代初,我讀本科時學的是電氣工程。在這段時間里,我做了很多項目,試圖弄清楚我們是否能讓機器學習。我一直堅信,制造智能機器的唯一方法就是學習,因為每一種動物都有學習的能力。任何有大腦的東西都能學習。
我通過搜索文獻來解決這個問題,尋找能夠學習的機器,并意識到,至少在20世紀80年代初,沒有人在研究這類問題。我唯一能找到的文獻是20世紀60年代的,有些是70年代的,但大部分是60年代的。這是上世紀50年代神經網絡1.0版的舊作。像百分率加速器和其他類似的技術然后是1970年代早期的統計模式識別文獻。但當我開始對這個研究領域感興趣時,這個領域已經被研究團體所拋棄了。這段時間有時被稱為“神經網絡的寒冬”。
我畢業了——盡管我的專業實際上不是機器學習,因為那時還沒有機器學習這種東西。事實上,在那個時候的法國,甚至還沒有計算機科學。我畢業的專業是VLSI集成電路設計和自動控制。大學畢業后,我上了研究生院。不幸的是,我很難找到對我想做的事情感興趣的人,因為我已經確切地知道我想做什么。當我還在讀本科的時候,我就已經意識到,早在上世紀60年代,人們一直在追求的東西,卻永遠無法解決,基本上就是多層神經網絡和深度學習的概念。
也許在我讀研究生的兩年前,我開始嘗試各種算法。我提出了一個最終成為我們現在所說的反向傳播算法的東西——我們每天在Facebook上都在非常非常大規模地使用它——獨立于David Rumelhart, Paul Werbos, David Parker, Geoff Hinton和其他人。我很難找到研究生院的高年級學生來幫助我,因為這個領域已經被遺棄了。
幸運的是,我有一個很好的顧問,莫里斯·米爾格拉姆,我有自己的資金,基本上是獨立于我的顧問的。我的導師很好,他對我所做的一切都不感興趣,他基本上告訴我,他會簽署這份文件,因為我看起來很聰明,但他幫不了我。
最初是什么激發了您對人工智能的興趣?
我出生于1960年。在我九歲的時候,火箭飛上了太空,人類登上了月球,《2001太空漫游》問世了,里面有太空和智能電腦??苹眯≌f是那個時代的精神。我一直對科學感興趣。當我還是個孩子的時候,我想,也希望我能成為一名科學家。在天體物理學、古生物學、神經科學或人工智能之間,我猶豫了——不幸的是,沒有猶豫很長時間。但我確實是個工程師。這是我爸爸給我的,他是個機械工程師,我喜歡做東西。
所以當我想到做科學的時候,我想到的是:我們這個時代最大的科學問題是什么?
一個問題是:宇宙是由什么構成的?天體物理學和基礎物理學試圖回答這個問題。
另一個問題是:生活是關于什么的?哪一種生物學,等等。
另一個問題是:大腦是如何工作的?這個問題是一個很大的科學謎團。
如果你是一名年輕的科學家,還沒有意識到自己的局限性,那就去做大事吧。理解智力是一個很大的問題。
作為一名工程師,我認為大腦是一個非常復雜的系統。
智能是一種非常抽象的東西,它可能可以用數學方法來建模,所以我們可以用工程學的方法來弄清楚大腦是如何工作的,通過嘗試建造智能機器來驗證我們的設計或概念想法。關于大腦是如何工作的,已經說了很多,有些非常抽象。但是在你建立一個真正有效的系統之前,你怎么知道他們是正確的呢?所以至少你有了大部分必要的成分。這就是我感興趣的科學問題。
當然,我不僅要滿足我建造東西的欲望,我還必須找到工作,在那里我可以開發好的技術和做偉大的工作。這對我來說很奇怪,但我從來都不清楚我是否會成為一名學者。我
做過——也許我應該早點做——但長期以來,行業研究對我來說是一種完美的環境。所以我現在又回到這個話題上了,盡管我也涉足學術界,我發現這兩個世界在這方面是互補的。所以我處在一個非常優越的環境中,我可以在工業上有1.5英尺,在學術上有0.5英尺,這讓我可以利用兩者之間的互補。在學術界,你可以做像計算神經科學和理論這樣的事情,而在工業界,你可以做一些在學術界很難做到的雄心勃勃的事情。
您使用的第一個數據集是什么?
我研究的第一個真實數據集是我在做博士研究時使用的醫療數據集,數據集來自于對因腹痛來到急診室的病人進行的醫學研究。事實證明,僅僅根據腹痛來決定是否手術是一個非常困難的診斷。根據腹痛,你可以做出大約20種不同的基本診斷。有些診斷需要非??斓氖中g,比如闌尾炎。所以當時有一個相當大的數據集,有成千上萬的樣本,有對病人的基本描述,有缺失的值,諸如此類的東西,你會預料到的。
我采訪過的收集這些數據的人都嘗試過樸素貝葉斯和類似的方法。我嘗試了神經網絡。神經網絡還不存在,但我基本上嘗試了這個新奇的東西——反向傳播——我得到了一些相當不錯的結果。這幫助我想出的想法裁剪系統的體系結構,它將能夠識別癥狀,這樣的事情,這是集合的癥狀,以減少系統中的自由參數的數量,因為我們知道,甚至在1986年,當時,過度擬合是一個大問題。
未來的數據科學領域會是什么樣子?
關于數據科學的未來,我經常說的是,需要注意的最重要的一點是,收集和存儲的數據量呈指數級增長。它要么以通信網絡帶寬增長的速度增長,要么以硬盤容量增長的速度增長。它總是兩者之一,這取決于它是流數據還是存儲數據。這是一個非常大的指數。目前,當你試圖從數據中提取知識邊緣時,循環中有人類。地球上人類腦力的數量實際上也在呈指數增長,但是指數非常非常小。與數據增長率相比,增長速度非常慢。
這意味著,不可避免的是——事實上,這種情況已經發生了——地球上已經沒有足夠的腦細胞去觀察或瀏覽這些數據,更不用說分析數據并從中提取知識了。所以很明顯,未來世界上的大部分知識都將被機器提取出來,并將駐留在機器中。實際上可能已經是這樣了,這取決于你對知識的定義。對我來說,知識是一些數據的匯編,使你能夠做出決定,而我們今天所發現的是,計算機正在自動做出許多決定。這在未來不會有任何改善。
如果我們看數據科學的未來,數據科學是不會消失的,科學和現有的工程在從數據中提取知識將是一個未來的大事情,社會要依靠。在某種程度上已經是這樣了。網絡已經依賴于此。但整個社會都將依賴于此。所以這不是一時的流行;它不會消失。如果你說數據科學是一種時尚,就像你在1962年說計算機科學是一種時尚一樣??纯次覀儸F在的處境。
因此,我對這一現象的看法是,它將創造——當然,它創造了一個我們都知道的產業——對這一領域受過教育的人的需求。這也創造了一種學術學科的需要來處理這個問題。這一點有些人還沒有完全理解。例如,如果你是一名統計學家,你會說,“嗯,那只是統計。如果你是一個機器學習的人,你會說,“嗯,那就是機器學習?!比绻闶且粋€數據庫人員,你會說,“嗯,那只是一個數據庫,上面有一些機器學習和統計數據?!比绻闶且粋€應用數學的人,你會說,“所有這些技術和方法都使用了應用數學?!?/span>
所有這些人都錯了。它是所有這些東西組合成一個系統:統計、應用數學、計算、基礎設施和應用領域,這些都是那些方法可以應用的東西,需要專業知識。因此,像深度學習這樣的技術可以讓我們減少或最小化處理新問題所需的人類專業技能,這樣機器就可以盡可能地自己完成任務。當然,在這一點上,總是有人參與其中。像數據可視化這樣的東西使得人們可以很容易地做這樣的事情,只要循環中還有人。然而,最終,這些模型將從本質上自行構建。
我堅信數據科學是一門新興的學科。在紐約大學,我們幫助開創了這一趨勢,因為我們很早就創建了一個數據科學中心。我們也很早就創立了數據科學碩士學位,這是一個巨大的成功。我們得到了摩爾-斯隆數據科學環境倡議的大力支持,這是摩爾和斯隆基金會的一個大型項目。該計劃將紐約大學、華盛頓大學和加州大學伯克利分校聯合起來,目的是將數據科學確立為科學的一門學科。
您對數據科學的新人有什么建議么?
我總是給同樣的建議,因為我經常被問到這個問題。
我的觀點是,如果你是一名本科生,學習一門專業,你可以選修盡可能多的數學和物理課程。不幸的是,它必須是正確的課程。我要說的可能聽起來有些矛盾,但工程學或物理學專業可能比數學、計算機科學或經濟學專業更合適。
當然,你需要學習編程,所以你需要上大量的計算機科學課程來學習如何編程的機制。然后,再做一個數據科學的研究生項目。參加本科階段的機器學習、人工智能或計算機視覺課程,因為你需要接觸這些技術。然后,在那之后,參加所有你能參加的數學和物理課程。尤其是像優化這樣的連續應用數學課程,因為它們讓你為真正的挑戰做好準備。
您認為數據科學的最大機遇在哪里?
如果你是一名實驗科學領域的科學家,尤其是社會科學領域的科學家,我認為在數據科學的方法領域和領域科學之間存在著大量的機會。這將給很多科學領域帶來革命性的變化,所以這是一個非常令人興奮的地方,尤其是在社會科學領域。其他領域,如基因組學和生物學,已經先行一步。
而社會科學,是一個充滿機遇的大領域。如果人們剛剛開始,我建議他們去尋找一些有趣的、令人興奮的大問題來解決。當然,如果你對方法感興趣,深度學習才是關鍵。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23