引入機器學習技術最好是效果導向
第四范式聯合創始人、首席架構師。曾任職于百度,作為系統架構負責人,主持了百度商業客戶運營、鳳巢新興變現、商業“知心”搜索、阿拉丁生態等多個核心系統的架構設計工作。作為鏈家網創始團隊,從0開始完成了鏈家網新主站、經紀人新作業系統、績效變革系統的整體架構設計以及研發團隊的建設管理,參與規劃及推動了鏈家系統和研發體系的互聯網化轉型。
現任第四范式研發總工程師,帶領產品研發團隊打造出國內首款人工智能全流程平臺“第四范式·先知”,“先知”平臺2016年榮獲中國智能科技最高獎——“吳文俊人工智能科學技術獎”創新獎一等獎。
在采訪中,給記者留下深刻印象的是胡時偉反復強調了人工智能落地要以用戶業務價值提升為目的,而不是為了炫技,在引入相關技術時要注重性價比,堅持效果導向。他認為第四范式的目的就是要降低人工智能技術的入手門檻,讓更多企業可以從創新中收益。
CSDN:作為第四范式聯合創始人,你們創建這家公司的初衷是什么?
胡時偉:文淵(第四范式創始人、首席執行官)很早就開始從事AI行業,致力于以技術創新來為行業創造價值。在百度的時候,公司有海量的數據積累,文淵帶領團隊所搭建的基于人工智能技術的百度鳳巢系統使其廣告變現能力提升了8倍。從百度離開后,他又到了華為,驗證了人工智能技術在金融、電信等領域所能創造的價值。文淵在百度和華為用近十年的經歷證明了“AI”是可以“for
someone”的,但他也堅信“AI”終將“for everyone”,于是就有了創建第四范式團隊專注做人工智能的想法。
從另一個層面,隨著大數據技術和計算能力的發展,人工智能技術已經到了工業化的階段。我們見證了百度、今日頭條等公司通過人工智能技術所帶來的巨大經濟利益。但目前這項技術的產品化往往還需要一個技術能力很高的團隊來做,第四范式所做的事情就是把門檻降低,技術產品化、平臺化,讓更多公司可以用上人工智能技術,享受業務價值的提升。
對于我來說,也希望把自己在系統架構和產品化方面的能力通過AI技術影響更多的企業。文淵、雨強(第四范式聯合創始人、首席研究科學家)和我都有著同樣的愿景,于是創立公司的事比較自然。
CSDN:第四范式和業界其他做
機器學習平臺的公司相比有哪些特點?
胡時偉:先拋開技術的比較。我們最大的特點就是特別在意
客戶價值,尤其是能否利用我們的技術能力為客戶帶來實際的業務價值提升,甚至在這件事上第四范式還吃過虧。有時候,客戶需要一個人工智能系統,但對部署這個系統能帶來多大價值難以描述,但是我們就絞盡腦汁的去想,這件事情為客戶帶來價值究竟存不存在,條件滿不滿足?如果帶不來價值,我們就不太敢去做,所以也因此丟掉了一些(單子)商業利益。
但后來,我們慢慢想明白了,只要這件事的長遠價值是正確的,我們就會去做。我們致力于
客戶價值本身也有一個好處,能夠得到客戶的信任和商業方面順利推進。我們一直有個理念,如果提供的技術無法為客戶核心業務價值帶來提升,(人工智能)只做為一個形式,或者一個華而不實的東西,這就不是一個企業服務公司適合直接切入的。
CSDN:從技術層面看,你覺得第四范式更像大數據還是人工智能公司?
胡時偉:人工智能是面向目標,而大數據是基礎技術架構。人工智能是解決問題,比如營銷、風控、或者下圍棋,只要這個問題不是由人來解決,由機器來直接替代人去解決或者相當大程度的輔助人解決,它就是一種智能,而大數據是實現人工智能的基礎和手段。
大數據分為兩部分,一部分是海量數據本身,
機器學習從數據中學習,因此需要海量的數據作為輸入;另一部分是指大數據平臺,也就是分布式的數據處理架構。第四范式是人工智能公司的原因是我們最核心的技術是
機器學習。在大數據平臺上運行
機器學習程序,從而把這個大數據變成一個具備決策能力的應用,或者API(將能力開放出來)。
一個成功的人工智能應用要把數據、
機器學習、分布式等組合起來,才是一款完整的產品。我是比較實用主義的一個人,沒那么在意所做的是屬于人工智能或者大數據領域,如果能解決客戶問題,各種技術都需要去理解和采用,這是目標導向的一個選擇。
CSDN:第四范式成立后,你們所做的第一款人工智能產品是什么?
胡時偉:我們真正向客戶交付的第一款產品是為某銀行信用卡業務提供的交易分期智能營銷系統。信用卡的主要盈利模式是客戶分期還款的利息。對于信用卡公司來說,是希望客戶能夠辦理分期還款的,但它不知道哪些人希望辦分期,有的消費者也不知道可以辦分期,所以需要用短信提醒,哪些人要提醒?哪些人不需要提醒?這是一個要決策的問題。
傳統的解決辦法是用專家規則,依靠人工去決策,把客戶分群處理。而通過第四范式搭建的系統,只要通過源源不斷的往系統里輸入營銷記錄(購買和以往分期記錄)數據,系統就可自動生成一個可以代替人去判斷的決策,告訴系統是否需要給此人發提醒短信。這個系統一上線,就為客戶(信用卡公司)帶來了業務收益。
CSDN:能不能談談先知平臺的初衷和設計過程?
胡時偉:先談談先知平臺設計的初衷。一方面,人工智能領域的技術專家還是比較貴的,企業服務的事情如果都讓人工智能的專家去做的話,成本會很高,最關鍵的是真正的人才是稀缺的,不是有錢就可以找到的,因此可復制性很差。第二,做(先知)平臺的話可以避免客戶擔心被某固定服務商綁架的問題,使客戶也擁有對模型和應用的控制能力;第三,我們公司的主要團隊都來源于互聯網公司,天生就希望產出效率更高的產品,希望能以更先進的方式解決問題。
所以在很早期的時候,我們就希望做一個平臺類的產品,能將第四范式頂尖專家的能力賦予到幾種人。第一種是客戶自己的員工,他們對業務了解,又擁有數據,期望把數據轉換成智能決策引擎,先知平臺可以讓某些具備一定水平的客戶依靠自身力量就能做到這一點;第二種是第四范式做項目交付的同事,先知平臺可以降低構建企業AI應用的上手門檻,讓更多的人具備數據科學家的能力,提升利用這個平臺交付實施的效率,最終提升服務規模和服務水平,為更多更廣泛的客戶創造價值。
此外,對于企業來說,還是希望有更多合作伙伴一起來做落地的工作,人工智能涉及的內容和行業都很廣泛,第四范式不可能自己去做所有的行業,所以更希望把核心技術能力包裝成產品,讓合作伙伴們用先知平臺(去落地),達成自身、合作伙伴、客戶共贏的目的。
CSDN:能否介紹下先知平臺在架構設計上的特點?
胡時偉:從產品上,目前版本的先知平臺分為三大子平臺,調研平臺、自學習平臺和預估平臺。調研平臺供業務人員或者數據科學家通過簡單拖拽的方式尋求最合適的從原始數據產生模型的路徑,覆蓋了數據引入、清洗、拼接、
特征工程、模型訓練、
特征解釋、模型評估等完整環節,調研平臺的產出是一個
機器學習的Pipeline。自學習平臺是生產系統里的離線部分,負責將源源不斷產生的新數據輸入到
機器學習的Pipeline里,從而使模型具備自我進化能力。預估平臺則負責將不同算法訓練出來的模型方便的轉化為可伸縮的在線服務(API),對接下游系統。
從系統架構上,先知平臺分為UI與API層、分布式調度層、
分布式計算引擎、在線預估引擎四大部分。在
分布式計算引擎層面上,我們擁有自主研發的分布式
機器學習框架GDBT和統一高性能
特征工程框架。GDBT和Spark處于同一位置,可以運行在Yarn上,是一個抽象并封裝高維
機器學習算法的運算框架,類似于Tensorflow。
在這個框架上,第四范式擁有多種專利算法,其中包括高維的LR/GBDT等經典算法的高維高性能實現,也包括HE-Treenet/Linear
Fractal等低門檻算法。另外還有一些
機器學習輔助工具比如自動
特征組合、自動調參等也是基于GDBT框架的。GDBT的運算架構專門為
機器學習設計和優化,對比基于Spark算法的加速比有指數級提升,在海量數據情況下達到數百倍到數萬倍。
比起基于Parameter
Server等
機器學習專有架構的其他開源算法相比,由于獨到的工程和算法優化技術,也有數倍到數十倍提升。高性能
特征工程框架和在線預估引擎也是先知系統的重要組成部分,其主要特點也是集成了豐富的處理方法,包括數據在時間維度和地理空間維度的多種
特征生成算法,并且具備非常高的性能。高性能的架構對于計算非常密集,耗費資源極大的
機器學習過程來說是非常重要的。
另外,門檻的降低和廣泛的通用性離不開優秀的產品設計,先知提供了基于Web的UI交互以及基于Python的SDK接口,配合能夠適配不同
Hadoop發行版以及操作系統的分布式調度層,使得底層的優秀算法與架構能夠滿足企業級運維、管理等需求的同時,大大降低了基于先知二次開發業務應用的門檻。
整個系統所有計算部分(在線、離線)均基于節點數和性能可線性擴展的分布式架構,而平臺應用本身則基于互聯網常用的技術實現了可伸縮的高可用架構。我們在云上提供的多租戶服務則采用了容器化的架構,確保多個租戶之間的充分隔離。
最后,先知平臺整體上是一個插件機制,特別是對底層的運算單元做了充分的抽象和二次開發接口。這種架構使得先知平臺也易于集成Tensorflow等開源算法,使企業客戶擁有更多的對比和選擇。
CSDN:目前第四范式的用戶主要分布在金融、電商、媒體等領域較多,你認為現階段什么樣的場景下使用
機器學習技術的潛力最大?
胡時偉:
機器學習應用場景可以先套用楊強教授(第四范式聯合創始人、首席科學家)的人工智能成功的五個必要條件:清晰的商業模式、高質量的大數據(持續反饋)、清晰的問題定義和領域邊界、懂人工智能的跨界人才(擅長應用和算法)、計算能力。
具體而言,
機器學習應用比較好的是有海量數據、(人工)服務不足,且能帶來實際商業價值或社會價值的應用場景。因為機器本身解決的就是人力不足的問題,代替人去做決策。例如前面提到的信用卡分期營銷以及我們最近在做的反欺詐案例,行業內沒有那么多人工對每個客戶每筆交易進行篩查;直播、廣告領域也是非常適合用
機器學習的領域,因為訪問和請求的數量是巨大的而每一個決策的單個價值又是相對微小的;此外,零售、醫療、游戲等行業,第四范式也有涉足。
CSDN:如今不少企業考慮引入
機器學習等人工智能技術,你認為在使用或部署
機器學習技術(平臺)的時候有哪些注意事項?
胡時偉:最重要的是思路的轉變。機器去解決事情的思路和以往依靠人工完全不同。機器考慮問題是怎么復雜怎么來,怎么累怎么來。而人更擅長于抓大放小、考慮問題是怎么簡單怎么來。從這個思路來講,人解決問題是通過劃分客群,因為人不可能對每個客戶一個一個去看。但是對于機器來說是千人千面。這是經營思路的變化,而不僅僅是個技術問題。
其次,在引入
機器學習技術的時候最好是效果導向。經常會有客戶問,市面上有那么多開源產品,一些算法也已經被巨頭企業開源了,為何還要用商業產品?這件事判斷起來很簡單,開源并不等于免費,相反有時候是更貴的。人才、機器、試錯成本、時間成本、最終的效果都是要考量的因素,對企業經營者來說,要重視投入產出比以及搶時間,而要做出效果是一個系統工程。引入
機器學習,需要明白哪些是企業要做的,哪些可以借助外部力量來做。
此外,要重視技術的適用性和性價比。目前來看,
深度學習在某些領域已經有了較成熟的解決方案,例如圖像
特征提取、語音識別、文本翻譯等,這些領域
深度學習做的很好。但企業級應用涉及各個范圍,以上只是企業經營過程中的一小部分。在其他領域如營銷、反欺詐、廣告等行業應用,就需要一些其他的算法和技術,比如說超高維的
特征工程和算法,因此企業選用技術還要考慮成本和適用性的問題。
CSDN:對于正在或想從事
機器學習行業工作的開發者來說,你有什么經驗或建議?
胡時偉:首先一定要從業務和價值本身出發,而不是說覺得技術比較炫酷、比較火,或者簡單說現在工資高了就去做。這和前兩年的iOS和安卓開發一樣,經過時間的洗禮和供需平衡的過程,現在優秀的移動開發大牛還是千金難求,但是大量平庸的開發人員會很快回歸到價值本身甚至難于尋找到機會。
另外,機器學習和人工智能行業其實非常廣闊,不只是算法研究,也可以做AI相關產品、工程架構、解決方案、甚至是培訓、市場類的工作。這里面對大多數有興趣的朋友來說,切忌扎堆,以為從事機器學習就只做算法。90年代末期互聯網只有兩個崗位,一個是做網站,一個是做網管。AI技術給社會帶來的變化將會是深遠的,機會也是廣闊的,還是跟著自己擅長的方向和興趣走,會更容易獲得成績,也會更開心更有成就感一點
CDA數據分析師考試相關入口一覽(建議收藏):
? 想報名CDA認證考試,點擊>>>
“CDA報名”
了解CDA考試詳情;
? 想學習CDA考試教材,點擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點擊>>> “CDA含金量” 了解CDA考試詳情;