
編者按:9月11日—9月12日,由經管之家(原人大經濟論壇)主辦的“2015中國數據分析師行業峰會(CDA?Summit)”在北京舉行。本文是臺北醫學大學教授謝邦昌在峰會上的演講全文,謝邦昌教授演講的主題是“大數據在生技醫療之應用”。
各位嘉賓、各位先生、各位女士,大家早安!
很高興被稱為老教授,實際上也很老了。聽完吳院長的一悉話,我今天所介紹的比較簡單,在醫學領域大數據的應用。我也希望能夠告訴大家大數據這幾年來它所發揮的作用。
剛剛吳院長提到大數據在這方面的應用,其實有一句話很重要。我們知道沒有人擁有所有的數據,你怎么在既有的數據中間找到自己的數據,這是最重要的。剛剛我跟吳院長溝通一些事情,大家知道在大數據領域中,我們有三個領域,IaaS、SaaS、PaaS。在SaaS的大概99.99%,我們都不是IaaS、PaaS這個領域的人,但是現在很多人都在往IaaS、PaaS這里面走,我們應該是SaaS里面的人。
大家想一想我講的這句話,在醫療大數據中間,我們看一下醫療未來的發展。其實科學精確描述這個世界,現在的生物學在越來越朝向實證科學走?,F在我們越來越多涉及到基因,為什么?我們要用大數據去解讀。所以在生命語言中間,心里我們缺乏的是了解生命語言。但是我們已經有生命語言,我們不懂得生命語言的在哪里。
新的基因組定序,從植物、生物、微生物的定序,這方面的領域在各個方面占有很大的部分?,F在在很多領域研究,大數據里面60%都是在做健康這方面的研究。
關于人類基因組,對我們大數據來講很多人都覺得是無字天書。雖然我是學這個專業的,我跟我太太看這個,我可以從統計和大數據的角度向她解釋一些原因,這些是人類基因。PM2.5跟你的健康有關系,跟你的基因有關系。甚至天氣、溫度會跟你的血壓和相關的健康狀況有關系。從Genes到Biochemical,最難的是我們怎么把數據加以整合和分析找出有用的信息。所以基因跟疾病之間的關系,有家族遺傳的關系。我們不知道這個病是什么樣的,我們要了解遺傳,我們要知道基因。
還有基因跟環境之間的交互,我有一次到北京來流鼻涕就好了,但是到臺北鼻涕一直有,你怎么把這兩個因素中間的數據找出來?;蛲蛔兣c癌癥之間的變化,他的家族病史告訴他,他可以從一些數據中找出原因,用大數據協助來做這件事情。所以在這些控制中間,我們越來越了解病因。
從大數據中間我們可以產生分子級的斷命家,這個已經不是天方夜譚了,他可以依照你個人特質化的基因來治療。未來是什么樣的,可不可以有干細胞產生某項器官,把你的藥效帶到心臟、血管任何的定位。這些東西是不是對人有用,是有用的,但是大數據怎么分析出這些東西。
有一些人研究干細胞的,結果發現干細胞存在人類身體所有的部分。尤其是第二大部分是這塊,你的脂肪里面的干細胞是最多的。特別是研究心臟和肺等等,對干細胞的研究我們一直在進行,對干細胞的修復也是沒有問題的。還有就是納米技術,這里面需要太多大數據的應用了。
最后是無聲的殺手人類與微生物的戰爭,剛剛教授講到了流感的預測,很重要的是細菌不斷的演化,演化的速度比你預測的速度還要快。
大家可以知道在醫學上面的挑戰剛開始,它跟大數據的結合現在如火如荼的在做,我今年2月才轉到大數據,我們需要做的就是這些整合。在這個情況下,今天跟大家談到的是所謂的大數據在醫療上的應用。
其實剛才吳教授講過了,我請大家記住四個英文單詞SMAC(Social、Mobile、Analytics和Cloud),實際上手機和任何分析速度運算來月快,請大家記住這四張圖形,Science一定告訴你data,時代雜志告訴你2045年那些事情,因為人類會變成不朽,你相不相信這件事情,最后這件事情又引申了2045這件事情。
在2012年5月做了一個實驗,誰比較聰明,Warse最聰明,它是世界上益智賽觀者。大家回想十幾年前有一個深藍,它贏了誰?贏了前蘇聯的棋王。告訴你,以后玩象棋游戲電腦陪你玩兒,這就叫電玩時代的來臨。這個就是人工智慧時代的來臨。大家手邊拿著一個手機叫智能手機。你以后家里的很多都冠上智能。連大數據都可以辦世界博覽會,我們原董事長也在場。世界博覽會(2015貴陽國際大數據產業博覽會),大家知道世界各大咖都集中在那。
我想說臺灣做的一件事比較好的,叫開放Data,政府在各方面的數據能公布的很多都能公布。我們所有的財政,電子發票等等這些,很有研究興趣的。還有健保資料部能公布的都能公布,然后加以整合,但是個人隱私的都不會公布。政府愿意公布這些材料說明政府開放出來,所以這件事情也很重要。中國政府現在重要的一件事情是怎么公布數據資料,雖然做了但是還是不夠。
馬云在5月的時候說的這句話,就是IT時代把人變成了機器,但是DT時代讓機器越來越接近人,越來越接近人的智慧?,F在DT時代來臨不代表IT不重要,它還很重要,我們在座的99%的人大概都不是做Ass這塊,我們是做Saas這塊。速度越來越快,需求量越來越大,代表著云計算時代的來臨。所以不必擔心有這些種種,不見得每個人都建Data中心,該做什么的做什么,我們是要做解決方案的人。
記得,我現在看到很多都教育你怎么跳個層次,跳到里怎么找Data做這方面,No Data記得這些事情。我不是說這塊不重要,但是這塊相當成熟了,這塊你讓該做的人做,大數據應用很簡單的一句話,就是Data是什么。所以大忽悠麥肯錫忽悠大數據,其實它之前就有了,但是忽悠的非常好。所以看大數據組織,聯合國組織,看看大家都在玩了,中國政府一看,再看美國白皮書,我該玩兒大數據了,所以2012年應該是中國進入大數據的元年,當然中國跑的比誰都快,今年又辦了一個大數據的峰會。所以最重要的告訴大家,它提的大數據宣言,100多個國家,40多個企業提這個宣言的意義在哪里?我要定數據的規格,這是有真知灼見的。所以海峽兩岸的大咖都在這里。
大家可以看到在未來十年電腦的智慧,現在是老鼠,未來十年大概會接近人腦。所以剛剛已經講過這個了,就是大數據的整合,剛剛吳院長說的就是Crisp的過程。我剛剛講過,以往來講這些分析方法什么的要用很多算法,像oracle等等都已經把這些買下來了,這樣方法都有了,而且很簡單很快速。我剛才講了C+、R等等都有了,現在是解決方案的天下。我很快可以找到這個結果,我之所以用電腦是要證明給大家看,我簡單秀一下,大家就明白了。
這一張可以處理幾百萬的資料,假設在座的中小企業大概一兩百萬的資料,你用Excel就可以處理掉了。我剛才說做Guesting,我們這里有數據挖掘的預測,你要做預測,然后就是下一步,一步一步這樣下來,我就不一一講了。我要預測這三個地方的銷售量,我直接完成,完成之后,我們模型就直接出來了。大家可以看到,這是它的預測值就出來了,當然它有它的模型。以這個來講,我們剛才講的也一樣。我想這些東西大家也都會。首先我就可以很快的做這些,剛剛吳院長講到的這些觀念。
很重要的是,我要看銷售的預測,要看它之間的關聯性,找到你買它們之間的關系。以這個來講一樣,我可以很快的找到,你今天購買的行為中間你會有哪些之間的結構關系,然后你可以找到你買它們之間的結構關系。剛才是幾萬的資料,買這個就可以知道其中的結構關系。開始的秀只是為了證明,是你怎么找到這些資料,這些資料你能不能得到,你不能得到的話,你做分析資料,我剛才說No Data,你有再好的技術都是空的,但是現在大家都在賣產值給你,你沒有Data,什么都是枉費的。所以百度可以做世界杯和任何的預測,所以未來是以Data為核心的生活。我們現在以大數據做一個分析,因為兩岸現在青少年問題越來越嚴重,我們警察局結合了教育部,結合它們的很多大數據分析,第一個,先分析青少年常上網站的增量,然后找到之間的關聯性,找到這些關聯性之后就是語義分析,然后找出它的主題。我們看這些主題的監管的知識,我們要做哪些事情?電子足跡,跟蹤這些,去輔導這些青少年。所以根據這些電子足跡,大家看到臺灣的青少年網站是Facebook等,我們可以很快找到這些,可以知道哪些要注意,還有領頭的意見領袖是誰,這其中就能看到相關性種種的,然后協助他們做毒品輔導之類的。電子足跡進去后鎖定,然后找出毒品的來源,還有建立毒品的DNA,再建立大的數據庫。
這個跟我們五年前我們跟調查局做的一件事情,大家看這也是雜七雜八的,我們調查一個人,那個是毒犯判了進了牢里后的記錄,這個記錄很復雜,這就是一個購買行為,這是他跟各類人的聯絡,馬上就清楚的勾勒出來,勾勒出來之后結合兩岸的刑事警察局破獲了東南亞一個毒網,這就是大數據的簡單應用。沒有這些數據,更多的應用也沒用。
資料還可以用在治安,用在暴力犯罪預測,哪里的暴力犯罪最多,這個美國已經在做了,這個可以用在大數據的數據的整合。臺灣有一個總體的資料庫,大家了解臺灣進總體資料庫有很多是開放的,你可以看一看整個結構。大陸我們協助過統計局做數據平臺,國家數據,但是這些數據的開放性還不夠,同時也懷疑這些數據的準確性,這些都是值得加強的,我就不再講了。
現在數據的整合越來越重要,DataTime已經上新三板了,數據模仿。我們現在在做哪些事情?我在北醫,我們原來做的有點像這件事情,這個我已經向各位報告過了。我們現在做了三個:醫療云、健康云,照顧云,走在大數據上。這三個云最重要的,臺灣叫健康保險,這里叫醫保數據庫。醫保數據庫,假如有信息化,你們可以進去,因為這是開放的,但是需要申請,這里有不同的申請,它會教你怎么開放。這些東西怎么去串這些數據庫。所以你要有串數據庫,整合數據庫的能力,你要想怎么用Saas把這些數據庫整合出來,了解心臟病到底用什么藥。像剛剛講的乳癌,這個人家怎么做的,都可以清清楚楚知道,然后再來重大傷病,還有住院,醫療這些,清清楚楚的這些資料都可以開放,但是個人資料都沒有開放。
我們現在做的一件事情,我們有五家醫院,還有些一中心,我們將醫保、健保數據庫加以整合,能不能跟生活形態,跟你的運動,跟人類的生活形態,甚至基因等加以整合,整合完以后數據處理,數據分析,它會產生什么樣的價值向各位報告,臺灣15年下來產生了有頂級影響力的研究報告。所以造就了這兩年來,你可以看到很多數據,經濟學人在今年公布了臺灣是宜居城市,臺灣的醫療在全世界是第三,亞洲第一,健保數據庫的公開和研究,造就了臺灣醫療水準在這十幾年來突飛猛進。
我經常講因為一個數據庫帶動了一個領域的成長,這個成長是關于到自己的健康。對于這個來講,臺灣現在跟大數據地理信息和影像方面的結合。我們公布區域資料之間的整合和人口結構,我們可以知道這個區域的醫療水準夠不夠,醫療資源夠不夠。我們還可以知道遺傳病,臺灣最流行的疾病是臺南的登革熱,我們可以知道它的散布情況,當年沒有大數據所以蔓延非常廣。我們可以知道疾病的蔓延跟疾病的防治,這些都很清楚。
所以在疾病的預防中,早期預防,早期醫療。我們跟上海的醫院合作,我們把臺灣的管理技術移植到上海、廈門、北京,目前在做這些事情。在醫療感知上有小米手環,現在的小米手環就是看你睡的好不好而已。用臺灣的電腦數據庫建立一個模型,用來判斷睡眠狀況可能跟高血壓、抑郁癥這些都有關系,來看你整個睡眠狀態來判斷這些癥狀,現在我們在做這方面的模型,這樣的話戴小米手環的價值就更高了。小米手環的價格可能是一百塊,我的APP你咨詢一下可能就兩三塊,所以這是醫療云、健康云,用大數據平臺銜接起來,連門診、急診這些都在做。
現在很多人都在玩這個,當然你要進來也可以。我們玩的是這一塊,最重要的是有數據,有數據進來以后才能有價值。所以大數據越來越重要,未來收集資料、整理資料、分析資料,你把這些資料放在手機里面,未來最重要的是數據。大家都有服務,你把服務放在手機里面就是智能型的手機。我剛開始只是用模型,我們有太多的模型可以放在手機和電腦里面,我們醫療的價值就在這里,這才是商業智慧。
在這個過程中,我們產生的智慧在這里,產生的云在這里。你用手機,你用不同的設備跟它接觸,這是一個革命時代的來臨。所以請大家注意,還是用臺灣的醫療大數據來告訴大家這是十年來的奇跡。大家到臺灣走一走,臺灣的醫療我不敢說是全世界第一,但是我至少敢說是世界領先的,臺灣的醫療水準通過這個結構帶動了臺灣的醫生在全世界是相當有名的,所以醫療大數據是非常重要的。
科技風云,再輝煌十年,別人都在說為什么十年。到2015年希望我們在座的每一個,你所在的行業、企業或者是研究單位,如果你沒有在這個領域,就像馬云說的不參與這個一定埋怨,但是我加了一句話,不參與這個一定會后悔,一定會被淘汰。諾基亞說了一句話,我沒有做錯任何一件事情,我只是告訴你世界變化的太快了,我趕不上,我沒有找到那個定位。我們期待一個未來的智慧城市和智慧醫療,希望我們一起努力邁向大數據時代,我也希望跟大家一起工作,一起研究,一起合作,謝謝大家。
主持人:
謝謝謝教授,謝教授的演講給我三個感覺。第一個是特別幽默;第二個是他雖然不青春,但是他依然非常年輕。因為他時時刻刻走在大數據世界的最前端。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25