熱線電話:13121318867

登錄
首頁職業發展大數據在醫學中的應用思考
大數據在醫學中的應用思考
2015-09-11
收藏

大數據在醫學中的應用思考



二十一世紀是數據爆炸的時代,醫學也不例外。在信息時代,醫學在廣度和深度方面日新月異,循證醫學深入人心,信息化醫療迅速發展。另一方面,計算機技術的飛速發展使得海量存儲成為可能,成本不斷下降。醫學知識、醫學信息呈現幾何級數增長?!按髷祿保╞ig data)并不是一個很新的名詞,在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日;歷史上的數據庫、數據倉庫、數據集市等信息管理領域的技術,從某種意義上說也是為了解決大規模數據的問題。近年來由于互聯網和信息行業的發展,大數據引起了人們的關注。

  大數據的應用目前主要集中在企業經營決策領域。醫療健康是大數據應用的又一新領域,但在醫學中的應用的案例尚為數不多。本文就大數據在臨床醫學中的應用及其應用中可能出現的問題作簡要分析。有關大數據的計算機方面存儲技術、分析數理模型、商業應用、軟件分析等等均不在本文討論范圍之內。

  大數據是什么

  大數據指的是巨大的數據量無法通過目前主流軟件工具,在合理時間內達到提取、管理、并整理成為有用信息。大數據到底有多大?有人估算全球平均每人產生200GB以上的數據。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。信息行業常用“4V”來總結大數據的特點:volume(大量)、velocity(高速)、variety(多樣)、veracity(真實性)。毫無疑問,人們更重視的是大數據的value(價值)。大數據對于投資者而言無非是資產和金錢的代名詞。如評估機構評定Facebook上市的有效資產大部分為社交網站的數據。因此,在某種程度上可以認為,大數據是一種新技術、新理念,也是一種新產業:通過“加工”實現數據的“增值”。

  關于大數據的應用,“大數據商業應用第一人”維克托·邁爾-舍恩伯格在其《大數據時代》一書中舉例甚多,主要是通過找出一個關聯物并監控它,就可以預測未來。比如Google如何利用搜索記錄進行數據挖掘從而預測流感爆發趨勢、亞馬遜商店利用購買和瀏覽記錄數據進行針對性購買推薦以提升銷售量等等。

  我國醫學大數據的產生背景

  既往我國大多是醫療機構均采用紙質文件記錄醫療數據及醫療活動,這些紙質文件數據屬于非結構化數據,利用起來非常困難,雖然早就有巨大的數據量,但無法利用。近年來,我國衛生行政部門大力推進以健康檔案、電子病歷和公共服務信息平臺為基礎的區域衛生信息化建設工作。2010年“十二五”衛生信息化建設工程規劃編制工作初步確定了我國衛生信息化建設路線圖。隨著衛生信息化建設的不斷成熟,醫療相關的大數據也在急劇增加。醫院信息管理系統(HIS),主要包括電子病歷信息系統(醫囑、病程記錄、護理記錄等)、實驗室信息管理系統(檢驗報告)、醫學影像系統(各種醫學影像如MRI、CT、X光片等),這些系統幾乎每分每秒都在產生電子化數據,數據量實在是太大、增長太快,數據量從MB到GB,從TB 到PB,對數據處理的實時性、有效性提出更高要求,傳統的分析技術無法應付。

  醫療大數據的價值及應用前景

  面對如此巨大的信息量,如何衡量信息的價值,及時有效地篩選出對醫療工作有用的信息成為重要課題。在我國,龐大的患者數量使中國躍居世界上擁有潛在規模最大臨床數據資源的國家,如何有效地存儲并利用數據的問題更為突出。大數據的應用可產生很高的衛生經濟價值。中國工程院院士、國家863計劃監督委員會副主任、國家物聯網標準化專家委員會組長鄔賀銓贊同“大數據是新財富,價值堪比石油”的觀點,他認為“醫療大數據具體可應用在臨床診斷、遠程監控、藥品研發、防止醫療詐騙等方面?!彼J為,對病人的大數據進行分析,可以精準地分析病人的體征、治療費用和療效數據,可避免過度治療。通過進一步比較各種治療措施的效果,醫生可更好地確定臨床最有效、效益最好的治療方法。有人提出應用大數據對制定預防艾滋病的方案有一定的價值。人們還注意到在中醫方面也可能有潛在的應用。隨著人們健康意識的不斷提高,新技術、新藥物的不斷涌現,二十一世紀也是醫療支出不斷攀升的時代。目前在整個醫療管理、醫學界方面都在經歷著一場又一場的變革,以適應人民群眾日益增長的健康需求及國家對衛生經濟學成本效益的要求。

  總的來說,大數據在醫療中的應用主要有以下幾個方面:1)發現新知識、新規律:在臨床工作和科學研究中,我們可獲取大量實驗樣品、組織切片、基因芯片的數據。對這些前所未有的大量數據進行挖掘,可能有機會發現與疾病相關的新靶點或新分子標記物。2)制定個性化治療方案:同樣道理,整合不同來源的數據信息包括來自臨床治療、基因組測序、組織形態的大數據分析使為每個患者量身定制治療方案成為可能,為個性化醫學(personalizedmedicine)帶來新的動力。3)推動循證醫學的二次發展:傳統而言,臨床醫生往往根據其具體背景和經驗作出診斷和治療。采用大數據進行統計分析,作出更為精確的臨床診斷和發現切實可行的治療方案,也是循證醫學的體現。

  醫學大數據時代的數據管理及整合

  然而,大數據在醫學的應用中,離不開一個核心問題,那就是數據源。上文所述的這些方方面面的大數據醫學應用,歸根結底需要結局(outcome)方面的數據。沒有結局數據,也就無法評判治療方案的好壞,利用大數據也就成為空談。然而,由于種種原因,這方面的數據常常不完整。特別是藥物的療效、患者生活質量、腫瘤患者的生存狀況等等,常常缺乏相關信息,或信息沒有標準化而無法利用。因此,醫學大數據的管理首先要解決數據缺失的問題。

  有效的隨訪是獲取結局數據的主要方法。筆者所在的中山六院的單病種數據庫始建于1994年,目前包括有結直腸癌、胃癌、炎癥性腸病、腹腔鏡等單病種臨床數據庫,記錄完善的臨床資料,并成立了隨訪辦公室,有專職的隨訪人員對患者進行前瞻性隨訪,定期通過電話、信件等聯系方式跟蹤,隨訪率達到98%以上。

  隨訪數據,尤其是腫瘤患者的生存狀況,作為療效數據的一個部分,具有相當大的研究分析價值。在大數據時代,如何設計完善合理的隨訪流程,保證有效地收集隨訪數據,保證隨訪數據完整時值得每個數據庫管理者思考的重要問題。目前我院的隨訪體系包括定期通過電話、信件等聯系方式跟蹤,設置隨訪人員可從系統上瀏覽到病患的相關資料(一般資料、手術資料、化療資料、放療資料、備注等)。住院病人術后返院隨診,可以得知患者復發、轉移的情況。然而,在相當多的單位,甚至包括我院在過去的隨訪系統也存在很多問題,比如患者回院治療、看門診等,患者離院后病歷就隨之而去,因而導致大量的關鍵數據流失。數據的缺失,是很多數據成為垃圾。

  另一方面,醫學大數據的管理還要解決數據孤島的問題。在傳統模式下,數據多數是由不同的應用程序搜集到的,存儲格式不一,無法彼此兼容、無法整合,各個數據庫就像一個個相互隔離的島嶼,由此產生了“數據孤島”的概念。簡單舉例:比如我國人口死亡登記系統實際上保存著大量的、相對準確的人口死亡信息,包括死亡日期和死亡原因等,這些數據對于評價臨床醫療結局無疑是寶貴的原始資料。但是由于各種原因,這部分數據與醫院的醫療方面的數據至今無法整合,令人惋惜。這方面可以借鑒美國SEER數據庫(Surveillance、Epidemiology、End Results)的經驗。該數據庫在美國國立癌癥中心(NCI)的管理下,能夠把各種數據資源有效整合,從而產生大量有意義的臨床統計分析數據,如尸檢報告、細胞學檢查報告、死亡證明、醫院記錄、隨訪記錄、訃告、腫瘤報告、病理報告、放療報告、手術信息等等。我國在這方面也有很長的路要走。

  產生數據孤島的主要原因是信息儲存的標準和系統建設不統一,勉強整合也會產生無法辨別數據質量的問題,產生“數據污染”。在大數據時代,數據不僅僅表現為存儲容量大,而且表現在數據來源更為廣泛,目前已經從以前單一的紙質數據,增加了電子化病歷數據、便攜式設備產生的數據(如iPad、iPhone等)以及可穿戴設備(如可檢測生命體征或其他生物學特征的腕表)等等。因此,在大數據時代,更應該重視數據的前瞻性管理,而不能只是滿足于亡羊補牢式的數據治理。首先需要制定統一的數據存儲內容的基本規范,比如根據我國人口眾多的特點,采用“姓名+身份證”作為識別每一例患者的關鍵信息,即在任何一個數據集里,每一條記錄必須包含這兩個信息,以便各個數據庫之間進行合并。其次是在每個數據庫建立時就制定每個數據的標準定義。說到數據整合,醫學科研人員很容易想到meta分析。大數據的數據整合與meta分析當然不是一個范疇的問題,但也有其共性。在進行meta分析時碰到的一個極為重要的問題就是變量的定義是否統一,這直接關系到文獻的納入與剔除。此問題非常普遍,例如有文獻指出,在已發表的醫學論著中anastomotic leak(吻合口瘺)就有56種不同的定義。同樣道理,在大數據時代,進行數據合并也要注意這個問題,不能將蘋果與橙子作比較,更不能將兩者合并。因此,在數據庫的建設初始就要對每個變量進行嚴格定義,這點在醫學數據中尤為突出,與其他的企業管理、財務信息的數據庫不一樣;最后,要制定各單位、各部門之間數據交換的基本規則,互惠互利是前提和基本原則。

  大數據的爭議

  更多的數據就意味著更多的信息嗎?答案不是絕對的。一百萬條記錄包含的信息量也許與1條記錄相差無幾。大數據的優勢不能簡單理解為就是“大”,“大”不一定比“小”好。大量數據的出現不可避免也帶來了很多質疑。如上文所述的數據孤島、非結構化數據(指手寫文書、照片、影像、錄像等)的處理、數據標準化等問題。另外,數據分析方式仍為傳統的統計模型。神經網絡、SVM、聚類算法等機器學習界10-20年前提出的,以及統計學界早已成熟的回歸分析、相關性分析等,現在依然是處理大數據的主流技術。

  重視數據質量、避免數據污染也是極為重要的一個方面。傳統的統計學分析強調數據抽樣的無偏性、隨機性、代表性。然而在大數據時代,人們容易簡單地認為大數據是全樣本,就不用去管數據的質量,只要把收集的“大數據”簡單統計一下就可以了,這無疑是非常危險的一個趨勢。希望從毫無質量可言的數據中發掘到有用的信息無疑于緣木求魚。數據庫的數量和挖掘到的信息量沒有任何關系,進進出出的都是垃圾。

  小結

  總的來說,大數據的出現一定程度上滿足了人們對信息量的追求,筆者認為,大數據有以下幾個創新:首先,對于一些以前看來雜亂無章的無用數據,大數據似乎能夠化腐朽為神奇。其次,大數據的出現使人們不再滿足于抽樣計算,而追求總體本身。最后,海量數據結合飛速發展的計算機技術以及統計學方法,可以更精確、更全面地預測臨床療效、臨床結局、治療費用等。然而,正如上文所提到的,大數據也有其顯而易見的局限性。對于大部分臨床醫療人員來說,目前大數據仍然是比較新鮮的事物,也沒有大數據在臨床醫療中成功應用的顯著案例。因此,我們既要保證有開放的思維和態度,也要有慎思明辨的意識,不要趨之若鶩,從現在開始進行數據治理,重視數據的前瞻性管理,這樣才能夠淘沙撿金,發掘出對提高人們健康水平和臨床療效的有用信息。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢