
數據挖掘常用算法及其在醫學大數據研究中的應用
醫院信息化的發展及云計算、大數據、物聯網、人工智能等在醫療領域的應用,為醫學數據的獲取、存儲及處理提供了極大便利。數據挖掘也隨著計算機技術得到了廣泛應用,從而提高了數據利用效率,拓展了知識發現的廣度與深度。目前,醫院已積累了大量醫療相關數據。醫學大數據與數據挖掘的結合,能夠幫助人們從存儲的大體量、高復雜的醫學數據中提取有價值信息,加速醫學成果轉化,為醫療行業開拓一個新的時代。介紹了醫學數據挖掘中常用算法及其在醫學大數據中的研究成果,以期為今后醫學大數據的挖掘利用提供參考。
數據挖掘是指從數據庫中,提取隱含在其中的人們事先未知、潛在的有用的信息和知識的過程。數據挖掘已有較多成熟方法,并在醫學大數據挖掘中取得了一定成果。本研究對數據挖掘的常用算法及在醫學大數據中的應用進行綜述。
數據挖掘分類及常用算法
預測型數據挖掘預測型數據挖掘是從歷史數據中發現的已知結果,推斷或預測未知數據的可能值,有預測和回歸兩種類型。常用算法有線性回歸、Logistic回歸、K-NN算法、決策樹(DT)、人工神經網絡(ANN)、支持向量機(SVM)及各種集成算法等。
回歸回歸是指確定響應變量和一個或多個自變量之間依賴關系以構建預測模型。Kirkland等利用Logistic回歸建立模型,對采集的病人臨床指標等數據建立了疾病惡化預警模型,可對病人未來2-12小時可能出現的疾病惡化風險進行預測。Escobar等基于14家醫院的電子病歷數據,同樣采用Logistic回歸建立模型,用于病人非計劃轉入ICU的預測。
分類分類是指基于已知所屬類別的歷史數據的特征描述預先定義好的類別,構建預測類別的模型,再根據待查數據的相關特征與這些類別相應特征之間的相似程度,確定待查數據應劃歸入的類別,可用于預測性研究。Meng等[5]應用了Logistic回歸、ANN及決策樹三種分類算法建立了糖尿病預測模型。
描述型數據挖掘描述型數據挖掘是識別數據中的模式或關系,旨在探索被分析數據的內在性質,常用方法有關聯規則、序列規則和聚類。
關聯規則關聯規則通過從大量數據中,發現數據之間某些未知的、潛在的且有實際意義的關聯或聯系,并以關聯規則的形式表現出來。關聯規則應用于醫學研究,可以從醫療信息中揭示疾病發生、發展規律以及醫學診斷、醫學圖像、癥狀與用藥等某些內在聯系,為疾病診斷和健康管理提供參考。李準等基于Apriori算法,對某綜合性醫院電子病歷中不同的冠心病診斷結果與用藥情況進行關聯規則挖掘,發現不同藥品對不同診斷的治療效果及冠心病危險因素。Qin Li等將Apriori算法用于高血壓、房顫、血脂異常等8項高風險因素與中風之間關聯性挖掘,提供了可行的中風預防、早期診斷和早期治療方式。
序列規則序列規則可挖掘相對時間或其他模式出現頻率較高的模式,通過對時間序列數據挖掘,可獲得與時間密切相關的信息,實現知識獲取。王晨等將非線性時間序列分析中的算法引入胎兒心電信號處理,成功實現胎兒心電信號與母體生物電信號的分離,對提高胎兒心電監護有很好的輔助作用。馮冰等認為時間序列在預測傳染病發病中較好的效果,并建立了兩種季節時間序列模型對某市細菌性痢疾月發病率預測效果進行對比研究,預測效果與實際情況基本一致。
聚類分析聚類可將整個數據集分成幾個數據組,屬于同一組的實例盡可能地相似,而屬于不同組的實例則盡可能不同,常用算法如K-means和TwoStep等。張勃等將K-means應用于冠脈光學相干斷層成像的圖像斑塊分割,實現多區域斑塊精確分割,為醫生快速精確地讀取圖像和評估患者病情提供依據。TwoStep相比其他聚類的一個突出優點是,能夠自動選擇最佳分組數而無需預先設置,如楊美潔將TwoStep聚類算法用于電子病歷中高血壓患者數據聚類分析,得到了高血壓重要的預測變量。
數據挖掘的過程
數據挖掘過程大致包括6個步驟:數據選擇、數據清洗、數據賦值、數據轉化、數據挖掘和結果解釋與評估。數據選擇包括數據源、數據類型、特征變量等的選擇,其中,特征變量選擇至關重要,許多分析建模探索往往始于數以百計甚至更多的變量,但通常來說,只有少數變量真正與目標變量有關,有助于降低模型訓練時間和存儲空間,提高模型的精度。研究者在建立預警模型時,以Logistic回歸從眾多變量中篩選了特異性較高的變量用于模型建立;Khiabani等[20]則以filter 和wrapper兩種變量選擇法分別從55個變量中篩選特征變量,用于前驅糖尿病預測研究,并將預測結果與全變量模型的預測結果進行了對比,發現經過特征變量篩選的預測模型的精確性優于全變量模型。
數據挖掘在醫學大數據研究中的應用
數據挖掘在醫學大數據研究中已取得了較多成果,通過文獻檢索,總結了三方面的應用現狀。
疾病早期預警醫療領域往往需要更精確的實時預警工具,而基于數據挖掘的疾病早期預警模型的建立,有助于提高疾病的早期診斷、預警和監護,同時,也有利于醫療機構采取預防和控制措施,減少疾病惡化及并發癥的發生。
疾病早期預警,首先要收集與疾病相關的指標數據或危險因素,然后建立模型,從而發現隱含在數據之中的發病機制和病情之間的聯系。Forkan等采集日常監測的心率、舒張壓、收縮壓、平均血壓、呼吸率、血氧飽和度等生命體征數據,以J48決策樹、隨機森林樹及序列最小優化算法等建立疾病預警模型,用于遠程家庭監測,識別未曾診斷過的疾病發生,并將監測結果發送到醫療急救機構,實現生命體征大數據、病人及醫療機構的完整銜接,以降低突發疾病及死亡的發生率。Easton等利用貝葉斯分類算法建立了中風后遺癥死亡預測模型,認為中風后遺癥死亡概率與中風發生后的時間長短成函數關系,有助于中風后遺癥患者的后續監護。Tayefi等基于決策樹算法建立了冠心病預測模型,該模型發現hs-CRP作為新的冠心病預測標志物,比傳統的標志物(如FBG、LDL)更具特異性。
慢性病研究糖尿病、高血壓、心血管疾病等慢性病正在影響著人們的健康,識別慢性病危險因素并建立預警模型有助于降低慢性疾病并發癥的發生。Alagugowr等建立的心臟病預警系統,從心臟病大數據庫中提取特征指標,通過K-means聚類算法識別出心臟病危險因素,又以Apriori算法挖掘高頻危險因素與心臟病危險等級之間的關聯規則。Ilayaraja等則以高頻項集尋找心臟病危險因素并識別病人風險程度,該方法能夠回避無意義項集的產生,從而解決了以往研究中項集數量多、所需存儲空間大等問題。CH Jen等對慢性疾病并發癥風險識別的研究分三個步驟,首先,選擇健康人群體檢數據和慢性病患者相關疾病數據,以帶有序列前項選擇的線性判別分析來尋找相關疾病的特征變量;然后,以K-NN對特征變量進行分類處理;最后,將K-NN算法的分類結果應用于慢性疾病預警模型的建立。Aljumah等先后以回歸分析和SVM用于預測和判斷糖尿病不同治療方式與不同年齡組之間的最佳匹配,為患者選擇最佳治療方式提供依據。Perveen等對糖尿病的預測研究,采用患者人口學數據和臨床指標數據,并分別用Adaboost集成算法、Bagging算法及決策樹三種算法來建立預測模型,認為Adaboost集成算法的精確性更高。
輔助醫學診斷醫學數據不僅體量大,而且錯綜復雜、相互關聯。對大量醫學數據的分析,挖掘出有價值的診斷規則,將對疾病診斷提供參考。Yang等基于決策樹算法和Apriori算法,對肺癌病理報告與臨床信息之間的關聯性進行了研究,為肺癌病理分期診斷提供依據,從而可回避診斷中需要手術方法獲取病理組織。Becerra-Garcia等應用SVM、K-NN和CART三種算法對眼球電圖進行信號預處理、脈沖檢測和脈沖分類,為研究臨床眼球電圖檢查中非自發掃視眼球運動的識別提供依據。彭玉蘭等對某醫院5年的乳腺超聲數據進行了關聯規則挖掘,建立乳腺病理診斷與超聲診斷之間的關聯規則,并開發了乳腺超聲數據庫數據檢索系統,便于醫生快速獲得超聲診斷和病理診斷的各種診斷信息和病例信息。
醫學大數據挖掘已呈現廣闊的發展前景和巨大的應用價值,將為疾病研究、臨床及管理決策、醫療服務個性化及圖像識別等眾多領域帶來更多支持。麥肯錫在其報告中指出,大數據分析可以幫助美國醫療服務業一年創造3000億美元的附加價值,而美國醫療協會也稱,改善醫療衛生事業的關鍵在于大數據。目前,醫院大數據中心、區域性衛生信息平臺、國家醫療大數據中心的建立以及衛生信息互聯互通標準和共享規范的制定,為數據存儲和共享、推動醫學大數據的應用提供了更多支撐。未來,醫學大數據挖掘將不斷更新,探索新的研究領域,推動研究成果轉化。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25