
大數據時代下數據挖掘技術的應用
隨著社會信息化的迅速發展,無論是數據的變化速率,還是數據的新增種類都在不斷更新,數據研究變得越來越復雜,這意味著“大數據時代”到來。2011年,互聯網數據中心(internet data center,IDC)將大數據重新定義為:在大數據原有的三維特征——數量、多樣、速度基礎上,增加了另一新的特征——“價值”。IDC強調:“目前,對于龐大的數據量,通過經濟的方式,極速發掘、獲取和分析處理的技術,進而提煉獲取價值,這是大數據新時代的專屬?!薄按髷祿r代”的專屬特征被重新定義為:數量(volume)、多樣(variety)、速度(velocity)和價值(value),稱為“4V”。
隨著大數據時代的到來,社會對“挖掘”到的數據要求變得更加嚴格,每一個精準的結果都具備獨自的“價值”,這時,大數據時代的新增屬性——“價值”被演繹得有聲有色。數據挖掘(data mining, DM)是一門新興的、匯聚多個學科的交叉性學科,這是一個不平凡的處理過程,即從龐大的數據中,將未知、隱含及具備潛在價值的信息進行提取的過程。1989年8月,在美國底特律市召開的第十一屆人工智能聯合會議的專題討論會上,知識發現(knowledge discover in database,KDD)初次被科學家們提出,同時,也有人將知識發現稱為數據挖掘,但兩者并不完全等同。1995年,KDD這個術語在加拿大蒙特利爾市召開的第一屆知識發現和數據挖掘國際學術會議上被人們接受,會議分析了數據挖掘的整個流程。實質上,數據挖掘是知識發現的子過程。
經過了大約20年的發展,數據挖掘研究取得了可觀的成績,漸漸地形成了一套基本的理論基礎,主要包括:分類、聚類、模式挖掘和規則提取等。數據挖掘是一種從生活中的海量數據里“挖掘”出潛在的、前所未有的知識的技術。處理大數據需要一個綜合、復雜、多方位的系統,系統中的處理模塊有很多,而數據挖掘技術以一個獨立的身份存在于處理大數據的整個系統之中,與其他模塊之間相輔相成、協調發展。在大數據時代中,數據挖掘技術的地位是無可比擬的。
數據挖掘的研究現狀
數據挖掘將高性能計算、機器學習、人工智能、模式識別、統計學、數據可視化、數據庫技術和專家系統等多個范疇的理論和技術融合在一起。大數據時代對數據挖掘而言,既是機遇也是挑戰,分析大數據,建立適當的體系,不斷地優化,提高決策的準確性,從而更利于掌握并順應市場的多端變化。在大數據時代下,數據挖掘作為最常用的數據分析手段得到了各個領域的認可,目前國內外學者主要研究數據挖掘中的分類、優化、識別、預測等技術在眾多領域中的應用。
分類
伴隨著時代的進步和科技的飛速發展,作為人口大國,中國在健康醫療、老齡化社會等方面產生的公共數據呈幾何級數進行增長,而基于大數據的挖掘數據所附有的價值問題急需解決。健康醫療數據的結構、規模、范圍和復雜度等都在不斷擴大,傳統的計算方法并不能完全滿足分析醫療數據,數據挖掘技術則可以根據醫療數據的一些特點:模式的多態性、信息的缺失性(數據中由于涉及個人隱私問題而導致的缺失值)、時序性、冗余性對健康醫療數據進行分類,從而可以為醫生或病人提供準確的輔助決策。
同時,中國正加速進入老齡化社會,而互聯網是改善老齡化社會的重要媒介,大數據是評估老齡化社會重要的技術手段。屈芳等提出了“互聯網+大數據”模式的養老實現途徑,整個養老服務體系是建立在多元異構信息匯聚和數據融合挖掘之上,“互聯網+大數據”的養老體系是將多種信息通信技術進行融合,在這里,包括通信技術、數據挖掘技術及人工智能技術等。
優化
道路的交通狀況與人們的出行關系密切,隨著城市的快速發展、生活水平的改善,機動車的規模也逐漸擴大,帶來了交通擁堵等問題。數據挖掘技術可以有效解決交通道路和物流網絡之間的優化問題,Pan等提出了一種數據挖掘預測模型,該模型用于“實時預測”短期的交通狀況,給陷入交通擁堵的駕駛人員帶來極大的幫助。
隨著科技的發展,網上購物越來越流行,同時帶來了物流運輸擁堵及癱瘓等問題。京東——中國最大的在線交易平臺之一,在人工智能的優化時代,使用無人機探測道路狀況反饋的數據,采用數據挖掘技術精準計算物流網絡運輸所需要的參數,可以輕松高效地緩解物流運輸癱瘓的問題,從而產生了中國第一個機器人快遞員,將第一個商品送達至中國人民大學。而隨著日后交通網絡長度、復雜性等方面的增加,實現無人駕駛的自動化策略難度也大幅增加,只有通過數據挖掘技術才可以快速計算出結果,從而獲得從復雜道路信息中產生的高效價值。
識別
自從20世紀50年代數字圖像出現以來,數字圖像成為人類社會中必不可少的“數據”。在計算機應用中,數據挖掘在圖像識別的應用越來越普遍,有代表性應用為人臉識別和指紋識別。人臉識別通過對獲得的信息庫進行數據挖掘,進一步分析和處理可靠的、潛在的數據,充分準備資料的分析工作和未來的開發工作。Wright等闡述了基于稀疏表示的魯棒人臉識別,并給出了詳細的理論分析與實踐總結。
沙亞清等針對目前的電子報稅系統中利用用戶名和口令的不安全性,提出了一種基于智能卡和指紋識別的身份認證方案,并結合指紋技術,構建新的口令參數,從而使得安全性明顯提高。隨著數據挖掘技術的不斷發展,大數據識別人臉和指紋的精確度會越來越高。
預測
預測問題是各領域中研究最多的問題,其目的是通過歷史數據預測出未來的數據值或發展趨勢。大部分歷史數據是時間序列數據,即指按照時間的順序排列,得到了一系列觀測值。由于信息技術的不斷進步,時間序列的數據也日益劇增,如氣象預報、石油勘探、金融等。時間序列數據挖掘的最終目標就是通過分析時間序列的歷史數據,預測未來一段時間的變化趨勢及其帶來的影響。
“氣象”與地球的生態平衡和人們的正常生活息息相關,因此,氣象的準確預報顯得格外重要。周磊等總結了目前的氣象監測模型,基于遙感數據的干旱方面,將目前的遙感監測方法進行分類,對于外界的環境條件(溫度、濕度等)進行分類討論,提出解決復雜問題的新方法。
石油作為一種不可再生資源,目前全球儲量日益減少,從而使得石油勘探變得越來越重要。在石油勘探管理中,所采集的數據具有數據量大、計算量大、采集來源單一及數據處理流程復雜的特點,用數據挖掘技術對其采集的大數據集進行高性能并行計算和分析,才可以保證結果的有效性和準確性。
在大數據時代下,銀行、證券公司、保險公司等每天的業務都將生成海量數據,采用當前的數據庫系統可以高效地實現數據的錄入、查詢和統計等功能,目前,從簡單的查詢提升到利用數據挖掘技術挖掘知識、提供決策支持的層次顯得格外重要。數據挖掘技術在金融行業應用具有可行性,將理論基礎應用到相關的實例包括預測股票指數、發現金融時間序列中的隱含模式、信用風險管理及匯率預測等。
數據挖掘主要方法
數據挖掘是一門交叉性的新興學科,它將數據可視化、數據庫技術、高性能計算機、統計學、機器學習、模式識別、人工智能等多個范疇的理論和技術融合在一起。數據挖掘的主要方法概括為:預測模型方法、數據分割方法、關聯分析法和偏離分析法(圖1)。解決實際問題時,將已知的數據庫蘊含的復雜信息轉換成數學的語言,建立數學模型,運用相應的處理方法結果會更加有效。
圖1 數據挖掘的主要方法
預測模型方法
預測模型方法是數據挖掘主要方法中分支較為復雜的一類,包括神經網絡與決策樹等相關人工智能算法、進化算法及支持向量機等算法。
在預測模型方法中,神經網絡算法、決策樹算法、貝葉斯分類算法、基于關聯規則分類算法等都是經典的人工智能算法。
1943年,心理學家McCulloch和數理邏輯學家Pitts建立了神經網絡和數學模型,稱為MP模型,證明了單個神經元能夠執行邏輯功能,從而開創了人工神經網絡研究的新時代。通過仿真和模擬生物的神經系統而獲得非線性處理能力的一種新的算法——人工神經網絡算法(artificial neural network,ANN)。
現有的決策樹的分類算法有ID3、C4.5等。1986年,Quinlan提出了著名的ID3算法,在ID3的基礎上,1993年Quinlan又提出了C4.5算法。決策樹(decision tree,DT)分類算法是一種以決策樹形式表示的分類規則,它能夠根據一定的規則將眾多的數據分類,從中挖掘出那些有價值的、潛在的信息。決策樹的主要優點在于處理大數據的能力強,適合分類及處理預測模型的任務,結論易于解釋和理解。
目前的主要研究有3種:CBA、CMAR和CPAR。自1993年Agrawal提出數據庫中的關聯規則挖掘后,基于關聯規則分類算法(classification base of association,CBA)及應用得到迅速發展。1997年,Ali等提出了使用分類關聯規則進行部分分類的思想。1998年,Liu等提出了基于分類關聯規則的關聯分類算法CBA,從此揭開了關聯分類的序幕?;?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關聯規則分析的分類算法搜索頻繁模式與類標號之間的強關聯,有效避免了決策樹歸納一次只考慮一個屬性的限制,使其比一些傳統的分類算法更為準確。
貝葉斯(Bayes)分類算法是一種算法相對比較簡單、分類精度相對較高的分類算法。在分類的性能方面,決策樹算法、貝葉斯分類算法及神經網絡算法之間關系十分緊密?,F有的貝葉斯分類算法包括樸素貝葉斯算法、動態貝葉斯算法等。常見組合分類方法有隨機森林方法、bagging方法及boosting方法。其中,隨機森林方法是將多個決策樹分類器組合在一起的方法,在boosting算法中最常見的一種是AdaBoost算法。在準確度上,二者不相上下,但是,在運行速度上,隨機森林方法更占優勢。朱凌云等提出了一種新的技術并在醫學中的應用,體現了數據的處理、多屬性信息的融合、挖掘算法的高效性和魯棒性。由于神經網絡系統具有高度的抗干擾能力,所以,在各個領域內神經網絡算法應用廣泛,例如數據挖掘、信號處理、自動控制、模式識別及圖像處理等多個范疇。
2)進化算法
進化算法,又稱“演化算法”(evolutionary algorithms,EAs),其代表性算法為遺傳算法。1969年,Holland提出了一種隨機搜索的最優化方法,它是模擬自然界中的遺傳機制和生物進化論而成的,稱為遺傳算法(genetic algorithms,GA)。它將利用自然界中的“優勝劣汰,適者生存”的生物進化原理改變優化參數,根據適應度函數的選取,最終形成編碼串聯到群體中。遺傳算法的基本步驟:選擇、交叉和變異。遺傳算法的主要目的是留下適應度值好的個體,淘汰適應度值差的個體,繼續循環選擇、交叉和變異步驟。
近幾年,又演化出新的進化算法,如粒子群算法、蟻群算法以及灰狼優化算法等。粒子群算法(particle swarm optimization,PSO)是由Eberhart等開發的一種新的進化算法。與模擬退火算法相似,PSO算法也是從隨機解出發,通過迭代進而尋找最優解,與上述的“遺傳算法”相比而言,規則更為簡單,它沒有遺傳算法基本步驟中的“交叉”和“變異”,而是通過追隨當前搜索獲得的最優值來尋找全局的最優解。粒子群算法以實現簡便、精度高、收斂快等優點引起了學術界的重視,并且在解決實際問題中展示了其優越性。
3)支持向量機
1995年,Corinna和Vapnik等首先提出了支持向量機(support vector machine,SVM),它是一種具備較強的分類能力和泛化能力的分類算法,主要解決小樣本、非線性、高維模式識別及函數擬合等其他機器學習問題。支持向量機主要分為以下3種情況。
線性可分情況。針對線性可分的情況,現實生活中存在大量的實例,例如,在一組醫療數據中,通過支持向量機可以將患者和正常人進行分類(即二分類),判斷哪些是患者,哪些是正常人;在一組由民歌和古箏演奏的音樂辨別中進行有效的分類,判斷哪些是民歌,哪些是古箏。
線性不可分情況。解決線性不可分問題時,構建核函數,這是支持向量機的優勢所在。但是,對于數據集訓練的“復雜度”最終還是取決于它的規模,在處理大規模數據時,模型局部受限,泛化能力有時也會有所消耗或損失。
非線性可分情況。支持向量機利用結構風險最小化替代經驗風險最小化原則,較好地解決了小樣本情況下的學習問題。針對非線性問題與線性問題是怎樣建立起聯系的,它們之間是如何進行轉化的,“核函數的思想”提供了新的思路。
數據分割方法
數據分割是將數據依據某些屬性將其聚類,使之具有一定的意義。由于數據的類型、數據的復雜度和聚類的數目等特點,聚類算法有很多,如劃分方法、基于網絡的方法、基于密度的方法、層次方法等。
肖娟等針對傳統的算法處理多層次的復雜建筑物中涉及的困難,提出了一種新的算法,對建筑物進行分割,對幾何基元進行提取。
關聯分析法
關聯分析法是尋找數據間的關聯,但從大數據集中尋找關聯可能會導致效率降低,找到的關聯也可能毫無意義。在研究過程中存在“支持度”和“置信度”,“支持度”可以有根據地將那些毫無意義的數據刪除,而“置信度”可以衡量設置規則的可能性。關聯分析法的主要算法有Apriori算法、DHP算法和DIC算法等。
Chen等在現有的分析方法基礎上,積累了海量的數據,利用數據挖掘技術,提出了一種新的算法,即通過關聯分析法建立相關模式挖掘方法,借助多種新型優化技術,可以有效且高效地減少搜索空間。此外,將該算法應用于現實世界的數據集中,展示了相關模式挖掘的實用性。
偏離分析法
偏差包括潛在的信息量,例如設定模式中的特例、分類中的異樣實例以及分析實驗得到的最終結果與實驗前設定的期望之間的偏差等。觀察比較最終的結果與參照量之間的偏差是偏離分析法的核心所在。
在企業的預警或是危機解決的過程中,專業的管理者對突發的意外規則更感興趣,在異常信息的發現、識別、觀察、分析、挖掘、評價和預警等方面,挖掘意外規則的應用價值備受關注。
大數據時代下數據挖掘的應用
在大數據時代下,數據挖掘已經廣泛地應用到生活中各種各樣的領域中,成為當今高科技發展的熱點問題。無論在軟件開發、醫療衛生方面,還是在金融、教育等方面都可以隨處看到數據挖掘的影子,可以使用數據挖掘技術發現大數據的內在的巨大價值。
惡意軟件的智能檢測
在大數據時代下,在惡意軟件檢測中數據挖掘技術得到廣泛的應用。惡意軟件嚴重損害到網絡和計算機,惡意軟件的檢查依賴于簽名數據庫(signature atabase,SD),通過SD,對文件進行比較和檢查,如果字節數相等,則可疑文件將被識別為惡意文件。有些基于有標簽的惡意軟件檢測的主題,集中在一個模糊的環境下,進而,無法進行惡意軟件行為的動態修改,無法識別隱藏的惡意軟件。相反地,基于行為的惡意軟件檢測就可以找到惡意文件的真實行為。而如果采用基于數據挖掘技術的分類方法,就可以根據每個惡意軟件的特征和行為進行檢測,從而檢測到惡意軟件的存在。
生物信息學中的廣泛應用
生物信息學是一門交叉學科,融合了生命科學、計算機科學、信息科學和數學等眾多學科。隨著科技的快速發展、技術的提升及結果的優化,將高科技信息技術拓展到生物研究領域。但是,單純憑借原有的計算機技術是遠遠不夠的,需要以計算機科學做輔助,將生命科學、信息科學和數學等交叉學科融合在一起,通過數據挖掘技術進行處理,仔細分析生物數據之間的內在聯系,挖掘生物數據內部的潛在信息。生物信息數據的特點有很多,孫勤紅總結了當前生物信息數據的特點,包括數量大、種類多、維度高、形式廣及序列性等。當前生物信息學的熱點包括:從以序列分析為代表的組成分析向功能分析的轉變;從單個生物分析的研究到基因調控的轉變;對基因組數據進行整體分析等。人類目前在生物基因組計劃中的研究,僅僅是冰山的一角,未來在差異基因表達、癌癥基因檢測、蛋白質和RNA基因的編碼等生物基因方面的研究工作都與數據挖掘技術密不可分,只有更好地利用數據挖掘技術,才可以挖掘出生物基因組中的非凡價值。
信用卡的違約預測
如今,隨著科技的高速發展,信息量急劇增加,內容變得越來越豐富,信用卡在人們的生活中具有不可忽視的地位。眾所周知,信用卡是由銀行發放,銀行需要對申請人的個人信息進行核實,確認無誤后再進行發放信用卡,Chen等針對商業銀行貸款行為提出了一種關于信用率的模糊算法。信用卡在辦理之前,銀行首先需要對申請人進行細致調查,根據申請人的實際情況判斷是否有能力來償還所貸金額,劉銘等在傳統的神經網絡基礎上,采用灰狼優化算法計算神經網絡的初始權值和閾值,并提出了一種改進的模糊神經網絡的算法,通過建立的信用卡客戶的違約預測模型,與目前其他的預測方法進行比較,得到較好的預測結果,進一步,驗證了模糊神經網絡在信用卡客戶的預測上具有較好的魯棒性、準確性和高效性。采用有效的數據挖掘技術,針對信用卡客戶屬性和消費行為的海量數據進行分析,可以更好的維護優質客戶,消除違約客戶的風險行為,為信用卡等金融業務價值的提升提供了技術上的保障。
疾病的智能診斷
1)宮頸癌的診斷。
宮頸癌是國際上最普遍的婦科惡性腫瘤之一。2012年統計數字顯示,宮頸癌在全球的新發病例數為52.8萬,死亡數26.6萬,居女性生殖道惡性腫瘤發病率的首位。按照有關數據統計,發展中國家占83%,其中死亡病例占85%,由于宮頸癌的篩查工作不夠完善,導致高發病率和高死亡率。相反地,在發達國家,很大程度上宮頸癌的低發病率源于有效的篩查和診斷。為了減少來自每個專家的標簽數據量,Fernandes等提出一種基于正則化的轉移學習策略,鼓勵源模型和目標模型共享相同的系數符號。
2)乳腺癌的診斷。
乳腺腫瘤是女性惡性腫瘤中最常見的腫瘤,影響婦女的身體和精神健康,甚至威脅生命。20世紀以來,全世界范圍內乳腺癌的患病率均有所增加,特別是歐洲和北美地區,分別占歐洲和北美女性惡性腫瘤發病率的第一和第二位。目前,世界女性乳腺癌在癌癥中的發病率最高,據美國疾病預防中心統計,早期乳腺癌的治愈率可高達97%,進展期的治愈率僅為40%。因此,越早發現乳腺癌,治愈效果越好,即“早發現,早治療”。
在大數據時代下,醫療方面的數據呈現出數量大、類型多、處理方法復雜等特點,數據挖掘技術對這些問題的處理起到了至關重要的作用。威斯康星大學醫院Wolberg提供的乳腺腫瘤分析結果顯示,乳腺腫瘤的特征可以由9個參數來表示?;诟倪M的BP神經網絡,劉銘建立了乳腺腫瘤的模擬模型,對傳統的BP神經網絡進行改進和發展,當Levenberg-Marquardt(L-M)迭代替代了梯度下降算法時,網絡收斂速度得到了明顯的提高。
使用Matlab2010a進行求解,采用L-M迭代后,目標誤差為0.1,得到結果。通過圖2可知,神經網絡在第7代達到收斂。測試數據有83個樣本。其中良性54例,惡性29例。采用檢測資料進行檢測,診斷結果為良性54例,良性發生率100%,惡性28例,惡性發生率96.6%,所以平均診斷發病率為98.8%,結果良好。
圖2 神經網絡訓練性能
3)冠心病的診斷。
近年來,心血管疾病已成為威脅人類的最嚴重疾病之一,冠心病是心血管疾病中常見的疾病。因此,研究冠心病的有效診斷方法是必要的,有助于進一步采取預防措施和及時治療。目前,冠狀動脈造影是觀察冠狀動脈形態的唯一直接途徑,被醫學界稱為“金標準”。然而,這是一項創傷性診斷,需要高水平的醫療條件,否則不慎操作會引起嚴重并發癥甚至死亡,這限制了診斷技術的發展。因此,許多專家專注于研究國內外冠心病的有效和非創傷性診斷。經對Cleveland診所基金會提供的冠心病病例分析后,劉銘得出了反映冠心病特征的14個參數,采用BP算法,通過使用L-M算法的迭代對BP算法進行改進和開發,提高了網絡收斂速度,在改進的BP算法的基礎上,建立了智能診斷的仿真模型。隨著該方法的應用,診斷率可達99.3%。
針對疾病的智能診斷,數據挖掘具有4個應用角度:在醫院信息系統中的應用、在疾病輔助診斷中的應用、在藥物開發中的應用、在遺傳學方面的應用。
地質災害的風險評估
地質災害研究具有悠久的歷史,地質災害風險評估是一個新興的研究領域。近年來,在某些領域已經開發出更準確的預測和分析的方法,這些領域涉及到坍塌、地震、山體滑坡和泥石流等地質災害。
劉銘提出了一種新穎的智能計算方法,將數據挖掘技術與地質災害風險實際問題融合在一起,這種混合計算方法促進了對地質災害風險的準確評估?;旌现悄芩惴òW尤簝灮?、遺傳算法和反向傳播神經網絡。反向傳播神經網絡和粒子群算法優化了網絡連接權重,閾值的初始化采用遺傳算法,同時,在迭代過程中更新連接權重和閾值。這項地質災害預測研究是在吉林災害監測數據的基礎上,模擬中國東北地區,通過混合智能算法獲得的準確度遠高于BP神經網絡方法帶來的準確度。隨著地質災害風險評估在國際風險評估機構中得到肯定,混合方式得到更廣泛的應用,如混合智能算法將促進更有效的應急響應、環境管理、土地利用和開發規劃。
污水的成因分析
在大數據時代的背景下,當研究水環境和污水處理時,生物膜的組成和活性是兩個非常重要的參數。而處理污水問題時,面對的數據海量,單一的傳統數學方法解決效果不夠理想,引入數據挖掘技術進行分析,問題優化的結果將會更令人滿意。
研究水環境的重點在于對污水處理、運行和控制方面的實際需要,通過數據挖掘技術可以準確找到生物膜的表征和活性,并進行估計,進而對于參數不足以描述生物膜活性的問題得以解決。
在給定的限度內,隨著生物膜的厚度增加,生物膜的活性也隨之增強。測量或估計生物膜厚度和活性的方法是評估生物膜廢水處理效率的重要因素,然而目前用于預測生物膜厚度和空間分布適應性的工具較差。對此林山松等基于碳-氮-磷濃度的空間分布生物膜厚度和活性,提出了支持向量回歸模型,用以預測反應器中的生物膜的厚度和活力。
采用共聚焦激光掃描顯微鏡方法對12個樣點的4個隨機位置上形成的成熟生物膜的厚度進行估算,并將其平均值作為每個載體的最終厚度。圖3為共聚焦激光掃描顯微鏡的微圖,展示了在運行100天后載體上的典型生物膜的厚度,其中Z軸上的數字(30.6μm)是由激光共聚焦顯微鏡測量的生物膜厚度。得到的數據作為觀測值來估計反應器中未被采樣點的生物膜厚度,這些未被采樣的點的生物膜厚度通過使用Kriging插值得到。
圖3 用于檢測生物膜厚度的激光共聚焦顯微鏡顯微照片的例子
基于實際值的Kriging插法和距離反應器底部垂直35 cm處的生物膜厚度和生物膜活性的支持向量回歸模型預測值進行了比較。圖4比較了使用支持向量回歸模型的生物膜厚度和生物膜的活性的實際值和預測值。結果表明較高的系數R2=(0.996,0.997),并且通過支持向量回歸基于碳-氮-磷值在碎石球狀骨料反應器中預測生物膜厚度和生物膜活性的高度可行性,同時根據實際值驗證Kriging插值的準確性。
圖4 生物膜厚度(a)和生物膜活性(b)實際值與預測值
利用Kriging插值法分析組合共聚焦激光掃描顯微鏡和流式細胞術顯示,生物膜厚度從22μm到31μm,生物膜活性在反應器的流動方向上從80%降至30%。同時,證實了化學需氧量,總氮量和總磷酸鹽去除特征與生物膜厚度和生物膜活性的水分分布之間存在明顯的相關性。
教育大數據的挖掘
教育是國家發展的根本,在大數據時代,教育大數據的挖掘是教育數據價值的體現。根據教育部的數據顯示,截至2013年,中國高校貧困學生數目已經高達500余萬,中國高校的貧困學生比例已經高達20%,其中,特困學生的比例已經超過了總在校人數的5%。全國各個高校都對貧困學生都有各種資助政策,盡量不讓每個學生因為貧困而放棄學業。傳統的資助形式都是大學生進行申請,并遞交相關貧困證明材料,但部分學生因為較強的自尊心,不想讓同學發現自己的特殊性而放棄申請,從而導致貧困助學金并不能準確地發放到每個貧困學生的手中。2015年3月2日,南京理工大學的“暖心飯卡工程”受到來自各界的關注。南京理工大學教育發展基金會工作人員對學生在日常生活中的數據進行了調查和數據的采集,該項調查涉及的共有16000余名南京理工大學當前在校學習的本科生,采集的數據為在2014年9月中旬至11月中旬期間學生的飯卡刷卡記錄,將每個月平均在食堂消費60次以上,消費總額不足420元的學生確立為補助對象,不需要學生申報,直接將補助打入學生的飯卡。這次針對學生生活行為的數據挖掘,不僅在教育大數據的基礎上實現了“精準扶貧”,而且對學生真正做到了“人文關懷”,體現出了數據的價值性。
國內圖書情報的研究
目前,數據挖掘技術在圖書情報領域的研究可分為6個方面:數字圖書館及個性化服務;WEB和信息服務;信息資源及參考咨詢;圖書館及信息檢索;高校圖書館及圖書館采購;情報學領域等。
大數據時代下,數據挖掘技術在中國圖書情報領域中,基于中國知網數據庫中圖書情報領域的相關研究論文,郭婷等分別利用了共詞分析法和文獻分析法對文獻的增長規律和期刊的分布情況進行分析,在中國圖書情報領域中,對數據挖掘的研究現狀進行研討,進一步強調了數據挖掘技術在圖書情報領域研究的熱點和重點。而且中國知網等在線圖書機構采用數據挖掘技術研發的“學術不端文獻檢測系統”有效地避免了學術舞弊行為,保證了中國科研工作的正常發展。
大數據時代下數據挖掘的發展趨勢
無論是研究領域,還是商業應用,數據挖掘都是熱點問題,得到越來越多的人們關注,人們逐漸了解、學習并加以運用,相關領域日益成熟。在利用數據挖掘技術處理和解決實際問題時,王光宏等提出了3個值得注意的角度:用數據挖掘技術解決問題的類型、解決數據挖掘的數據準備工作及數據挖掘的理論基礎。在大數據時代下,數據挖掘的發展趨勢將會圍繞數據價值的挖掘體現在以下5個層面。
多媒體數據挖掘
大數據時代下,視頻、音頻、圖像等都屬于多媒體的范疇,隨著時代的發展,海量的數據結構變得復雜化和動態化,而通過單獨的傳統數學方法去管理現實生活中的問題,得到的效果往往不能滿足人們的期待。無人機和無人車的實際應用、公安天網工程的展開、智慧醫療項目的全面發展都會要求對多媒體數據進行快速處理,為了得到更理想的效果,得到的效果變得最優化,需要開發和設計數據挖掘的新智能算法。
金融領域潛在數據的挖掘
在信用卡業務中,違約預測的數據挖掘具有預言性、有效性、實用性的優勢。在信用卡交易的過程中,數據挖掘的應用類型也比較多,如在信用卡異常行為檢測、高端信用客戶的維護和信用卡風險控制等方面,均可以展開深入研究。
數據挖掘算法的改進和可視化
當采用數據挖掘的算法分析和處理海量數據時,算法的改進主要取決于算法的精度和速度,即算法的準確度和效率。如今,學術研究主要集中在精度和效率之間設定適當的臨界值和對數據挖掘的結果進行可視化兩個方面。針對數據挖掘算法中的新貴——RNN、CNN、DNN、Capsule等一系列深度學習算法的研究,將成為引領大數據研究方法的風向標。
數據挖掘和隱私保護
在解決實際問題時,難免會涉及隱私的數據,例如在研究信用卡和用戶之間的關系時,數據中難免會有用戶的個人信息;在研究宮頸癌(危險因素)與人的年齡、懷孕次數、性伴侶數等關系時,會有部分隱私信息不便透漏外界。在進行數據挖掘過程中,不泄露用戶的個人隱私問題,對數據進行脫敏處理,將成為人們研究數據挖掘的另一個重要方面。
數據挖掘技術與其他系統的集成
數據挖掘是一個完整的過程,而不是單純的某一個算法或者其中的幾個算法簡單混合就可以的。將數據挖掘應用到實戰演練的過程中,還是需要將數據挖掘與其他領域和系統有條理地集成,而不能理解成單獨的一個算法就足以解決一個問題,進而最大化地體現了數據挖掘的優勢。
結 論
在大數據時代下,當運用傳統的數學方法遇到困難時,熟練地應用數據挖掘技術顯得格外重要。本文通過對國內外的研究現狀進行剖析,分析了數據挖掘技術的主要方法,介紹了數據挖掘技術的應用領域,總結了在大數據時代下數據挖掘技術未來的發展趨勢。
無論是在金融、醫療方面,還是在電信、教育等社會各個領域,每一時刻都會產生海量數據,由于社會存在過多的不確定性因素,導致處理的數據類型越來越繁雜,即便是采用計算機輔助,對于傳統的處理方法、解決實際問題依然能力局限,但是通過數據挖掘技術,解決大數據問題,則開辟了另一個途徑。未來的時代是“數據為王”,數據挖掘技術會面對更加嚴峻的挑戰,利用數據挖掘的相關算法,處理實際問題和分析數據的能力將會更加顯著。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23