熱線電話:13121318867

登錄
首頁精彩閱讀大數據之基于模型的復雜數據多維聚類析(三)?
大數據之基于模型的復雜數據多維聚類析(三)?
2016-02-21
收藏

大數據之基于模型的復雜數據多維聚類析(三)

除了聚類,對于這個數據的分析還告訴我們一些隱藏很深的關系。比如在模型中變量Y2和Y3有連線,這表明一個人的背景信息和他對于貪污的容忍程度應該有一定的關聯關系。具體地說,在Y2所表示的4類人中,你覺得哪一類是最能容忍貪污,而哪一類是最不能容忍貪污的呢?在模型中,通過對這兩個變量的條件概率的分析,我們得到了一個答案,有興趣的同學可以去論文中驗證一下自己的猜測。

相關學術工作

隱樹模型在密度估計,近似推理及隱結構發現等方面都有具體的應用。在多維聚類分析的應用上,我們分析過市場學數據(COILChallenge 2000),某地區的社會調查數據(ICAC),NBA籃球運動員比賽統計數據。最近,隨著算法的提速,隱樹模型開始被嘗試用于文本分析,比如對于網頁數據,博客數據等的話題分析。隱樹模型最開始的提出是為了對中醫的證候分析提供統計解釋,有興趣的同學可以參考隱結構模型與中醫證研究。

最近兩年,多維聚類分析引起了很多機器學習研究人員的興趣。從2010年開始的MultiClust Workshop已經舉辦了兩屆,其中第一屆是和KDD2010一起舉辦,第二屆是和ECML/PKDD2011一起舉辦。而第三屆也會與SDM2012一起舉辦。具體參考文獻這兒也不羅列了。

多維聚類分析和基于多視圖的學習不應該混淆。多視圖學習假設數據的多個視圖已知,要求視圖之間存在充分性(Sufficiency)和冗余性(Redundancy),通過協同訓練等技術,主要提高半監督學習,主動學習的性能。多視圖學習中針對聚類這樣的無監督任務的研究很少,而且它的目標也是如何提高單一的聚類劃分的質量,而不是找到多種劃分方法。多視圖學習也極少涉及如何發現多個視圖,而不是假設他們已知。這方面南京大學周志華教授在今年的中國機器學習及其應用研討會上提到一些初步研究。實際中,可以考慮先用多維聚類分析找到數據的多個側面(視圖),然后再應用多視圖學習的方法。

總結


對于一個復雜數據,比如文本,視頻,圖像,或者生物實驗數據,人們可以從不同的角度去詮釋這樣的數據。數據分析家們已經有了這樣的共識,那就是以前的單維聚類方法不再適合大數據的多樣性特征。多維聚類分析通過對單維聚類問題的擴展,為復雜數據提供了一種新的探索性分析的方式。我們通過找到數據的不同側面,按照這些側面進行分別聚類,然后把各種聚類結果全部以一種簡單的方式呈現給領域專家,由專家決定他認為最合適的聚類方法。這樣的工作流程清晰定義數據科學家和領域專家的職能,通過兩者的合作,提高數據的聚類結果,并且提升數據的可解釋性。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢