熱線電話:13121318867

登錄
首頁精彩閱讀基于Hadoop MapReduce的分布式數據流聚類算法研究
基于Hadoop MapReduce的分布式數據流聚類算法研究
2014-12-01
收藏

基于Hadoop MapReduce的分布式數據流聚類算法研究


基于Hadoop MapReduce的分布式數據流聚類算法研究

隨著數據流規模的持續增大,現有基于網格的聚類算法對數據流的聚類效果不好,不能實時發現任意形狀的簇,也不能及時刪除數據流中的噪聲點。文章提出了一種Hadoop平臺環境下基于網格密度的分布式數據流聚類算法(PGDC-Stream),利于基于Hadoop的MapReduce框架對數據流進行階段化的并行聚類分析,實時發現數據流中任意形狀的簇,定義檢測周期和密度閾值函數并及時刪除數據流中的噪聲點。算法基于網格密度對數據流初始聚類后,隨著新數據的到來,使用基于密度閾值函數的噪聲點處理策略,周期性檢測和刪除噪聲點,使用基于Hadoop MapReduce框架的并行分析模型周期性地調整已經生成的簇。實驗結果表明,PGDC-Stream對大規模數據流的聚類質量、可伸縮性和實時性都好于CluStream。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢