熱線電話:13121318867

登錄
首頁精彩閱讀淺談數據處理中的相關分析
淺談數據處理中的相關分析
2015-11-17
收藏

淺談數據處理中的相關分析



大數據的發展經歷了從因果分析到相關分析的轉變。宏觀上來講,如果兩個事務存在某種統計學意義上的依賴性就稱兩者具有相關性。這里我們就簡單聊聊各種相關分析的方法。
 

1、 先以電商中的商品推薦為例,來看看最基本的相關分析方法:

我們經常會用到的比如計算兩個商品的相似度,或計算兩個用戶之間的相似度,如下圖所示,是基于商品的購買行為,來計算兩個商品之間的相似程度。我們先基于此例來說明。這里每個商品可以表示成用戶購買行為的特征向量,其中1表示此用戶購買,0表示此用戶未購買。

設商品a的特征向量為向量A, 商品b的特征向量為向量B,那么常用的計算相關性的方法有以下:

Jaccard相關是基于計算集合之間的相似度方法,而Cosine和Pearson都屬于積差相關的范疇。通過簡單對比,我們看得出A和B的Pearson相關系數就是向量A和B歸一化后再計算Cosine相關系數的結果。
 

2、 等級相關分析

如果在某些情況下,我們不需要顧及計算向量中值的相對大小,那么還可以計算等級相關性系數,如Spearman等級相關和Kendall等級相關等。等級相關沒有積差相關要求那樣嚴格,相同的情況下,等級相關的精確度要低于積差相關。
 

3 、偏相關分析

如果我們想除去共同噪聲的影響,可以選擇偏相關分析的方法(在頻域上叫偏相干)。其結果與先回歸掉噪聲再計算相關的結果是一樣的。
 

4、 頻域上的相關分析

如果我們的處理對象是時間序列,除了以上談到的方法外,我們還可以度量頻域上的相關性,如使用相干譜分析的方法,如小波相干等。即您可以得到不同時間點不同頻率上的線性相關性系數,同時還可以平衡時間和空間上的分辨率。
 

但是在什么情況下,要選用哪個的相關性系數呢?

如果有時間建議大家不妨多做些實驗,而且要定期做,因為數據集的變化(稀疏度、噪聲等因素)可能導致相似度指標效果的變化。比如對于一個電商平臺的商品推薦系統,初期時可能使用方法x效果最好,當用戶數逐漸增加,商品越來越豐富,可能方法y效果最好,直到系統越來越復雜,可能這時方法z是最好的了。所以建議定期做些離線試驗來選擇此時效果最好的方法。

我們常用的如Jaccard相關, Cosine相關,Pearson 相關都是屬于線性相關的范疇,復雜的還有非線性相關的方法,如多譜分析,互信息等。但這些在我們電商的場景中很少用到。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢