熱線電話:13121318867

登錄
首頁精彩閱讀 K近算法之杰卡德相似系數
K近算法之杰卡德相似系數
2014-11-30
收藏

 K近算法之杰卡德相似系數

  •  杰卡德相似系數(Jaccard similarity coefficient)
(1) 杰卡德相似系數       
兩個集合A和B的交集元素在A,B的并集中所占的比例,稱為兩個集合的杰卡德相似系數,用符號J(A,B)表示?!?/span>
 
杰卡德相似系數是衡量兩個集合的相似度一種指標。
(2) 杰卡德距離       
與杰卡德相似系數相反的概念是杰卡德距離(Jaccard distance)。
杰卡德距離可用如下公式表示:  
杰卡德距離用兩個集合中不同元素占所有元素的比例來衡量兩個集合的區分度。
(3) 杰卡德相似系數與杰卡德距離的應用      
可將杰卡德相似系數用在衡量樣本的相似度上。
舉例:樣本A與樣本B是兩個n維向量,而且所有維度的取值都是0或1,例如:A(0111)和B(1011)。我們將樣本看成是一個集合,1表示集合包含該元素,0表示集合不包含該元素。
M11 :樣本A與B都是1的維度的個數
M01:樣本A是0,樣本B是1的維度的個數
M10:樣本A是1,樣本B是0 的維度的個數
M00:樣本A與B都是0的維度的個數
依據上文給的杰卡德相似系數及杰卡德距離的相關定義,樣本A與B的杰卡德相似系數J可以表示為:
這里M11+M01+M10可理解為A與B的并集的元素個數,而M11是A與B的交集的元素個數。而樣本A與B的杰卡德距離表示為J':

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢