熱線電話:13121318867

登錄
首頁精彩閱讀《數學之美》拾遺—潛在語義索引(LSI)
《數學之美》拾遺—潛在語義索引(LSI)
2017-03-25
收藏

《數學之美》拾遺—潛在語義索引(LSI)

一、潛在語義索引的提出

潛在語義索引(LSI),又稱為潛在語義分析(LSA),是在信息檢索領域提出來的一個概念。主要是在解決兩類問題,一類是一詞多義,如“bank”一詞,可以指銀行,也可以指河岸;另一類是一義多詞,即同義詞問題,如“car”和“automobile”具有相同的含義,如果在檢索的過程中,在計算這兩類問題的相似性時,依靠余弦相似性的方法將不能很好的處理這樣的問題。所以提出了潛在語義索引的方法,利用SVD降維的方法將詞項和文本映射到一個新的空間。

二、潛在語義索引的含義

潛在語義索引依靠SVD,具體SVD的操作過程可以參見《簡單易學的機器學習算法——SVD奇異值分解》。
SVD的操作過程是將詞項-文本矩陣c進行分解,分解為:

其中,u為左奇異矩陣,是對角矩陣,對角線上是奇異值,稱為右奇異矩陣。
我們取前k個奇異值,構成新的矩陣,這樣就可以重構矩陣c:

這樣,我們便將原來的空間映射到了新的k維空間。
我們對一個具體的問題進行處理:

橫坐標表示詞“ship”,“boat”,“ocean”,“wood”和“tree”,縱坐標為文章“d1”,“d2”,“d3”,“d4”,“d5”和“d6”。我們對其進行奇異值分解,得到的矩陣為:

我們取k的值為2,k的值即為我們要隱射的空間,此時左奇異向量為:

這表第一個詞與第一維空間更接近,依次類推,同樣,我們可以得到右奇異矩陣

這表第一列表示文章“d1”與第一位空間更接近。

中間矩陣

表示的是詞和文章的相關關系。

三、實驗的仿真

對于“《數學之美》拾遺——TF-IDF”中的數據:

進行奇異值分解,分解完的三個矩陣分別為:

這里可以看到9個奇異值的條狀圖

我們可以看到不同奇異值的重要性程度,選取前3個奇異值。

此時得到三個修改后的矩陣:


依據不同的值,我們便可以將詞和文章分到不同的維中。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢