
Python+Opencv識別兩張相似圖片
在網上看到python做圖像識別的相關文章后,真心感覺python的功能實在太強大,因此將這些文章總結一下,建立一下自己的知識體系。
當然了,圖像識別這個話題作為計算機科學的一個分支,不可能就在本文簡單幾句就說清,所以本文只作基本算法的科普向。
看到一篇博客是介紹這個,但他用的是PIL中的Image實現的,感覺比較麻煩,于是利用Opencv庫進行了更簡潔化的實現。
相關背景
要識別兩張相似圖像,我們從感性上來談是怎么樣的一個過程?首先我們會區分這兩張相片的類型,例如是風景照,還是人物照。風景照中,是沙漠還是海洋,人物照中,兩個人是不是都是國字臉,還是瓜子臉(還是倒瓜子臉……哈哈……)。
那么從機器的角度來說也是這樣的,先識別圖像的特征,然后再相比。
很顯然,在沒有經過訓練的計算機(即建立模型),那么計算機很難區分什么是海洋,什么是沙漠。但是計算機很容易識別到圖像的像素值。
因此,在圖像識別中,顏色特征是最為常用的。(其余常用的特征還有紋理特征、形狀特征和空間關系特征等)
其中又分為
直方圖
顏色集
顏色矩
聚合向量
相關圖
先借用一下戀花蝶的圖片,
從肉眼來看,這兩張圖片大概也有八成是相似的了。
在Python中利用opencv中的calcHist()方法獲取其直方圖數據,返回的結果是一個列表,使用matplotlib,畫出了這兩張圖的直方圖數據圖
如下:
是的,我們可以明顯的發現,兩張圖片的直方圖還是比較重合的。所以利用直方圖判斷兩張圖片的是否相似的方法就是,計算其直方圖的重合程度即可。
計算方法如下:
其中gi和si是分別指兩條曲線的第i個點。
最后計算得出的結果就是就是其相似程度。
不過,這種方法有一個明顯的弱點,就是他是按照顏色的全局分布來看的,無法描述顏色的局部分布和色彩所處的位置。
也就是假如一張圖片以藍色為主,內容是一片藍天,而另外一張圖片也是藍色為主,但是內容卻是妹子穿了藍色裙子,那么這個算法也很可能認為這兩張圖片的相似的。
緩解這個弱點有一個方法就是利用Image的crop方法把圖片等分,然后再分別計算其相似度,最后綜合考慮。
圖像指紋與漢明距離
在介紹下面其他判別相似度的方法前,先補充一些概念。第一個就是圖像指紋
圖像指紋和人的指紋一樣,是身份的象征,而圖像指紋簡單點來講,就是將圖像按照一定的哈希算法,經過運算后得出的一組二進制數字。
說到這里,就可以順帶引出漢明距離的概念了。
假如一組二進制數據為101,另外一組為111,那么顯然把第一組的第二位數據0改成1就可以變成第二組數據111,所以兩組數據的漢明距離就為1
簡單點說,漢明距離就是一組二進制數據變成另一組數據所需的步驟數,顯然,這個數值可以衡量兩張圖片的差異,漢明距離越小,則代表相似度越高。漢明距離為0,即代表兩張圖片完全一樣。
如何計算得到漢明距離,請看下面三種哈希算法
平均哈希法(aHash)
此算法是基于比較灰度圖每個像素與平均值來實現的
一般步驟:
1.縮放圖片,一般大小為8*8,64個像素值。
2.轉化為灰度圖
3.計算平均值:計算進行灰度處理后圖片的所有像素點的平均值,直接用numpy中的mean()計算即可。
4.比較像素灰度值:遍歷灰度圖片每一個像素,如果大于平均值記錄為1,否則為0.
5.得到信息指紋:組合64個bit位,順序隨意保持一致性。
最后比對兩張圖片的指紋,獲得漢明距離即可。
感知哈希算法(pHash)
平均哈希算法過于嚴格,不夠精確,更適合搜索縮略圖,為了獲得更精確的結果可以選擇感知哈希算法,它采用的是DCT(離散余弦變換)來降低頻率的方法
一般步驟:
縮小圖片:32 * 32是一個較好的大小,這樣方便DCT計算
轉化為灰度圖
計算DCT:利用Opencv中提供的dct()方法,注意輸入的圖像必須是32位浮點型,所以先利用numpy中的float32進行轉換
縮小DCT:DCT計算后的矩陣是32 * 32,保留左上角的8 * 8,這些代表的圖片的最低頻率
計算平均值:計算縮小DCT后的所有像素點的平均值。
進一步減小DCT:大于平均值記錄為1,反之記錄為0.
得到信息指紋:組合64個信息位,順序隨意保持一致性。
最后比對兩張圖片的指紋,獲得漢明距離即可。
dHash算法
相比pHash,dHash的速度要快的多,相比aHash,dHash在效率幾乎相同的情況下的效果要更好,它是基于漸變實現的。
步驟:
縮小圖片:收縮到9*8的大小,以便它有72的像素點
轉化為灰度圖
計算差異值:dHash算法工作在相鄰像素之間,這樣每行9個像素之間產生了8個不同的差異,一共8行,則產生了64個差異值
獲得指紋:如果左邊的像素比右邊的更亮,則記錄為1,否則為0.
最后比對兩張圖片的指紋,獲得漢明距離即可。
整個的代碼實現如下:
# -*- coding: utf-8 -*-
#feimengjuan
# 利用python實現多種方法來實現圖像識別
import cv2
import numpy as np
from matplotlib import pyplot as plt
# 最簡單的以灰度直方圖作為相似比較的實現
def classify_gray_hist(image1,image2,size = (256,256)):
# 先計算直方圖
# 幾個參數必須用方括號括起來
# 這里直接用灰度圖計算直方圖,所以是使用第一個通道,
# 也可以進行通道分離后,得到多個通道的直方圖
# bins 取為16
image1 = cv2.resize(image1,size)
image2 = cv2.resize(image2,size)
hist1 = cv2.calcHist([image1],[0],None,[256],[0.0,255.0])
hist2 = cv2.calcHist([image2],[0],None,[256],[0.0,255.0])
# 可以比較下直方圖
plt.plot(range(256),hist1,'r')
plt.plot(range(256),hist2,'b')
plt.show()
# 計算直方圖的重合度
degree = 0
for i in range(len(hist1)):
if hist1[i] != hist2[i]:
degree = degree + (1 - abs(hist1[i]-hist2[i])/max(hist1[i],hist2[i]))
else:
degree = degree + 1
degree = degree/len(hist1)
return degree
# 計算單通道的直方圖的相似值
def calculate(image1,image2):
hist1 = cv2.calcHist([image1],[0],None,[256],[0.0,255.0])
hist2 = cv2.calcHist([image2],[0],None,[256],[0.0,255.0])
# 計算直方圖的重合度
degree = 0
for i in range(len(hist1)):
if hist1[i] != hist2[i]:
degree = degree + (1 - abs(hist1[i]-hist2[i])/max(hist1[i],hist2[i]))
else:
degree = degree + 1
degree = degree/len(hist1)
return degree
# 通過得到每個通道的直方圖來計算相似度
def classify_hist_with_split(image1,image2,size = (256,256)):
# 將圖像resize后,分離為三個通道,再計算每個通道的相似值
image1 = cv2.resize(image1,size)
image2 = cv2.resize(image2,size)
sub_image1 = cv2.split(image1)
sub_image2 = cv2.split(image2)
sub_data = 0
for im1,im2 in zip(sub_image1,sub_image2):
sub_data += calculate(im1,im2)
sub_data = sub_data/3
return sub_data
# 平均哈希算法計算
def classify_aHash(image1,image2):
image1 = cv2.resize(image1,(8,8))
image2 = cv2.resize(image2,(8,8))
gray1 = cv2.cvtColor(image1,cv2.COLOR_BGR2GRAY)
gray2 = cv2.cvtColor(image2,cv2.COLOR_BGR2GRAY)
hash1 = getHash(gray1)
hash2 = getHash(gray2)
return Hamming_distance(hash1,hash2)
def classify_pHash(image1,image2):
image1 = cv2.resize(image1,(32,32))
image2 = cv2.resize(image2,(32,32))
gray1 = cv2.cvtColor(image1,cv2.COLOR_BGR2GRAY)
gray2 = cv2.cvtColor(image2,cv2.COLOR_BGR2GRAY)
# 將灰度圖轉為浮點型,再進行dct變換
dct1 = cv2.dct(np.float32(gray1))
dct2 = cv2.dct(np.float32(gray2))
# 取左上角的8*8,這些代表圖片的最低頻率
# 這個操作等價于c++中利用opencv實現的掩碼操作
# 在python中進行掩碼操作,可以直接這樣取出圖像矩陣的某一部分
dct1_roi = dct1[0:8,0:8]
dct2_roi = dct2[0:8,0:8]
hash1 = getHash(dct1_roi)
hash2 = getHash(dct2_roi)
return Hamming_distance(hash1,hash2)
# 輸入灰度圖,返回hash
def getHash(image):
avreage = np.mean(image)
hash = []
for i in range(image.shape[0]):
for j in range(image.shape[1]):
if image[i,j] > avreage:
hash.append(1)
else:
hash.append(0)
return hash
# 計算漢明距離
def Hamming_distance(hash1,hash2):
num = 0
for index in range(len(hash1)):
if hash1[index] != hash2[index]:
num += 1
return num
if __name__ == '__main__':
img1 = cv2.imread('10.jpg')
cv2.imshow('img1',img1)
img2 = cv2.imread('11.jpg')
cv2.imshow('img2',img2)
degree = classify_gray_hist(img1,img2)
#degree = classify_hist_with_split(img1,img2)
#degree = classify_aHash(img1,img2)
#degree = classify_pHash(img1,img2)
print degree
cv2.waitKey(0)
以上就是本文的全部內容,希望對大家學習python程序設計有所幫助。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25