
作者:吳至文 郭葉軍 宗煒 李鵬 趙娟
來源:大數據DT(ID:hzdashuju)
導讀:本文將介紹OpenCV的源碼結構、OpenCV深度學習應用的典型流程,以及深度學習和OpenCV DNN(Deep Neural Networks,深度神經網絡)模塊的背景知識,讓讀者可以快速認識OpenCV,消除神秘感,同時對計算機視覺從傳統算法到深度學習算法的演進歷史有所了解。
OpenCV是一個計算機視覺開源庫,提供了處理圖像和視頻的能力。OpenCV的影響力非常大,有超過47 000的社區用戶,以及超過1400萬次的下載量。其應用領域橫跨圖像處理、交互式藝術、視頻監督、地圖拼接和高級機器人等。作為一個有十幾年歷史的開源項目,OpenCV擁有廣大的用戶群體和開發者群體。
在數字的世界中,一幅圖像由多個點(像素)組成。圖像處理就是對其中一個像素或者一個區域內的像素(塊)進行處理。無論是初學者還是富有經驗的研發人員,他們都需要借助軟件工具來分析這些像素和圖像塊,OpenCV則是其中最常用、最重要的一個軟件工具。
OpenCV成為最主要的圖像處理工具包,是因為它功能齊全,支持目前主流的圖像、視頻處理算法,而且對外提供C++、Python和Java的接口,用戶調用方便。本書的代碼分析、示例程序及環境搭建基于OpenCV 4.1版本,源代碼位于GitHub的OpenCV倉庫。
01 OpenCV庫
OpenCV由各種不同組件組成。OpenCV源代碼主要由OpenCV core(核心庫)、opencv_contrib和opencv_extra等子倉庫組成。近些年,OpenCV的主倉庫增加了深度學習相關的子倉庫:OpenVINO(即DLDT, Deep Learning Deployment Toolkit)、open_model_zoo,以及標注工具CVAT等。
下面分別介紹3個主要的代碼庫:OpenCV core、opencv_contrib、opencv_extra。
1. 核心庫OpenCV core
核心庫是OpenCV的主要算法來源。OpenCV采用模塊化結構設計,包含了多個共享或者靜態庫。目前OpenCV核心庫提供了很多組件,如下所示。
核心功能模塊:這是一個小巧而高效的模塊,定義了基礎的數據結構,包含緊密多尺度向量矩陣和一些供其他模塊使用的基礎函數
圖像處理模塊:它包括了線性和非線性的圖像濾波、幾何圖像變換(圖像縮放、仿射變換、透視矯正、通用的基于表格的像素映射)、色域變換及直方圖生成與分析等
視頻:這是一個視頻分析模塊,包含運動檢測、背景減除和對象追蹤等算法
calib3d:包含基礎的多視角幾何算法、單個和立體相機標定算法、對象姿勢預測算法、立體一致性算法,以及3D元素重建
Objdetect:對象檢測和預先定義的類別檢測(如臉、眼、杯子、人、車等)
Highgui:提供了比較容易使用的UI接口
Video I/O:提供了基本的視頻存取訪問和編解碼功能
GPU:為不同的OpenCV算法模塊提供GPU加速算法
其他:如FLANN和Google測試封裝層、Python綁定等
2. opencv_contrib
opencv_contrib代碼庫主要用于管理新功能模塊的開發。該庫的設計主要基于以下考慮:處于初始開發階段的功能模塊,它的API定義會經常變化,各種測試也不夠全面。
為了不影響OpenCV核心模塊的穩定性,這些新功能模塊會發布到opencv_contrib中。等到模塊足夠成熟并且在社區得到了足夠的關注和使用之后,這個模塊便會被移到OpenCV核心庫,這意味著核心庫開發團隊將會對該模塊進行全面的測試,保證這個模塊具有產品級的質量。
例如,對于DNN這個模塊,OpenCV 3.1開始出現在opencv_contrib中,到了3.3版本才移到了OpenCV核心庫。
opencv_contrib需要和OpenCV核心庫一同編譯。下載好opencv_contrib的源代碼并在CMake執行時傳入參數:-DOPENCV_EXTRA_MODULES_PATH=
如果編譯時遇到問題,則可以在OpenCV核心庫和opencv_contrib庫的問題匯報頁面,查看一下是否有現成的解決方案,如果沒有,則讀者可新建一個問題。OpenCV是一個活躍的社區,只要問題描述清晰、完整,一般會很快得到反饋。
3. opencv_extra
opencv_extra倉庫存放了運行測試和示例程序時需要使用的一些測試數據和腳本。例如,運行DNN模塊測試程序或者示例程序時需要用到預訓練模型,這些模型可以通過opencv_extra中的腳本來自動下載。近些年添加的opencv/open_model_zoo倉庫也增加了很多預訓練好的深度學習模型,這些模型大多做過性能和速度上的調優。
OpenCV是一個自包含庫,可以不依賴于任何第三方庫而運行,這個特性給開發調試帶來了很大的便利。另外,OpenCV還提供了硬件加速功能,使得算法能夠在各種平臺高效地執行。
下面以一個識別性別和年齡的深度學習應用為例,展現OpenCV深度學習應用的典型流程。該應用使用C++語言,總共只需要百來行代碼便可實現人臉檢測、性別和年齡的識別功能,還可以方便地使用硬件的加速能力,提高程序的運行效率。此處展示核心流程,故以偽代碼為例,完整的源代碼由本書的參考代碼庫提供。
該應用的核心流程如下:首先讀取兩個網絡模型參數(分別是性別和年齡),然后檢測人臉,轉換輸入圖像,最后運行網絡前向預測。偽代碼如下:
using namespace cv::dnn;
// 創建人臉檢測器
CascadeClassifier cascade;
// 導入性別和年齡深度神經網絡模型
Net gender_net=dnn::readNetFromCaffe(gender_modelTxt, gender_modelBin);
Net age_net=dnn::readNetFromCaffe(age_modelTxt, age_modelBin);
// 人臉檢測
cascade.load(cascadeName);
cascade.detectMultiScale(input_gray_file, output_faces_data);
// 準備深度神經網絡的輸入數據
Mat inputBlob=blobFromImage(input.getMat(ACCESS_READ));
gender_net.setInput(inputBlob, "data");
age_net.setInput(inputBlob, "data");
// 執行模型的前向運算,即模型推理
Mat gender_prob=gender_net.forward("prob");
Mat age_prob=age_net.forward("prob");
應用識別效果如圖1-1所示。
▲圖1-1 應用識別效果圖
以上偽代碼很好地展示了OpenCV深度學習應用的典型流程,如圖1-2所示。
深度學習模塊是OpenCV為支持基于深度學習的計算機視覺應用所加入的新特性。OpenCV DNN模塊于OpenCV 3.1版本開始出現在opencv_contrib庫中,從3.3版本開始被納入OpenCV核心庫。
本節主要講解OpenCV深度學習模塊的實現原理和主要特性,通過這些內容,讀者可以對OpenCV DNN有一個總體了解,并對OpenCV深度學習模塊的應用代碼有一個初步的印象。
作為計算機視覺領域的“標準庫”,OpenCV為用戶提供深度學習的支持是題中應有之義。OpenCV選擇重新實現一個深度學習框架而不是直接調用現有的各種框架(如TensorFlow、Caffe等),有如下幾點原因。
輕量:OpenCV的深度學習模塊只實現了模型推理功能,這使得相關代碼非常精簡,加速了安裝和編譯過程。
最少的外部依賴:重新實現一遍深度學習框架使得對外部依賴減到最小,大大方便了深度學習應用的部署。
方便集成:①如果原來的應用是基于OpenCV開發的,通過深度學習模塊可以非常方便地加入對神經網絡推理的支持;②如果網絡模型來自多個框架,如一個來自TensorFlow,一個來自Caffe,則深度學習模塊可以方便整合網絡運算結果。
通用性:①提供統一的接口來操作網絡模型;②內部所做的優化和加速對所有網絡模型格式都適用;③支持多種設備和操作系統。
1. 主要特性
OpenCV深度學習模塊只提供網絡推理功能,不支持網絡訓練。像所有的推理框架一樣,加載和運行網絡模型是基本的功能。深度學習模塊支持TensorFlow、Caffe、Torch、DarkNet、ONNX和OpenVINO格式的網絡模型,用戶無須考慮原格式的差異。在加載過程中,各種格式的模型被轉換成統一的內部網絡結構。
深度學習模塊支持所有的基本網絡層類型和子結構,包括AbsVal、AveragePooling、BatchNormalization、Concatenation、Convolution (with DILATION)、Crop、DetectionOutput、Dropout、Eltwise、Flatten、FullConvolution、FullyConnected、LRN、LSTM、MaxPooling、MaxUnpooling、MVN、NormalizeBBox、Padding、Permute、Power、PReLU、PriorBox、Relu、RNN、Scale、Shift、Sigmoid、Slice、Softmax、Split和Tanh。
如果需要的層類型不在這個支持列表之內,則可以通過腳注中的申請鏈接來請求新的層類型的支持,OpenCV的開發者們有可能會在將來加入對該層類型的支持。讀者也可以自己動手實現新的層類型,并把代碼反饋回社區,參與到深度學習模塊的開發中來。
除了實現基本的層類型,支持常見的網絡架構也很重要,經過嚴格測試,深度學習模塊支持的網絡架構如下所示。
圖像分類網絡
Caffe:AlexNet、GoogLeNet、VGG、ResNet、SqueezeNet、DenseNet、ShuffleNet
TensorFlow:Inception、MobileNet
Darknet:darknet-imagenet
ONNX:AlexNet、GoogleNet、CaffeNet、RCNN_ILSVRC13、ZFNet512、VGG16、VGG16_bn、ResNet-18v1、ResNet-50v1、CNN Mnist、MobileNetv2、LResNet100E-IR、Emotion FERPlus、Squeezenet、DenseNet121、Inception-v1/v2、ShuffleNet
對象檢測網絡
Caffe:SSD、VGG、MobileNet-SSD、Faster-RCNN、R-FCN、OpenCV face detector
TensorFlow:SSD、Faster-RCNN、Mask-RCNN、EAST
Darknet:YOLOv2、Tiny YOLO、YOLOv3
ONNX:TinyYOLOv2
語義分割網絡:FCN(Caffe)、ENet(Torch)、ResNet101_DUC_HDC(ONNX)
姿勢估計網絡:openpose(Caffe)
圖像處理網絡:Colorization(Caffe)、Fast-Neural-Style(Torch)
人臉識別網絡:openface(Torch)
C++和Python是OpenCV應用開發的主要語言,1.1.2節介紹了一個基于C++語言的深度學習應用,本節繼續介紹一個基于Python的圖像分類示例。
首先引入必要的Python庫:
import cv2 as cv # 引入OpenCV庫,深度學習模塊包含在其中
讀入類別文件:
with open('synset_words.txt') as f:
classes=[x[x.find(' ') + 1:] for x in f]
讀入待分類的圖片:
image=cv.imread('space_shuttle.jpg')
調用深度學習模塊的blobFromImage方法將圖片對象轉換成網絡模型的輸入張量(tensor)。該張量的大小是224×224.參數中的(104.117.123)表示需要從輸入張量減掉的均值,它是從訓練網絡模型時用到的數據集計算出來的,這里直接使用即可。第二個參數“1”表示將OpenCV的默認通道順序BGR轉換成網絡模型要求的RGB通道順序。
input=cv.dnn.blobFromImage(image, 1. (224. 224), (104. 117. 123))
下面來加載Caffe網絡模型。注意,相關的模型參數和配置文件可在這里下載:
http://dl.caffe.berkeleyvision.org/bvlc_googlenet.caffemodel
https://github.com/opencv/opencv_extra/blob/4.1.0/testdata/dnn/bvlc_googlenet.prototxt
net=cv.dnn.readNetFromCaffe('bvlc_googlenet.prototxt',
'bvlc_googlenet.caffemodel')
設置網絡模型輸入:
net.setInput(input)
執行網絡推理并得到輸出結果:
out=net.forward()
從網絡輸出中獲取最大的5個可能種類的索引值并輸出類別名稱和概率值:
indexes=np.argsort(out[0])[-5:]
for i in reversed(indexes):
print ('class:', classes[i], ' probability:', out[0][i])
通過這個例子,我們可以看到一個基于深度學習模型的分類應用并不復雜,主要分3部分:模型導入、網絡執行和結果解析。
小結
通過本章的學習,讀者可以了解到OpenCV的主要組成部分,尤其是OpenCV深度學習模塊的基本情況?;贑++和Python的例子為讀者展示了OpenCV深度學習應用的主要流程。
關于作者:吳至文,Intel亞太研發有限公司資深圖形圖像工程師,擁有多年算法開發優化經驗,技術領域涵蓋顯示系統、視覺處理、深度學習框架加速,尤其擅長基于OpenCL和Vulkan的算法設計及優化,是OpenCV DNN模塊Vulkan后端的作者、OpenCL后端主要貢獻者之一。
郭葉軍,Intel資深圖形圖像工程師。多年圖形芯片驅動開發經驗,主要包括OpenGL驅動和OpenCL驅動。目前關注視頻分析中的深度學習,是FFmpeg深度學習模塊的代碼維護者。
宗煒,Intel資深圖形圖像工程師,長期從事計算機視覺算法與應用、數字圖像處理、Camera成像算法開發,在CPU/GPU/ISP異構計算算法設計與優化上經驗頗豐,是圖像處理與計算機視覺算法開源項目libXCam的維護者和主要貢獻者。
李鵬,阿里巴巴高級技術專家,原Intel亞太研發有限公司資深圖形圖像工程師。涉及領域包括顯示系統、圖形圖像處理、深度學習框架加速。是OpenCV DNN模塊OpenCL后端主要貢獻者之一。
趙娟,Intel高級研發經理,鉆研圖形圖像、視頻編解碼和視頻處理十幾年,帶領團隊深耕視頻編解碼和處理軟硬件加速、深度學習算法分析與設計,致力于讓開源軟件在圖形圖像視頻市場落地,并組織團隊把多年的“干貨”整理成書,與視頻行業的朋友們一起探討與成長。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24