面向視頻監(jiān)控應(yīng)用的智能分析技術(shù)是一項(xiàng)覆蓋圖像處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、概率統(tǒng)計(jì)、深度學(xué)習(xí)、并行計(jì)算與GPU 優(yōu)化等多個(gè)領(lǐng)域的應(yīng)用技術(shù)。這些技術(shù)領(lǐng)域本身在不斷的發(fā)展當(dāng)中,有些發(fā)展還不是很完善。這必然導(dǎo)致視頻監(jiān)控中的智能分析技術(shù)也處于不斷發(fā)展的態(tài)勢(shì)。尤其進(jìn)入2010 年代,隨著互聯(lián)網(wǎng)數(shù)據(jù)量爆炸式的增長(zhǎng),催生大數(shù)據(jù)和云計(jì)算技術(shù)的出現(xiàn),尤其是把二者結(jié)合的深度學(xué)習(xí)技術(shù)發(fā)展的如火如荼,在圖像識(shí)別、視頻識(shí)別領(lǐng)域的應(yīng)用帶來了革命性的更新。
遙想2005 年前后,視頻監(jiān)控領(lǐng)域智能分析技術(shù)剛剛起步,采用傳統(tǒng)圖像處理技術(shù)和基于手工設(shè)計(jì)特征訓(xùn)練分類器,效果和性能不盡人意,同時(shí)客戶對(duì)智能分析技術(shù)沒有客觀的認(rèn)識(shí),有的盲目樂觀,也有的盲目悲觀,智能分析產(chǎn)品舉步維艱。經(jīng)過10 年的技術(shù)發(fā)展和市場(chǎng)培育,客戶對(duì)智能分析具有較為客觀的認(rèn)識(shí)。智能分析應(yīng)用從視頻監(jiān)控行業(yè)的輔助功能發(fā)展成為安防行業(yè)的本質(zhì)需求,這與智能分析技術(shù)的高速發(fā)展分不開的。相信在未來的一段時(shí)間內(nèi),智能分析技術(shù)的發(fā)展更加迅速,在視頻監(jiān)控行業(yè)的應(yīng)用形式和產(chǎn)品形態(tài)也會(huì)發(fā)生很大的變化。
本文從傳統(tǒng)目標(biāo)跟蹤算法和最新的深度卷積網(wǎng)絡(luò)算法兩個(gè)角度來展現(xiàn)智能分析技術(shù)的最新的發(fā)展。
CMT 跟蹤算法
CMT 跟蹤算法主要由WACV(WinterConference on Applications of Computer Vision)2014 會(huì)議上的《Consensus-basedMatching and Tracking of Keypoints forObject Tracking 》和CVPR 2015 會(huì)議上的《Clustering of Static - Adaptive Correspondencesfor Deformable Object Tracking 》構(gòu)成 。并且在W A C V 2014 獲得最佳論文獎(jiǎng)項(xiàng)(Best PaperAward)。由奧地利技術(shù)學(xué)院的Georg Nebehay提出。

(圖1)CMT 跟蹤算法流程框圖
CMT 跟蹤相比之前的TLD 算法性能提高許多??梢哉J(rèn)為是TLD 之后的下一代跟蹤算法。TLD 算法使用整體模型進(jìn)行跟蹤。CMD跟蹤的基本思路是能夠不斷檢測(cè)物體特征,并通過多種手段對(duì)檢測(cè)到的物體特征進(jìn)行反復(fù)匹配驗(yàn)證,實(shí)現(xiàn)高準(zhǔn)確度跟蹤,同時(shí)計(jì)算資源又很節(jié)省,適合在前端相機(jī)段運(yùn)行。
CMT 算法中把跟蹤目標(biāo)稱為前景,其他部分為背景,前景用包圍框框住。若當(dāng)前幀為第N 幀,前一幀為N-1 幀。CMT 跟蹤算法流程如圖1 所示。一般的跟蹤算法和背景建模與前景檢測(cè)算法類似一般運(yùn)行在前端設(shè)備,由于前端相機(jī)計(jì)算資源有限,不太會(huì)運(yùn)行復(fù)雜的機(jī)器學(xué)習(xí)算法。由如圖1 可見,整個(gè)CMT 流程由光流算法、KNN 聚類和層次聚類構(gòu)成,但是巧妙之處在于進(jìn)行對(duì)當(dāng)前第N 幀和前一幀第N-1 幀的光流法得到的跟蹤關(guān)鍵點(diǎn),以及有特征點(diǎn)檢測(cè)得到的特征點(diǎn),兩種點(diǎn)進(jìn)行反復(fù)驗(yàn)證融合,大大提高魯棒性。
CMT 算法首先對(duì)首幀檢測(cè)FAST 特征點(diǎn)及其BRISK 特征描述,其中包括前景框中的特征點(diǎn)。然后把前景框的特征點(diǎn)與背景部分的特征分為兩類保存,并求取前景框中的兩兩特征點(diǎn)之間的相對(duì)距離和相對(duì)角度。對(duì)后續(xù)的每一幀繼續(xù)檢測(cè)FAST 特征點(diǎn)及其BRISK 特征描述。對(duì)當(dāng)前幀(從第二幀開始)中使用BRISK 特征描述在前一幀前景特征點(diǎn)進(jìn)行KNN 聚類,從特征點(diǎn)的角度對(duì)前景點(diǎn)進(jìn)行驗(yàn)證。
并對(duì)后續(xù)的每一幀(從第二幀開始)的前景框內(nèi)的關(guān)鍵點(diǎn),進(jìn)行前向光流估計(jì)(N-1 → N),對(duì)得到的光流點(diǎn)再進(jìn)行后向光流估計(jì)(N → N-1),經(jīng)過雙向驗(yàn)證去掉假的前向光流估計(jì)。這樣對(duì)光流跟蹤和特征描述聚類兩個(gè)角度的跟蹤點(diǎn)進(jìn)行融合。
前景目標(biāo)在攝像機(jī)場(chǎng)景中運(yùn)動(dòng)的過程中,物距發(fā)生變化,由透視成像原理得知,前景目標(biāo)成像尺寸會(huì)發(fā)生變化,同時(shí)也會(huì)發(fā)生旋轉(zhuǎn)變化。CMT 跟蹤算法考慮到了這兩種變化。所以在首幀時(shí)已經(jīng)記錄了前景框內(nèi)所有關(guān)鍵點(diǎn)兩兩點(diǎn)之間的距離矩陣和相對(duì)角度矩陣。在后續(xù)的每一幀時(shí),也同時(shí)距離當(dāng)前幀前景框內(nèi)所有點(diǎn)兩兩點(diǎn)的距離和相對(duì)角度。然后根據(jù)中值算法,計(jì)算當(dāng)前前景點(diǎn)相對(duì)首幀前景的縮放尺寸和旋轉(zhuǎn)角度。
然后根據(jù)相對(duì)首幀的縮放尺寸和旋轉(zhuǎn)角度中值,對(duì)每個(gè)特征點(diǎn)進(jìn)行進(jìn)行投票,并采用層次聚類的方法選取最大的類也就是最一致的變換點(diǎn),并把變換點(diǎn)轉(zhuǎn)換回特征點(diǎn),得到在當(dāng)前幀上的有效特征點(diǎn)。并得到當(dāng)前前景框的中心點(diǎn)估計(jì)。
然后使用估計(jì)得到的中心點(diǎn),在當(dāng)前幀內(nèi),再?gòu)奶卣鼽c(diǎn)的角度相對(duì)首幀的前景點(diǎn)變換后的點(diǎn)進(jìn)行KNN 聚類,進(jìn)一步驗(yàn)證當(dāng)前關(guān)鍵點(diǎn)的準(zhǔn)確性。
CMT 跟蹤算法減小輕便,不依賴模型學(xué)習(xí),準(zhǔn)確率高,適宜在前端相機(jī)進(jìn)行行人跟蹤、車輛圖像屬性塊跟蹤,大大提高產(chǎn)品性能,為其他算法模塊提供有效資源。
宇視結(jié)合不同智能相機(jī)實(shí)際應(yīng)用場(chǎng)景,以CMT 算法為指導(dǎo),對(duì)現(xiàn)有跟蹤算法進(jìn)行改進(jìn),取得了更優(yōu)秀的效果,把相機(jī)的智能分析功能提高到更高的一個(gè)層次。
深度卷積網(wǎng)絡(luò)
卷積網(wǎng)絡(luò)(Convolutional Networks)又常稱為神經(jīng)網(wǎng)絡(luò)(Neural Networks) 或者卷積神經(jīng)網(wǎng)絡(luò)(Convolutional NeuralNetworks,CNN)。多層卷積網(wǎng)絡(luò)稱之為深度卷積網(wǎng)絡(luò)。卷積網(wǎng)絡(luò)最基本的運(yùn)算單元稱為神經(jīng)元,如圖2 所示。正如深度卷積網(wǎng)絡(luò)之父Yan LeCun 指出的卷積網(wǎng)絡(luò)嚴(yán)格來說不能稱之為神經(jīng)網(wǎng)絡(luò),同樣神經(jīng)元運(yùn)算單元也不是神經(jīng)科學(xué)意義上的神經(jīng)元。其實(shí)到目前為止,人類還未真正弄清楚人腦的工作機(jī)理,但是在一定程度上人們知道一個(gè)大腦皮層神經(jīng)元的工作過程。

(圖2)神經(jīng)元

(圖3)大腦皮層神經(jīng)元
如圖3所示,神經(jīng)元具有一個(gè)軸突(axon)分支,同時(shí)有一個(gè)收集來自其他神經(jīng)元輸入的樹突樹(dendritic tree)。軸突通常在突觸(synapses)和樹突樹進(jìn)行通信。有一個(gè)軸丘(axon hillock),每當(dāng)足夠的電荷流出突觸,以使得細(xì)胞膜去極化后,就會(huì)生成峰值,軸突上的激勵(lì)峰值會(huì)注入電荷到突觸后的神經(jīng)元。
所謂深度卷積網(wǎng)絡(luò)中的神經(jīng)元只是大腦皮層神經(jīng)元的近似。模仿大腦神經(jīng)元層層連接成網(wǎng)狀的結(jié)構(gòu),把一個(gè)個(gè)神經(jīng)元計(jì)算單元層層排列進(jìn)行連接,就構(gòu)成了所謂的深度卷積網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)并不是個(gè)新算法。在20 世紀(jì)50 年代就已經(jīng)出現(xiàn),后來到80 年代出現(xiàn)了使用CNN 進(jìn)行數(shù)字識(shí)別,但是由于訓(xùn)練時(shí)間過長(zhǎng),仍然沒有大量使用。
CNN 再次引入注目是Geoffrey E. Hinton(CNN 的另一個(gè)發(fā)明者) 及其弟子AlexKrizhevsky 在NIPS2014 會(huì)議上發(fā)表《ImageClassification with Deep ConvolutionalNeural Networks》,首次使用深度卷積神經(jīng)網(wǎng)絡(luò)在 LSVRC-2010 ImageNet(2010 年度大規(guī)模視覺識(shí)別挑戰(zhàn)賽(Large Scale VisualRecognition Challenge)數(shù)據(jù)集ImageNet)數(shù)據(jù)集上進(jìn)行通用目標(biāo)的檢測(cè),其TOP-1 錯(cuò)誤率和TOP-5 錯(cuò)誤率比先前的基于手工設(shè)計(jì)特征的最好的方法都要優(yōu)秀很多很多。同時(shí)該論文使用GPU 進(jìn)行加速,大大縮短模型訓(xùn)練時(shí)間,提高CNN 訓(xùn)練的可行性。其實(shí)CNN的再次風(fēng)靡,不僅是由于近幾年GPU 加速技術(shù)的突飛猛進(jìn),大大縮短CNN 的訓(xùn)練時(shí)間,同時(shí)由于移動(dòng)互聯(lián)網(wǎng)和智能手機(jī)拍照功能的增強(qiáng),可以輕易獲得百萬級(jí)別的訓(xùn)練樣本,所以說是現(xiàn)在具備了訓(xùn)練CNN 的客觀條件。
尤其是在視頻監(jiān)控行業(yè),大量部署的智能相機(jī)24 小時(shí)不間斷的采集車輛、行人等等各種圖片視頻信息。海量視頻圖片信息對(duì)采用CNN 算法提供了天然的優(yōu)勢(shì)資源。

(圖4)LeNet

(圖5)DeepID2
我們知道深度神經(jīng)網(wǎng)絡(luò)屬于機(jī)器學(xué)習(xí)(Machine Learning)學(xué)科范疇,機(jī)器學(xué)習(xí)科學(xué)除了CNN 之外還包括聚類算法,SVM 算法、深度波茲曼機(jī)器、深度遞歸網(wǎng)絡(luò),深度信念網(wǎng)絡(luò)等。這些算法應(yīng)用在視頻監(jiān)控領(lǐng)域的智能分析技術(shù)的方方面面,它們的訓(xùn)練都與海量樣本有關(guān)。
機(jī)器學(xué)習(xí)在視頻監(jiān)控行業(yè)的應(yīng)用主要有通用目標(biāo)檢測(cè)、定位、識(shí)別,通用目標(biāo)包括車輛、車型、車標(biāo)、各種非機(jī)動(dòng)、行人等,還可以是各種目標(biāo)的屬性檢測(cè),比如車身顏色、行人發(fā)式或者衣服屬性識(shí)別。傳統(tǒng)智能分析技術(shù)中的背景建模與前景檢測(cè)、運(yùn)動(dòng)目標(biāo)檢測(cè)、運(yùn)動(dòng)目標(biāo)跟蹤等傳統(tǒng)應(yīng)用也使用機(jī)器學(xué)習(xí)中的各種算法,比如聚類算法、光流算法、各種特征描述符等。
在最新的Garner2015 新興技術(shù)發(fā)展周期報(bào)告上(圖6 和圖7),大數(shù)據(jù)(Big Data)在2015 年的炒作周期表上已經(jīng)看不到它了,2014 年的炒作周期表上已經(jīng)表明它正走向低谷。這可能意味著最后關(guān)注的大數(shù)據(jù)相關(guān)技術(shù)已經(jīng)不是一種新興技術(shù),它們已經(jīng)用于實(shí)踐當(dāng)中。機(jī)器學(xué)習(xí)在今年的周期表中首次出現(xiàn),但是已經(jīng)越過了膨脹預(yù)期的頂峰,取代了大數(shù)據(jù)技術(shù)。

(圖6)Gartner 2015新興技術(shù)發(fā)展周期 ?。▓D7)Gartner 2014新興技術(shù)發(fā)展周期
在CVPR2015會(huì)議召開之際,文章《Deep down the rabbit hole: CVPR 2015 and beyond》中作者認(rèn)為在CVPR2015會(huì)議上,若提交的論文沒有采用DNN(Deep NeuralNet works),不把ConvNet(深度卷積網(wǎng)絡(luò)開源庫(kù),深度卷積網(wǎng)絡(luò)(Deep Convolutional Networks)是一種主要的DNN)作為比較基準(zhǔn),很難被采用。作者同時(shí)把CNN的之父YannLeCun的地位提高的笛卡爾坐標(biāo)系在數(shù)學(xué)界的高度(圖8)。可見DNN在計(jì)算機(jī)學(xué)習(xí)領(lǐng)域的影響之大。

這表明在今年以及未來的一段時(shí)間里,機(jī)器學(xué)習(xí)相關(guān)技術(shù)會(huì)吸引更過的科研機(jī)構(gòu)投入其中,結(jié)合愈來愈豐富的海量數(shù)據(jù),尤其海量圖片和視頻數(shù)據(jù),一定會(huì)在視頻監(jiān)控領(lǐng)域,發(fā)掘出更多更優(yōu)秀的算法出來,對(duì)視頻監(jiān)控行業(yè)產(chǎn)生更深的影響,這將極大提升視頻監(jiān)控領(lǐng)域中的許多智能分析技術(shù)的升級(jí)換代,給客戶帶來更高的準(zhǔn)確度和性能。比如最近微軟云服務(wù)azure,以及阿里云服務(wù),還有開源云計(jì)算平臺(tái)Spark,都在其中添加了GPU加速的機(jī)器學(xué)習(xí)功能,這會(huì)極大促進(jìn)機(jī)器學(xué)習(xí)云服務(wù)的推廣與普及。雖然目前在視頻監(jiān)控行業(yè)還未看到類似的使用GPU加速的機(jī)器學(xué)習(xí)云服務(wù),但相信在不久的將來,會(huì)在監(jiān)控行業(yè)出現(xiàn)這樣的服務(wù)項(xiàng)目,客戶需要服務(wù)時(shí),只需要把圖片視頻上傳到云端,云端分布式GPU深度學(xué)習(xí)模塊很快的就返回具有可視化功能的結(jié)果顯示,各個(gè)派出所級(jí)別的客戶沒有必要再單獨(dú)購(gòu)買智能分析設(shè)備。
為更好的迎接機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí),以及GPU加速對(duì)視頻監(jiān)控領(lǐng)域的智能分析技術(shù)帶來的深刻變革,專門成立了機(jī)器學(xué)習(xí)研究院,專注于在視頻監(jiān)控領(lǐng)域,機(jī)器學(xué)習(xí)結(jié)合傳統(tǒng)智能分析技術(shù),深入研究下一代智能分析算法以及產(chǎn)品形態(tài)。
目前,宇視已經(jīng)把機(jī)器學(xué)習(xí)算法深入應(yīng)用到車輛檢測(cè)與識(shí)別、車輛各種屬性檢測(cè)與識(shí)別、人體身份一致性識(shí)別等等多個(gè)產(chǎn)品中,致力于為客戶帶來更高品質(zhì)的智能體驗(yàn)。