摘要:針對無人機偵察影像的目標檢測問題,研究一種基于候選區(qū)域的無人機偵察影像目標檢測技術(shù)。首先圍繞無人機影像特點,分析了基于候選區(qū)域的目標檢測技術(shù)的優(yōu)勢。然后介紹了該技術(shù)的關(guān)鍵步驟并歸納了各步驟的主流算法。最后總結(jié)了兩種較為成熟的候選區(qū)域目標檢測框架:基于DPM的候選區(qū)域目標檢測框架和基于卷積神經(jīng)網(wǎng)絡的候選區(qū)域目標檢測框架,通過對現(xiàn)有算法的分析,為下一步改進算法提供了思路。
關(guān)鍵詞:候選區(qū)域;目標檢測;偵察影像;無人機
相比于傳統(tǒng)戰(zhàn)場偵察方式,無人機偵察能夠在避免人員傷亡的情況下提供近實時的情報信息,逐漸成為一種主流的偵察手段。無人機獲得戰(zhàn)場偵察影像數(shù)據(jù)后,通過目標檢測技術(shù)處理偵察影像,實現(xiàn)對戰(zhàn)場典型目標的定位與分類,根據(jù)檢測信息,可以準確打擊敵方目標、掌握敵我部署、增強戰(zhàn)場判斷力、提高作戰(zhàn)效率。
目標檢測技術(shù)是一種基于目標幾何與統(tǒng)計特征的圖像識別分割技術(shù)。早期的算法有幀差法、背景差法、光流法等,主要利用幀間信息定位出運動目標的空間位置,不涉及對目標類別的智能分類,如需目標判讀還要添加目標識別模塊,過程繁瑣冗余。此外,無人機偵察影像相對于一般研究的目標檢測影像有自身的特殊性:
(1)成像環(huán)境惡劣、目標背景運動且復雜;
(2)目標相對背景過小,定位困難;
(3)目標特征不明顯,識別難度大;
(4)實際應用需求對算法實時性、魯棒性要求高。
因此,快速魯棒的進行無人機偵察影像目標檢測成為無人機信息處理的關(guān)鍵,而基于候選區(qū)域(Region Proposal)的目標檢測技術(shù)正符合以上要求:
(1)對單幅或單幀影像進行檢測,不受運動背景限制;
(2)候選區(qū)域檢測,縮小待計算窗口數(shù)量,運算速度快;
(3)特征提取降維與分類器相結(jié)合,識別定位的精度與速度高;
(4)整體框架簡單清晰如圖1所示,可以根據(jù)檢測要求對候選區(qū)域檢測、特征提取、分類器三個檢測階段進行變化,便于算法的改進與評估。
因此對基于候選區(qū)域的無人機偵察影像目標檢測技術(shù)進行研究具有重要意義,接下來將對其三個階段進行介紹和算法概述。
圖1 基于候選區(qū)域的目標檢測框架1 候選區(qū)域檢測
候選區(qū)域檢測是利用圖像顏色、邊緣、紋理等特征,選擇性搜索目標位置的方法。由于目標可能出現(xiàn)在圖像的任何位置,大小、長寬比例不定,因此需要根據(jù)一定方法將圖像分割成各種尺寸的子圖像作為候選區(qū)域,便于目標定位與特征提取。
而高效的分割候選區(qū)域成為候選區(qū)域檢測階段的研究重點。傳統(tǒng)窮舉搜索(Exhaustive Search)算法也可以算作一種特殊的候選區(qū)域檢測方法,其利用幾種尺寸相對固定的矩形窗口,逐行列或隨機對整幅圖像截取子圖像,實現(xiàn)對圖像的遍歷。這種盲目窮舉的區(qū)域搜索方法時耗長、冗余大,嚴重影響整體目標檢測算法的運行速度與性能,更無法滿足無人機情報處理的實時性,因此為提高檢測效率需要一種檢測策略對區(qū)域搜索進行引導,避免復雜的運算。
現(xiàn)有的可用于候選區(qū)域檢測的算法有很多,Jan Hosang等將這些算法分為分組區(qū)域選擇法(Grouping proposal methods)和窗口評分區(qū)域選擇法(Window scoring proposal methods)兩大類。分組區(qū)域選擇法將圖像先分割成小塊,隨后按照某種原則組合成需要的候選區(qū)域。根據(jù)產(chǎn)生候選區(qū)域方式的不同,分組區(qū)域選擇法又細分為超像素法(Superpixels, SP)、像素分割法(Graph Cut, GC)和邊緣輪廓法(Edge Contours, EC)。窗口評分區(qū)域選擇法在圖像上截取大量的區(qū)域窗(Windows),并按照與目標關(guān)系的大小進行打分,選擇分數(shù)高的生成候選區(qū)域。圖2詳細描述了這種分類層次并列舉了主要算法。
圖2 主要候選區(qū)域檢測算法分類
上述算法中比較具有代表性的有:Seletive Search、Edge Boxes和MCG。
Seletive Search的主要思路是使用圖像分割算法將圖像分割成小區(qū)域,計算相鄰小區(qū)域的顏色、紋理等特征的相似度,并融合相似度最高的兩個區(qū)域,重復相似度計算和融合過程直到合成整張圖像,合成過程中產(chǎn)生的各種尺度區(qū)域即為候選區(qū)域。
Edge Boxes首先使用結(jié)構(gòu)化快速邊緣檢測算法得到邊緣圖像(Edge Probability map),利用非極大值抑制(Non-maximum Suppression, NMS)稀疏邊緣圖像,然后將邊緣點組成邊緣組(Edge Group)并計算組間的相似度,進而得到框內(nèi)和與框邊緣重疊的兩組輪廓數(shù),最后根據(jù)輪廓數(shù)對區(qū)域框進行打分,根據(jù)分數(shù)確定候選區(qū)域。
MCG與Edge Boxes一樣先用結(jié)構(gòu)化快速邊緣檢測算法得到邊緣圖像,利用分水嶺算法得到輪廓圖,隨后生成超度量輪廓映射圖(UCM),之后通過層次分割得到區(qū)域集并用隨機森立分類器根據(jù)尺度、位置和邊緣強度等特征對區(qū)域進行排序,進而選出符合要求的候選區(qū)域。
魯棒性(Robust)、實時性和召回率(Recall)是評價候選區(qū)域選擇方法的一般標準。無人機偵察環(huán)境復雜導致成像過程中可能存在各種擾動,因此良好的魯棒性和較高的召回率是保證區(qū)域選擇算法在實際應用中具備高質(zhì)量目標檢測效果的關(guān)鍵。同時提升區(qū)域選擇階段的運行速度,也會降低整體目標檢測過程的時耗。2 特征提取
特征提取是目標檢測中的關(guān)鍵步驟,其質(zhì)量直接影響到最終檢測結(jié)果的準確性。特征提取常用的圖像特征有顏色特征、紋理特征、形狀特征等。受限于無人機實際偵察條件,應用于復雜多目標背景下無人機偵察目標檢測的特征提取算法應對尺度、亮度、旋轉(zhuǎn)、遮擋和噪聲等干擾具有較強的魯棒性,而傳統(tǒng)目標檢測技術(shù)大部分通過人工設計提取圖像特征,常見的算法有:
Harris角點檢測算法以泰勒展開式構(gòu)建像素點鄰域內(nèi)的連續(xù)曲面,計算所有像素點的微商平方和,采用其中的最大值和最小值作為判斷特征角點的顯著性依據(jù),該算法能將檢測方向擴展到所有方向上。不足之處是計算過程復雜,且人為設定的初始閾值對算法的穩(wěn)定性具有決定性作用。
SIFT(Scale Invariant Feature Transform)特征檢測算法是現(xiàn)階段較為成熟的一種算法,首先通過高斯平滑構(gòu)建高斯尺度空間,在其中進行極值點檢測并將其作為特征點,經(jīng)過特征點描述即可用于圖像匹配。該算法對于照度變換、尺度和旋轉(zhuǎn)變換、視點變化以及噪聲影像都具備一定的魯棒性,特征點區(qū)分力較好,信息量豐富,匹配的準確度較高,但由于算法需要構(gòu)建尺度空間并計算全局極值,計算量大,無法滿足實時要求。
HOG(Histogram of Oriented Gradient)特征檢測算法是一種利用局部圖像梯度方向直方圖特性提取圖像特征的方法,能夠減弱局部光照、陰影對特征提取的影響,計算像素梯度獲取圖像輪廓信息。首先將圖像劃分成多個Cell塊,每個Cell塊由數(shù)個像素點組成,統(tǒng)計Cell塊的梯度直方圖,再將數(shù)個Cell塊組合成Block區(qū)域,根據(jù)密度對區(qū)域中的Cell塊歸一化,區(qū)域中所有Cell塊的梯度特征組合成Block特征,同理圖像中所有Block特征組合成圖像特征,HOG對光照和輕微形變有一定的抑制能力,可以很好的表征局部像素之間的關(guān)系。與其它傳統(tǒng)特征提取算法相同,計算冗長導致的實時性差是算法的主要缺陷。
SURF(Speeded up Robust Features)檢測算法采用Hessian矩陣對SIFT算法中高斯尺度空間構(gòu)建過程進行近似處理,利用積分圖像和更低維度的描述子向量簡化算法體積,有效減少了計算量,彌補了SIFT算法運行速度緩慢的缺點。但是在采用Hessian矩陣獲得極值后,在求取特征點主方向階段過于依賴局部區(qū)域像素點的梯度方向,可能會造成誤匹配。而且由于算法采用一種近似處理實現(xiàn)特征點的檢測,導致其對于各種變換的魯棒性相對下降。
之后還有許多基于SIFT和SURF改進的特征檢測算法,如BRIEF(Binary Robust Independent Elementary Features)檢測算法、ORB(Oriented FAST and Rotated BRIEF)檢測算法、BRISK(Binary Robust Invariant Scalable Keypoints)檢測算法、非線性特征檢測的風式特征(KAZE)算法,魯棒性和實時性都有大幅提高,但是傳統(tǒng)特征提取算法應用于無人機偵察目標檢測時,魯棒性、實時性和準確性等傳統(tǒng)指標依然無法滿足實際需求,具體表現(xiàn)為以下四個方面:
(1)提取到的特征信息過于單一,無法完整的表述目標;
(2)可分性較差,分類器無法準確的對復雜背景下的目標進行分類;
(3)泛化性不足,不同的特征適用于不同的影像數(shù)據(jù),一般人為選取的特征都有自身特定的應用背景;
(4)特征設計工作復雜,研發(fā)周期長,且設計工作需要較強的專業(yè)背景。
隨著深度學習的不斷發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(convolution neural network,CNN)的目標檢測算法得到深入研究。在圖像特征提取方面,卷積神經(jīng)網(wǎng)絡具有明顯優(yōu)勢,區(qū)別于人工設計的特征,其利用大量圖片數(shù)據(jù)學習到非人工設計的特征,解決了由于人為選取的特征信息單一導致的復雜背景下魯棒性不強的問題,提升影像目標檢測效果。3 分類器
分類是目標檢測的核心之一,而分類器的選擇是分類的重點。將特征提取中得到的特征送入分類器,判斷出圖像中目標類別,即基本完成目標的粗檢測。如圖3所示為目標檢測中分類器進行分類的過程。
圖3 分類示意圖
目標檢測分類過程最常用的分類器有:支持向量機(support vector machine,簡稱 SVM)、Boosting、隨機森林(Random Forest, RF)、人工神經(jīng)網(wǎng)絡(Artificial Neural Network, ANN)等。
SVM分類器是以統(tǒng)計學習理論為基礎的學習方法,根據(jù)結(jié)構(gòu)風險最小化準則,以最大化分類間隔構(gòu)造最優(yōu)分類超平面來提高學習機的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點等問題。對于分類問題,支持向量機算法根據(jù)區(qū)域中的樣本計算該區(qū)域的決策曲面,由此確定該區(qū)域中未知樣本的類別。傳統(tǒng)圖像目標檢測中大多應用SVM分類器進行特征分類,然而缺失數(shù)據(jù)敏感和對非線性問題沒有通用解決方案仍是急待解決的問題。
Boosting分類器是一種集合分類器即通過組合幾個弱分類器實現(xiàn)強分類器的性能。其基本思想是:訓練數(shù)個弱分類器,在第一個弱分類器中輸入相同權(quán)值訓練樣本,在之后的分類器迭代過程中,不斷增加正確樣本權(quán)重直到迭代完成,最后將所有弱分類器組合成強分類器用于分類決策。Adaboost(Adaptive Boosting)算法具體實現(xiàn)了Boosting分類器這一思想,且具有精度高、抗過擬合能力強、構(gòu)建簡單靈活等優(yōu)點,大量應用于包括目標特征分類等各種分類場景。弱分類器的選擇是影響B(tài)oosting分類器分類效果的關(guān)鍵,也是制約其發(fā)展的阻力。
隨機森林是由多個決策樹分類器(Classification and Regression Tree, CART)組成的總分類器。為達到提升泛化性的目的,分類器訓練過程中通過隨機有放回的采樣獲取子分類器訓練樣本集,隨后將提取到的特征按一定比例隨機無放回的采樣來訓練子分類器節(jié)點。隨機森林相較于其它分類器具有訓練速度快、泛化能力強、實現(xiàn)簡單等優(yōu)點,且可以有效克服樣本失衡、特征丟失、特征維度過高的問題。但在數(shù)據(jù)噪聲較大的情況下仍會發(fā)生過擬合的問題,此外,該模型內(nèi)部不可控,只能通過外部參數(shù)進行調(diào)節(jié)。
ANN是基于人腦神經(jīng)網(wǎng)絡對信息處理分類的一種簡化模擬,由大量的神經(jīng)元節(jié)點連接構(gòu)成,通過調(diào)整網(wǎng)絡結(jié)構(gòu)、網(wǎng)絡連接方式、節(jié)點激活函數(shù)和節(jié)點間權(quán)值進而對輸出進行調(diào)整。根據(jù)訓練結(jié)構(gòu)特點可分為前饋網(wǎng)絡、反饋網(wǎng)絡和競爭學習網(wǎng)絡。人工神經(jīng)網(wǎng)絡通過訓練具有良好的聯(lián)想記憶能力,且具有高精度、高并行性、非線性、良好的容錯性和泛化性等優(yōu)點,不足之處是需要大量訓練樣本和一定的硬件基礎,且需要人為經(jīng)驗來設置參數(shù)。4 基于候選區(qū)域的圖像目標檢測框架
4.1基于多尺度形變部件模型
多尺度形變部件模型(Deformable Part Model, DPM)算法是一種基于部件的檢測算法,曾多次獲得PASCAL VOC(Visual Object Class)挑戰(zhàn)賽冠軍,是深度學習出現(xiàn)之前應用最廣泛、效果最好的目標檢測算法。DPM由滑動窗口、改進的HOG特征和SVM分類器組合而成,如圖4所示。
圖4 DPM流程圖
DPM算法通過構(gòu)建高斯金字塔,在多尺度空間進行檢測,每一尺度層的DPM模型包含一個根模型和幾個可變部件模型,根模型的分辨率是可變部件模型的1/2。目標檢測的結(jié)果由模型與待匹配特征之間的相似度確定,相似度越高則檢測分數(shù)越高,檢測窗口得分公式為:
其中,score(x0,y0,l0)表示l0尺度空間中錨點為(x0,y0)窗口的分數(shù),R0,l0(x0,y0)為l0中根模型相似度得分,為l0中多個可變部件模型得分和,b為偏差值。
DPM目標檢測框架具有以下優(yōu)勢:
(1)采用高斯金字塔多尺度空間檢測,保證了尺度不變性;
(2)HOG特征提取算法對光照變化、細小形變具有較好的魯棒性;
(3)部件模型的提出降低了遮擋、形變等因素對目標檢測的影響。
4.2基于卷積神經(jīng)網(wǎng)絡
基于卷積神經(jīng)網(wǎng)絡的目標檢測框架有很多,而基于候選區(qū)域的卷積神經(jīng)網(wǎng)絡目標檢測框架起步最早、應用最成熟,且具有較高的準確率,其中具有代表性的是RCNN,具體步驟如下:
(1)候選區(qū)域檢測階段:應用上文介紹的Selective Search算法對偵察影像進行區(qū)域選擇;
(2)特征提取階段:將提取的所有候選區(qū)域進行歸一化處理,通過訓練過的深度卷積神經(jīng)網(wǎng)絡進行特征提?。?/p>
(3)分類階段:將特征輸入多個SVM二分類器中,判斷是否屬于該類別。
隨著深度學習結(jié)構(gòu)的不斷優(yōu)化,學者們將卷積神經(jīng)網(wǎng)絡貫穿包括特征提取在內(nèi)的整個基于候選區(qū)域的目標檢測過程中,先后出現(xiàn)了SPP-Net、Fast-RCNN、Faster-RCNN等框架,大大提高了目標檢測的實時性、魯棒性和準確性。5 結(jié)束語
針對無人機偵察影像目標檢測問題,提供了一種基于候選區(qū)域的無人機偵察影像目標檢測思路,對其三個主要步驟:候選區(qū)域檢測、特征提取、分類器展開了分析與總結(jié),最后歸納了兩種主流的基于候選區(qū)域的目標檢測框架。理論分析表明,該方法具有較強的實用性與應用價值,為無人機偵察影像目標檢測算法的研究與改進提供理論研究基礎。下一步將對框架中各步驟介紹的算法進行試驗對比,提出一種快速魯棒的無人機偵察影像目標檢測算法。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至2161241530@qq.com 舉報,一經(jīng)查實,本站將立刻刪除。如若轉(zhuǎn)載,請注明出處:http://m.sdanke.com/wurenjibaike/djiwurenzhishi/11614/