基于語義的圖像分類研究是一個涉及模式識別、機器學(xué)習(xí)、計算機視覺及圖像處理等多個研究領(lǐng)域的交叉研究方向,并受到學(xué)術(shù)界的廣泛關(guān)注。近幾年來,國際頂級學(xué)術(shù)期刊及頂級學(xué)術(shù)會議都發(fā)表了大量關(guān)于圖像語義分類的研究成果,其中,以視覺詞袋模型(Bag ofVisual Words, BoVW)和支持向量機為關(guān)鍵技術(shù)的圖像分類方法取得的性能最為突出,今天先就視覺詞袋模型這塊進行詳細(xì)分享。
首先來看看,基于視覺詞袋模型的圖像分類系統(tǒng)由哪些結(jié)構(gòu)組成:
2003年,Sivic等提出了視覺詞袋模型。該模型將詞袋模型(Bag of Words, BoW)引入到了計算機視覺領(lǐng)域,取得了巨大成功?;谝曈X詞袋模型的圖像分類系統(tǒng)主要由四個部分組成,如圖1所示,分別為:圖像底層特征提取、視覺詞典生成、視覺詞匯特征構(gòu)建和分類器。由圖1可知,要完成圖像分類,首先需要生成一個規(guī)模適當(dāng)?shù)囊曈X詞典,又稱為視覺碼本;然后,對于一幅待處理圖像,提取出相應(yīng)的底層特征后,依據(jù)視覺詞典來構(gòu)建該圖像的視覺詞匯特征;最后,將該視覺詞匯特征輸入已訓(xùn)練好的分類器中,得到該圖像類別。
圖1基于視覺詞袋模型的圖像分類系統(tǒng)結(jié)構(gòu)
第一:圖像底層特征提取
一幅圖像的內(nèi)容是由其所有像素點的值來表達(dá)的,圖像底層特征就是通過一些算子從圖像,像素值中提取出能夠表達(dá)圖像內(nèi)容信息的統(tǒng)計量,通常為高維向量。圖像底層特征可以用來幫助表達(dá)圖像內(nèi)容,分析圖像特性及完成基于視覺信息的其它計算處理工作。特征提取是實現(xiàn)圖像分類的重要環(huán)節(jié),提取的特征能否反映圖像的本質(zhì)屬性信息對分類系統(tǒng)的性能有著決定性的影響。
圖像底層特征需要考慮四個原則:區(qū)分能力、描述能力、計算復(fù)雜度以及存儲空間需求。總的來說,底層特征可以分為全局特征和局部特征兩大類。全局特征指的是作用域為整幅圖像的統(tǒng)計量,通常用來代表一幅圖像整體的色調(diào)、亮度、紋理特征等信息。而局部特征指的是作用域為圖像局部區(qū)域的統(tǒng)計量,通常用來描述圖像中信息豐富區(qū)域的特性,可用于圖像中物體、目標(biāo)的檢測和定位。下面分別對圖像的全局特征和局部特征進行簡單的介紹。
1.全局特征
圖像全局特征的研究起步較早,技術(shù)相對比較成熟,主要包括顏色、紋理、形狀等特征,通常用于基于內(nèi)容的圖像檢索(Content-Based Image Retrieval, CBIR)。
(1)顏色特征
顏色特征作為最早被開發(fā)利用的視覺特征,被廣泛用于圖像檢索中。與其它全局視覺特征相比,顏色特征具有特征提取和相似度計算簡便的特點,并且對圖像的尺度、方向、視角變化不敏感,具有較強的穩(wěn)健性。提取圖像的顏色特征,首先需要選擇合適的顏色色彩空間,較常用的顏色空間有RGB、HSV、YCrCb、HMMD等。全局顏色特征主要包括顏色直方圖、顏色矩、 顏色集、顏色熵等。全局顏色特征無法表達(dá)圖像顏色的空間分布信息,忽略了顏色在二維空間中的分布特性。因此,為了在圖像特征中加入圖像顏色的空間位置信息,一些新的顏色特征也被研究和應(yīng)用,主要有顏色聚合向量、顏色相關(guān)圖、顏色空間分布熵、馬爾科夫隨機特征等。
(2)紋理特征
紋理特征是所有物體表面共有的內(nèi)在特性,是一種不依賴于顏色或亮度的反映圖像同質(zhì)現(xiàn)象的視覺特征。紋理特征包含了物體表面結(jié)構(gòu)組織排列的重要信息,其表現(xiàn)為圖像上灰度或顏色分布的規(guī)律性。早在二十世紀(jì)七十年代,Tamura 等就從視覺感知心理學(xué)研究出發(fā),提出了紋理特征的表達(dá)。Tamura 紋理特征共包含6個分量:粗糙度、對比度、方向度、線性度、規(guī)整度和粗略度,分別對應(yīng)心理學(xué)角度上的6種屬性。Haralick 等利用共生矩陣描述圖像紋理特征的方法,從數(shù)學(xué)角度研究了圖像中灰度級的空間依賴性并采用矩陣的形式記錄這種依賴性的統(tǒng)計信息。此外,Gabor 過濾作為一種紋理特征,能夠在最大程度上減少空間和頻率的不確定性,同時還能有效地檢測出圖像中不同方向、角度上的邊緣和線條。
(3)形狀特征
形狀特征以對圖像中物體和區(qū)域的分割為基礎(chǔ),是圖像表達(dá)和圖像理解中的重要特征。直觀上,人們對物體形狀的變換、旋轉(zhuǎn)和縮放不敏感,所以,形狀特征也應(yīng)具有對應(yīng)的不變性。圖像形狀特征大致分為兩:區(qū)域特征和輪廓特征,前者基于整個形狀區(qū)域而后者則利用物體的邊界。比較典型的形狀特征主要包括傅立葉形狀描述符、形狀無關(guān)矩等。
2.局部特征
全局特征計算簡單快捷,但存在明顯的缺點:只考慮了圖像的全局統(tǒng)計信息,而忽略了圖像的局部相關(guān)信息。有文獻(xiàn)指出,人類視覺系統(tǒng)通常是將物體分成許多區(qū)域,并綜合各個區(qū)域的局部信息加以識別判斷。與全局特征相比,局部特征在圖像噪聲干擾較大、背景復(fù)雜、存在重疊及物體形變等情況下仍能保持良好的性能,逐漸成為近年來的研究熱點。常用的局部特征,都能夠?qū)D像的平移、亮度、旋轉(zhuǎn)和尺度等的變化保持一定的不變性,被廣泛應(yīng)用于圖像分類檢索、圖像配準(zhǔn)、目標(biāo)識別等領(lǐng)域。
圖像局部特征提取一般包含兩個步驟:局部特征點檢測和局部特征描述。局部特征點檢測,是通過采用適當(dāng)?shù)臄?shù)學(xué)算子檢測圖像中梯度分布極值點所在的位置或區(qū)域。相關(guān)研究表明,這樣的極值點對應(yīng)的區(qū)域包含的視覺信息比較豐富,其對應(yīng)的特征向量也具有很強的區(qū)分能力和描述能力。目前,主要的局部特征點檢測算子有: DoG算子、 MSER算子、Hrris-Affine算子和Hessian-Affine算子。確定局部特征點對應(yīng)的局部區(qū)域后,需要生成有效的局部特征描述,通常為高維向量。
現(xiàn)階段,主流的局部特征主要有形狀上下文(Shape Contexts) 、尺度不變特征變換( Scale Invariant Feature Transform, SIFT)、PCA-SIFT、 梯度位置方向直方圖( Gradient Location and Orientation Histogram, GLOH) 等。為深入對比分析局部特征性能,Mikolajczyk等對幾種常用的局部特征進行了性能測試,結(jié)果表明SIFT特征及在其基礎(chǔ)上得到的GLOH特征的性能最突出。
SIFT特征最初由Lowe教授于1999年提出,后在2004年Lowe教授又對其進行了進一步完善,是當(dāng)前最常用的局部特征。SIFT特征能夠有效描述圖像的局部區(qū)域信息,對圖像旋轉(zhuǎn)、亮度變化和尺度變化具有不變性,對仿射變化、視角變化和噪聲也具有較強的魯棒性。由于性能突出,SIFT特征被廣泛用于圖像分類、場景識別和目標(biāo)檢測等計算機視覺領(lǐng)域。
第二:視覺詞典生成
局部特征能夠表征圖像的底層視覺特性,被大量用于圖像內(nèi)容分析中。但是,圖像局部特征大多位于高維空間,不便于進行存儲和后續(xù)計算。此外,高維向量通常還面臨稀疏、噪聲等“維數(shù)災(zāi)難”問題,導(dǎo)致在低維空間表現(xiàn)良好的算法到了高維空間其性能急劇惡化。因此,需要將圖像的高維局部特征映射到低維空間,以便于存儲、索引和計算。將大量局部特征映射到低維空間,得到局部特征對應(yīng)的編碼,這些編碼就稱為視覺單詞,所有的視覺單詞構(gòu)成視覺詞典。
視覺詞典的優(yōu)劣直接影響著系統(tǒng)的性能表現(xiàn),如何構(gòu)建區(qū)分性好、表達(dá)能力強的視覺詞典,成為近些年來基于視覺詞袋模型的圖像分類研究的重點。根據(jù)視覺詞典生成過程中是否利用訓(xùn)練集中已知類別標(biāo)注等信息,可將視覺詞典生成方式分為兩類:無監(jiān)督生成視覺詞典和有監(jiān)督生成視覺詞典。
1.無監(jiān)督生成視覺詞典
無監(jiān)督生成視覺詞典,通常是利用成熟的主成分分析,無監(jiān)督聚類、哈希映射等方法將局部特征集映射為視覺單詞集合,得到視覺詞典。無監(jiān)督方法不需要用到局部特征的類別、標(biāo)注等信息,省略了復(fù)雜的學(xué)習(xí)過程,視覺詞典生成速度較快。
K-Means算法作為一種最常用的聚類方法,因其直觀易懂,被廣泛用于對圖像局部特征進行聚類,生成視覺詞典。早在2003年,視覺詞袋模型的提出者就是采用K-Means聚類算法對局部特征集進行聚類得到視覺詞典。針對傳統(tǒng)基于K-Means聚類生成視覺詞典存在的一些問題,研究人員提出了一系列改進方案。
為減弱局部特征高維度和稀疏性對K-Means聚類效果的影響,Zhong等提出了球形K-Means聚類算法( Spherical K-Means)。Bolovinou 等進一步驗證了采用該聚類方法生成的視覺詞典,其表達(dá)能力得到了增強。
為提高K-Means聚類收斂速度, Philbin提出了近似K-Means聚類算法( ApproximateK-Means, AKM),并將其應(yīng)用到目標(biāo)檢索領(lǐng)域。Wang 等提出了快速近似K-Means聚類算法(Fast Approximate K-Means, F-AKM),通過有效識別簇之間交界處的數(shù)據(jù)點,減少了每輪迭代的計算量,進一步加快了聚類收斂速度,提高了生成視覺詞典的效率。
此外,考慮到常用的局部特征,如SIFT 特征,實質(zhì)上都是高維直方圖,為提高高維直方圖相似性度量的有效性, Wu等提出了一種基于直方圖相交核( Histogram IntersectionKernel, HIK) 的K-Means聚類方法生成視覺詞典,并在目標(biāo)識別實驗中驗證了該視覺詞典的良好性能。
由于傳統(tǒng)K-Means聚類方法得到的視覺詞典內(nèi)部沒有任何索引結(jié)構(gòu),查找特定視覺單詞的復(fù)雜度較高,有研究者采用分層K-Means聚類算法( Hierarchical K-Means, HKM)生成詞匯樹( Vocabulary Tree)提高了視覺單詞的查找速度。
除了K-Means及其改進算法,也有研究者采用高斯混合模型(Gaussian Mixture ModelGMM)生成視覺詞典。Avithis 等提出一種近似高斯混合模型(Approximate GaussianMixtures)并將其用于構(gòu)建大規(guī)模視覺詞典。該方法不但計算復(fù)雜度低,而且圖像檢索實驗也表明采用該方法生成的視覺詞典具備良好的表達(dá)能力。
除了聚類方法,哈希映射方法也常被用來生成視覺詞典。Mu等借助位置敏感哈希(Locality Sensitive Hashing, LSH) 對局部特征進行降維映射,生成了一組隨機化位置敏感詞典(Randomized Locality Sensitive Vocabularies, RLSV)。與K-Means方法相比,該方法計算復(fù)雜度低,能夠有效減弱“維數(shù)災(zāi)難”帶來的問題。
2.有監(jiān)督生成視覺詞典
為進一步提高視覺詞典的表達(dá)能力,越來越多的研究者開始探討有監(jiān)督生成視覺詞典的方法。
Moosmann等借鑒極端隨機樹( Extremely,Randomized Trees, ERT)和隨機森林(Random Forests, RF)算法思想,構(gòu)建了一組隨機聚類森林( Randomized ClusteringForests)作為視覺詞典。該視覺詞典具有規(guī)模大,視覺單詞區(qū)分能力強的特點,能夠很好地用來描述圖像內(nèi)容。Lopez-Sastrel等提出了一種新的聚類質(zhì)量評價準(zhǔn)則來評價視覺單詞的語義代表能力,并在聚類過程中引入局部特征的類別信息,大幅度提高了視覺詞典的區(qū)分能力和語義表達(dá)能力。Kontschieder等提出將訓(xùn)練集圖像中物體標(biāo)簽的拓?fù)湫畔⒄系诫S機森林的訓(xùn)練當(dāng)中,有效地提高了視覺詞典的區(qū)分能力,改善了圖像標(biāo)注的性能。此外,考慮到來自相同類別目標(biāo)的視覺特征之間具有一定的相關(guān)性,Zhou 等提出采用Fisher判別準(zhǔn)則對視覺詞典的生成過程進行監(jiān)督,增強了特定視覺單詞對相應(yīng)類別目標(biāo)的表達(dá)能力,提高了目標(biāo)識別的準(zhǔn)確率。上述有監(jiān)督生成視覺詞典的方法,都利用了局部特征的類別信息,并設(shè)定相應(yīng)準(zhǔn)則指導(dǎo)視覺詞典的生成過程,達(dá)到提高視覺詞典表達(dá)能力的目的。
除了利用局部特征的類別信息,有的視覺詞典生成方法進一步利用了局部特征間的相關(guān)性信息。有專家團隊將圖像塊在特征域的相似性與空間域上的上下文語義共生關(guān)系相結(jié)合,構(gòu)造出語義含義更明確的視覺單詞,提高了視覺詞典性能,改善了場景分類的效果。
Zhou等采用了空間約束的分層模糊k-Mcans ( Hierarchical ruzzy k-Means with Spatial Constraints, FCM-HS)方法將SIFT特征的空間上下文信息植入到詞匯樹的生成過程中,提高了聚類準(zhǔn)確度,有效地減弱了視覺單詞的語義模糊度。Yang 等提出了一種有監(jiān)督的EM迭代算法,將局部特征的空間上下文信息作為邊信息(Side Information),對聚類生成視覺詞典的過程進行約束,提高了視覺單詞的語義區(qū)分能力。
第三:視覺詞匯特征構(gòu)建
依據(jù)生成的視覺詞典,可以對圖像底層特征進行編碼,將圖像的底層特征表示轉(zhuǎn)化為視覺單詞表示,構(gòu)建圖像的視覺詞匯特征。
傳統(tǒng)的視覺詞袋模型采用矢量量化( Vector Quantization)對底層特征編碼,從而構(gòu)建圖像的視覺詞匯直方圖。矢量量化的具體過程為:對于待編碼的底層特征,計算它與視覺詞典中各個視覺單詞間的距離,找到與其相距最近的視覺單詞代替這個底層特征。矢量量化的編碼方式簡單易懂,也最容易被接受,因為人們通常認(rèn)為相距越近的特征越相似。對圖像中所有底層特征進行矢量量化,得到每個底層特征對應(yīng)的視覺單詞,再統(tǒng)計圖像中每個視覺單詞出現(xiàn)的頻次就可以得到視覺詞匯直方圖來表示該圖像。
Philbin等提出采用軟分配方法( Soft Assignment, SA)構(gòu)建視覺詞匯直方圖,將SIFT特征分配給多個與其相距較近的視覺單詞。該方法能夠有效地減小由量化誤差引起的噪聲,在一定程度上減弱了視覺單詞同義性和歧義性的負(fù)面影響。Jegou等應(yīng)用漢明嵌入(Hamming Embedding, HE)記錄SIFT特征在特征空間的粗略位置信息,彌補了傳統(tǒng)矢量量化方法的不足,有效提高了SIFT特征與視覺單詞的匹配準(zhǔn)確度。Jiang 等提出了軟加權(quán)方法(Soft-Weighting) 將SIFT特征分配給多個近鄰視覺單詞,并賦予不同的權(quán)重,提高了圖像分類的準(zhǔn)確率。Gemert 等提出了視覺單詞不確定性( Visual Word Uncertainty )模型,該模型同樣是采用軟分配策略對SIFT 特征編碼,進一步驗證了軟分配方法對于減弱視覺單詞同義性和歧義性影響的有效性。Liu等針對傳統(tǒng)軟分配方法中忽略了SIFT特征潛在的流形結(jié)構(gòu)的問題,提出了一種局部軟分配(Localized Soft Assignment)的編碼方式,進一步提升了視覺詞匯特征的準(zhǔn)確性,提高了圖像分類準(zhǔn)確率。Wang 等提出了一種多重分配( Multiple Assignment)和視覺單詞加權(quán)方案,同樣將SIFT特征與多個視覺單詞進行匹配,有效地減弱了視覺單詞同義性和歧義性對圖像檢索性能的影響。Yu等提出了上下文嵌入直方圖(Context-embedded BoVW Histogram)模型,充分利用語義上下文信息減弱視覺單詞的歧義性。
另一方面,視覺詞匯直方圖作為圖像的視覺詞匯特征,只刻畫了視覺單詞在圖像中出現(xiàn)的頻次,忽略了視覺單詞在圖像中的空間信息。合理地利用視覺單詞的空間信息,有助于構(gòu)建信息量更豐富的視覺詞匯特征,從而提高圖像分類的準(zhǔn)確率。為此,研究人員進行了深入研究。
Lazebnik等從原始的金字塔匹配出發(fā),提出了空間金字塔匹配模型。該模型能夠粗略利用視覺單詞在圖像中的絕對位置信息。Shotton等采用與金字塔匹配類似的方法開發(fā)利用高維局部特征空間的分層結(jié)構(gòu)信息,提出了語義紋理基元森林方法,在圖像分類實驗中性能表現(xiàn)出色。Sharma等對原始的空間金字塔匹配方法進行了擴展,提出了一種圖像空間自適應(yīng)分割方法,將局部特征的空間位置信息融入到視覺詞匯特征的構(gòu)建過程中。實驗結(jié)果表明了該方法能夠很好地刻畫視覺單詞在圖像空間上的位置分布信息,提高了圖像表達(dá)的準(zhǔn)確度和圖像分類的效果。
第四:分類器
得到圖像的視覺詞匯特征后,為了完成圖像分類,需要建立分類器。分類器模型的研究已有很長的歷史,廣義上可以劃分為兩個類別:生成模型(Generative Model)和判別模型(Discriminative Model)。
生成模型對樣本的聯(lián)合概率分布建模,得到聯(lián)合概率分布后,即可利用貝葉斯公式得到后驗概率,從而完成分類。圖像分類中常用的分類模型主要有:概率隱語義分析( Probabilistic Latent Semantic Analysis, PLSA)模型以及隱狄利克雷分布(LatentDirichlet Allocation, LDA) 模型等。
判別模型根據(jù)訓(xùn)練樣本確定特征空間中分割兩類對象的決策邊界,從而完成兩類或多類的分類。判別模型沒有考慮樣本的聯(lián)合概率分布,直接對后驗概率進行求解。圖像分類中常用的分類模型主要有:支持向量機( Support Vector Machine, SVM)和條件隨機場(ConditionalRandom Field, CRF)等。
生成模型能夠很好地處理小樣本問題,容易實現(xiàn)增量學(xué)習(xí),所包含的信息也比判別模型更豐富,但模型的學(xué)習(xí)過程比較復(fù)雜。判別模型對分類特征的選擇比較靈活,學(xué)習(xí)過程也相對簡單,分類速度比較快。但該模型的決策邊界取決于訓(xùn)練樣本,對訓(xùn)練樣本數(shù)量需求較大。而且,一旦樣本出現(xiàn)變化,需要重新學(xué)習(xí)新的分類模型。
當(dāng)前,在圖像分類領(lǐng)域,支持向量機是主流的分類方法。支持向量機建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上,在解決有限樣本、高維和非線性模式識別問題中表現(xiàn)出優(yōu)異性能。支持向量機的基本原理是,在線性可分情況下,尋找最優(yōu)分類超平面(Optimal Hyperplane),而對于線性不可分情況,首先通過非線性變換將輸入空間變換到一個高維空間,然后在這個新的高維空間中求取最優(yōu)分類超平面。
盡管視覺詞袋模型為現(xiàn)在研究熱點,但是也不可避免的存在著一些問題,我們一起來看一下:
現(xiàn)階段的圖像分類方法大都依賴于圖像的底層特征,而“語義鴻溝”的存在會導(dǎo)致計算機無法準(zhǔn)確地從語義層面理解圖像,這是圖像分類研究無法回避的難題。雖然基于視覺詞袋模型的圖像分類技術(shù)得到了大量的理論研究和實踐,成為當(dāng)前解決圖像分類問題的主流方法,但離真正的實用化還有很長距離。其存在的主要問題可歸結(jié)為以下三個方面。
1.視覺單詞的同義性和歧義性問題
視覺單詞的同義性是指,多個視覺單詞所描述的視覺內(nèi)容具有很強的相似性,而歧義性是指多個視覺差異明顯的圖像內(nèi)容對應(yīng)同一個視覺單詞。與文本分析中的單詞不同,視覺單詞是人為學(xué)習(xí)圖像底層特征的分布得到的,沒有明確的語義含義。當(dāng)前,視覺詞典主要是采用K-Means及其改進聚類算法生成的,這類聚類方法存在以下兩個缺陷:①在數(shù)據(jù)點密集區(qū)域得到的聚類中心偏多,而在數(shù)據(jù)點稀疏區(qū)域得到的聚類中心偏少;②遠(yuǎn)離聚類中心的數(shù)據(jù)點會使導(dǎo)致聚類中心向數(shù)據(jù)稀疏區(qū)域漂移。這兩個缺陷分別對應(yīng)視覺單詞的同義性和歧義性問題。視覺單詞的同義性和歧義性問題嚴(yán)重制約了視覺詞袋模型的性能。如何通過有效的聚類、隨機映射和距離度量學(xué)習(xí)等方法生成區(qū)分性好、表達(dá)能力強的視覺詞典是圖像分類領(lǐng)域的一大難題。
2.視覺詞匯特征中空間信息缺失的問題
視覺詞匯直方圖表達(dá)圖像內(nèi)容的方式忽略了視覺單詞的空間信息。這種空間信息既包括視覺單詞的絕對位置信息,還包括視覺單詞間的相對位置關(guān)系信息。一幅圖像中視覺單詞的分布和排列并不是雜亂無章的,視覺單詞的共生特性和空間依賴性是圖像內(nèi)容、語義信息的重要體現(xiàn)。因此,視覺單詞間的空間位置關(guān)系信息對于圖像內(nèi)容和語義的表達(dá)是不可忽略的。充分挖掘和利用視覺單詞的空間分布信息,并將其有效地引入到視覺詞袋模型中,能夠增強模型的表達(dá)能力,提高圖像分類準(zhǔn)確率。
3.視覺單詞間語義相關(guān)性的度量問題
為提高視覺詞典的表達(dá)能力,一方面要通過有效的聚類、度量學(xué)習(xí)等方法生成視覺單詞同義性和歧義性弱的視覺詞典;另一方面, 對于生成好的視覺詞典,也需要有效地挖掘和度量視覺單詞間的語義相關(guān)性,如含義是否相近、相反等。有效地度量和利用視覺單詞間的語義相關(guān)性,并采用合理的方法構(gòu)建視覺詞匯特征,可以提高視覺詞袋模型的語義表達(dá)能力,提高圖像分類的準(zhǔn)確率。當(dāng)前,關(guān)于視覺單詞間語義相關(guān)性的研究還很少。如何快速有效生成區(qū)分性好、表達(dá)能力強的視覺詞典,如何將視覺單詞的空間信息融入到圖像視覺詞匯特征中,如何有效地度量和利用視覺單詞間的語義相關(guān)性,是當(dāng)前基于視覺詞袋模型的圖像分類技術(shù)的研究重點。
詞袋模型是目前SLAM研究中最常用的閉環(huán)檢測方法,而且基于ORB詞袋模型的SLAM系統(tǒng),具有良好的實時性,能夠有效提高SLAM系統(tǒng)的重定位準(zhǔn)確性,增強了系統(tǒng)的魯棒性。
特別是現(xiàn)在一些企業(yè)已經(jīng)開發(fā)好的雙目視覺slam研發(fā)平臺,就是先利用視覺slam的位姿估計模塊實時獲取到雙目相機的圖像信息和IMU的位姿信息,然后通過視覺慣性融合算法計算出相機的深度信息、位置信息和運動姿態(tài)信息,并轉(zhuǎn)換為實時位姿信息,最后通過無人機位姿解算算法將相機的位姿信息轉(zhuǎn)換為無人機的位姿發(fā)送給無人機,實現(xiàn)無人機的自主定位。同時,視覺slam算法支持GPU加速技術(shù),大幅提升運算速度與精度。再基于詞袋技術(shù),構(gòu)建視覺slam回環(huán)檢測模塊,使視覺slam所計算出來的位姿信息更加準(zhǔn)確。由相機發(fā)布的三維點云信息獲取無人機與障礙物之間的距離,并應(yīng)用自主導(dǎo)航避障算法生成可執(zhí)行路徑,實現(xiàn)無人機自主導(dǎo)航避障功能。
它在平臺組成方面,主要由信息交互與任務(wù)控制平臺、無人機系統(tǒng)等組成。
可提供的技術(shù)方案支持也非常具有前沿性,和適用性:
1、可提供視覺導(dǎo)航、SLAM、視覺避障、人工智能等領(lǐng)域最新的技術(shù)。
2、可提供完整的無人平臺控制、通訊鏈路、視覺圖像采集、圖像識別、三維重建、定位解算等軟件算法解決方案。提供VIO、LocalPlanner等多種實例程序,用戶只需要簡單配置即可實現(xiàn)完整的自主定位、自主建圖、自主導(dǎo)航、自主避障等功能。
3、可提供全套的機器視覺與視覺導(dǎo)航的開發(fā)環(huán)境、仿真環(huán)境、硬件平臺,所提供的硬件均提供完善的二次開發(fā)接口和實例代碼,省去用戶從頭搭建開發(fā)平臺的繁雜工作。
4、可提供全套的學(xué)科教學(xué)課程以及示例算法等,幫助快速展開相關(guān)課程設(shè)計,進行實際教學(xué)應(yīng)用階段
可開設(shè)實驗課程如下:
?SLAM教學(xué);
?飛思視覺slam硬件平臺介紹;
?飛思視覺slam軟件平臺介紹;
?相機原理、點云原理、GPU加速原理簡介;
?飛思視覺slam平臺支持的視覺slam架構(gòu),
包括VINS,ORB_SLAM和Rovio,降低學(xué)校教師或?qū)W生學(xué)習(xí)SLAM的門檻;
?視覺slam主流技術(shù)介紹,包括多傳感器融合算法,KLT光流算法雙目VIO;
?視覺詞袋技術(shù)介紹;
?回環(huán)檢測技術(shù)介紹,包括重定位技術(shù)、全局位姿估計技術(shù);
?無人機通信技術(shù),包括Mavlimk介紹和Mavros介紹;
?自主導(dǎo)航避障算法介紹;
?飛思視覺slam平臺應(yīng)用實例介紹;
? 航線飛行實例,自主導(dǎo)航避障實。
隨著互聯(lián)網(wǎng)上圖像數(shù)據(jù)的急劇增長,基于語義的圖像分類研究成為了當(dāng)前計算機視覺領(lǐng)域的研究熱點。視覺詞袋模型作為基于語義的圖像分類主流方法存在諸多問題,成為了研究的重點。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至2161241530@qq.com 舉報,一經(jīng)查實,本站將立刻刪除。如若轉(zhuǎn)載,請注明出處:http://m.sdanke.com/wurenjibaike/djiwurenzhishi/10989/