我們生活的世界是一個三維物理空間。直觀而言,三維視覺系統(tǒng)有助于機器更好地感知和理解真實的三維場景。三維視覺作為計算機視覺的一個比較重要的研究方向,在過去幾十年間得到了扎實和系統(tǒng)地發(fā)展,形成了一套完整的理論體系。近年來,隨著三維成像技術(shù)如激光雷達、TOF 相機及結(jié)構(gòu)光等的快速發(fā)展,三維視覺研究再次成為研究熱點。
在上一篇文章中,我們對 3D 視覺基礎(chǔ)相關(guān)內(nèi)容進行了概括性總結(jié),本文我們將進行比較深層次的介紹,主要涉及 3D 視覺算法及其應(yīng)用領(lǐng)域。
3D 目標檢測多模態(tài)融合算法
基于視覺的目標檢測是環(huán)境感知系統(tǒng)的重要組成,也是計算機視覺、機器人研究等相關(guān)領(lǐng)域的研究熱點。三維目標檢測是在二維目標檢測的基礎(chǔ)上,增加目標尺寸、深度、姿態(tài)等信息的估計。相比于二維目標檢測,三維目標檢測在準確性、實時性等方面仍有較大的提升空間。
在目標檢測領(lǐng)域,2D 目標檢測方面發(fā)展迅速,出現(xiàn)了以 R-CNN、Fast RCNN、Mask RCNN 為代表的 two-stage 網(wǎng)絡(luò)架構(gòu),以及以 YOLO、SSD 為代表的 one-stage 網(wǎng)絡(luò)架構(gòu)。然而由于 2D 圖像缺乏深度、尺寸等物理世界參數(shù)信息,在實際應(yīng)用中存在一定局限性,往往需要結(jié)合激光雷達、毫米波等傳感器實現(xiàn)多模態(tài)融合算法,以增強系統(tǒng)的可靠性。
因此,研究者們提出了許多 3D 目標檢測方法,根據(jù)傳感器的不同大致可分為視覺、激光點云以及多模態(tài)融合三大類。其中視覺又包括單目視覺和雙目視覺(深度視覺)兩類;激光點云包括三維點云投影和三維空間體素特征;而多模態(tài)融合實現(xiàn)了激光點云與視覺的融合。下面將對現(xiàn)階段比較流行的 3D 目標檢測多模態(tài)融合算法研究進行介紹。
論文 1《3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection》提出了 voxel-based 的多模態(tài)特征融合。
論文地址:
https://arxiv.org/pdf/2004.12636
該研究提出的網(wǎng)絡(luò)整體結(jié)構(gòu)如下所示??梢钥闯錾舷聝蓪臃謩e是對激光雷達點云信息的特征提取 (voxel-backbone) 和對多張圖像信息的特征提取與模態(tài)轉(zhuǎn)換。這里需要提及的是由于圖像信息僅僅只有一個方向的視野,但是多個攝像頭的圖像存在視野重疊,所以多張圖像的信息融合是為了保證整個環(huán)視點云場景的特征都被涉及到。
論文 2《PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module》提出了 point-based 的多模態(tài)融合方法。
論文地址:
https://arxiv.org/pdf/1911.06084.pdf
該研究提出了一種新穎的融合方法——基于點的 Attentive Cont-conv Fusion(PACF)模塊,該模塊將多傳感器特征直接融合在 3D 點上。除了連續(xù)卷積外,該研究還添加了 Point-Pooling 和 Attentive Aggregation 等組件,以使融合特征更具表達力。
此外,基于 PACF 模塊,研究人員提出了一個叫做 Pointcloud-Image RCNN(PI-RCNN)的 3D 多傳感器多任務(wù)網(wǎng)絡(luò),該網(wǎng)絡(luò)負責圖像分割和 3D 目標檢測任務(wù)。PI-RCNN 使用分段子網(wǎng)從圖像中提取全分辨率語義特征圖,然后通過功能強大的 PACF 模塊融合多傳感器特征。受益于 PACF 模塊的效果和分段模塊的有表達力的語義特征,PI-RCNN 使 3D 目標檢測的性能大大改善。在 KITTI 3D 檢測基準測試中的實驗揭示了 PACF 模塊和 PI-RCNN 的有效性,并且該方法可以在 3D AP 的度量標準上達到最新水平。
網(wǎng)絡(luò)框架如上圖所示,實現(xiàn)過程可分為以下四步:
- 1. 使用圖像語義分割網(wǎng)絡(luò),獲得圖像的語義特征;
- 2. 檢測子網(wǎng)絡(luò) – 1 從原始點云中得到目標的三維候選框;
- 3. PACF 模塊融合點云特征和圖像語義特征;
- 4. 檢測子網(wǎng)絡(luò) – 2 得到最終的三維檢測結(jié)果。
論文 3《EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection》提出了一種新的融合模塊,在不需要任何圖像注釋的情況下,對具有語義特征的點特征進行逐點增強。該研究設(shè)計了一個端到端的可學習框架 EPNet 來集成兩個組件。在 KITTI 和 SUN-RGBD 數(shù)據(jù)集上進行的大量實驗表明,EPNet 優(yōu)于當前最優(yōu)方法。其網(wǎng)絡(luò)結(jié)構(gòu)點云分支是 point encoder-decoder 結(jié)構(gòu),圖像分支則是一個逐步 encoder 的網(wǎng)絡(luò),并且逐層做特征融合。
論文地址:
https://arxiv.org/pdf/2007.08856.pdf
網(wǎng)絡(luò)整體框架如下圖所示:
點云特征和圖像特征融合過程如下圖所示:
融合過程由三部分組成:grid generator、image sampler 和 LI-Fusion layer。
- 1. 根據(jù)三維激光與圖像的外參,grid generator 將三維激光的每一個點投影到原始圖像上;
- 2. image sampler 利用圖像特征圖與原始圖像的比例關(guān)系以及雙線性插值,得到對應(yīng)的圖像特征圖;
- 3. 為了減少圖像的遮擋以及深度不確定性對融合造成的影響,LI-Fusion layer 利用點云特征估計對應(yīng)圖像特征的重要程度并篩選,具體是將點云特征與圖像特征經(jīng)過若干操作學習得到權(quán)重值,權(quán)重值與圖像特征相乘再與點云特征串聯(lián)作為最后的融合特征。
論文 4《CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection》提出了一種新穎的 Camera-LiDAR 目標候選(CLOC)融合網(wǎng)絡(luò)。CLOC 融合提供了一種低復雜度的多模態(tài)融合架構(gòu),顯著提高了單模態(tài)檢測器的性能。CLOC 在非最大抑制 (NMS) 之前對任意 2D 和任意 3D 的組合輸出候選項進行操作,并被訓練利用它們的幾何和語義一致性,以產(chǎn)生更準確的最終 3D 和 2D 檢測結(jié)果,最后采用 maxpooling 的方式選擇最終的融合結(jié)果。
論文地址:
https://arxiv.org/pdf/2009.00784.pdf
網(wǎng)絡(luò)架構(gòu)圖如下所示:
該網(wǎng)絡(luò)由三個階段完成:1)2D 和 3D 的目標檢測器分別提出 proposal;2)將兩種模態(tài)的 proposal 編碼成稀疏張量;3)對于非空的元素采用二維卷積做對應(yīng)的特征融合。
3D 人臉檢測基本流程
人臉識別技術(shù)在國家安全、軍事安全、金融安全、共同安全等領(lǐng)域具有廣泛的應(yīng)用前景。人的大腦具備天生的人臉識別能力,可以輕易地分辨出不同的人。但是計算機自動識別人臉技術(shù)卻面臨著巨大的挑戰(zhàn)。由于二維人臉識別不可避免地受到光照、姿態(tài)和表情的影響,這些因素已成為二維人臉識別技術(shù)向前發(fā)展的最大障礙。
隨著結(jié)構(gòu)光和立體視覺等三維成像技術(shù)的日益成熟,越來越多的人臉識別研究人員將目光投向了三維人臉識別技術(shù)領(lǐng)域。
目前 3D 人臉識別技術(shù)的主要技術(shù)流程如下:
- (1) 3D 人臉數(shù)據(jù)獲取;
- (2) 3D 人臉數(shù)據(jù)的預處理,包括人臉的檢測、切割、去噪等;
- (3) 3D 人臉數(shù)據(jù)的特征提取;
- (4) 構(gòu)建適合的分類器對人臉數(shù)據(jù)進行判別。
目前 3D 人臉識別算法分為如下幾個類別:
- 1. 基于空域匹配的識別算法
- 2. 基于局部特征匹配的識別算法
- 3. 基于整體特征匹配的識別算法
- 4. 基于模型擬合的識別算法
- 5. 基于 3D+2D 雙模態(tài)的識別算法
3D 數(shù)據(jù)集簡介
目前 3D 公開數(shù)據(jù)少,遠少于 2D 圖片;3D 高精度數(shù)據(jù)集只能靠昂貴的設(shè)備采集,過程繁瑣。這里我們來了解一下現(xiàn)有的 3D 數(shù)據(jù)集。
1. BU-3DFE (Binghamton University 3D Facial Expression) 數(shù)據(jù)集:該數(shù)據(jù)庫目前包含 100 位受試者(女性 56%,男性 44%),年齡從 18 歲到 70 歲不等,包含各種種族,包括白人、黑人、東亞人、中東人等。
下載地址:
http://www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html
2. KITTI 數(shù)據(jù)集:由德國卡爾斯魯厄理工學院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數(shù)據(jù)集。該數(shù)據(jù)集用于評估 3D 目標檢測和 3D 跟蹤等計算機視覺技術(shù)在車載環(huán)境下的性能。
下載地址:
http://www.cvlibs.net/datasets/kitti/raw_data.php
3. Cityscapes 數(shù)據(jù)集:這是一個較新的大規(guī)模數(shù)據(jù)集,它包含 50 個不同城市的街道場景中所記錄的各種立體視頻序列,除了一組較大的 20000 個弱注釋幀外,還具有 5000 幀的高質(zhì)量像素級注釋。
下載地址:
https://www.cityscapes-dataset.com/
4. Matterport 3D 重建數(shù)據(jù)集:該數(shù)據(jù)集包含 10800 個對齊的三維全景視圖(RGB + 每個像素的深度),來自 90 個建筑規(guī)模場景的 194400 個 RGB + 深度圖像。
下載地址:https://matterport.com/
5. 3D 人臉重建相關(guān)數(shù)據(jù)集:該數(shù)據(jù)集包含用 iPhone X 拍攝的 100 名受試者的 2054 張 2D 圖像,以及每個受試者的單獨 3D 頭部掃描。
下載地址:
https://ringnet.is.tue.mpg.de/challenge
6. TUM 數(shù)據(jù)集:主要包含多視圖數(shù)據(jù)集、3D 物體的識別分割、場景識別、3D 模型匹配、vSALM 等各個方向的數(shù)據(jù)。
下載地址:https://vision.in.tum.de/
人臉數(shù)據(jù)庫匯總官網(wǎng)指路:
http://www.face-rec.org/databases/
面部 3D 重建
人臉重建是計算機視覺領(lǐng)域中一個比較熱門的方向,3D 人臉相關(guān)應(yīng)用也是近年來短視頻領(lǐng)域的新玩法。不管是 Facebook 收購的 MSQRD,還是 Apple 研發(fā)的 Animoji,底層技術(shù)都與三維人臉重建有關(guān)。
面部 3D 重建,可以理解為從一張或多張 2D 圖像中重建出人臉的 3D 模型。對于面部 3D 重建,我們先來直觀地感受一下效果。
如下動圖所示,最右邊的重建人臉除了沒有皺紋以外,身份特征和面部表情都和原圖相當一致,陰影效果也高度還原。只是眼睛部分似乎不太對,顯得渾濁無神。
論文《FML: Face Model Learning from Videos》效果展示
下圖中的合成效果也很不錯,表情動態(tài)很到位。只是可能實驗者的眼神實在太有戲,AI 表示無力模仿。
論文《FML: Face Model Learning from Videos》效果展示
論文《3D Face Reconstruction from A Single Image Assisted by 2D Face Images in the Wild》效果展示
論文《Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network 》效果展示
直觀感受完面部 3D 重建效果后,我們再來探究模型背后的算法。
傳統(tǒng) 3D 人臉重建方法,大多立足于圖像信息,如基于圖像亮度、邊緣信息、線性透視、顏色、相對高度、視差等一種或多種信息建模技術(shù)進行 3D 人臉重建。
三維變形模型(3DMM)
隨著技術(shù)的發(fā)展,研究者們又提出了基于模型的 3D 人臉重建方法,這是目前較為流行的 3D 人臉重建方法。3D 模型主要用三角網(wǎng)格或點云來表示,現(xiàn)下流行的模型有通用人臉模型(CANDIDE-3)和三維變形模型(3DMM)及其變種模型,基于它們的 3D 人臉重建算法既有傳統(tǒng)算法也有深度學習算法。
三維變形模型(3DMM)是一個通用的三維人臉模型,用固定的點數(shù)來表示人臉。其核心思想是人臉可以在三維空間中一一匹配,并且可以由其他許多幅人臉正交基加權(quán)線性相加而來。三維空間中的每一點 (x, y, z) 實際上都是由三維空間三個方向的基量 (1, 0, 0),(0, 1, 0),(0, 0, 1) 加權(quán)相加所得,只是權(quán)重分別為 x,y,z。
每一個三維人臉都可以在一個數(shù)據(jù)庫中的所有人臉組成的基向量空間中進行表示,而求解任意三維人臉的模型,實際上等價于求解各個基向量的系數(shù)問題。每一張人臉可以表示為形狀向量和紋理向量的線性疊加。
任意人臉模型均可以由數(shù)據(jù)集中的 m 個人臉模型進行加權(quán)組合,如下:
其中 Si、Ti 表示數(shù)據(jù)庫中第 i 張人臉的形狀向量和紋理向量。但是我們實際在構(gòu)建模型的時候不能使用這里的 Si、Ti 作為基向量,因為它們之間并非正交相關(guān),所以接下來需要使用 PCA 進行降維分解。
- (1) 首先計算形狀和紋理向量的平均值;
- (2) 中心化人臉數(shù)據(jù);
- (3) 分別計算協(xié)方差矩陣;
- (4) 求得形狀和紋理協(xié)方差矩陣的特征值α、β和特征向量 si、ti。
上式可以轉(zhuǎn)換為下式:
其中第一項是形狀和紋理的平均值,而 si、ti 則是 Si、Ti 減去各自平均值后的協(xié)方差矩陣的特征向量,它們對應(yīng)的特征值按照大小進行降序排列。
等式右邊仍然是 m 項,但是累加項降了一維,減少了一項。si、ti 都是線性無關(guān)的,取其前幾個分量可以對原始樣本做很好地近似,因此能夠大大減少需要估計的參數(shù)數(shù)目,并不損失準確率。
基于 3DMM 的方法都是在求解這幾個系數(shù),隨后的很多模型在這個基礎(chǔ)上添加了表情、光照等系數(shù),但是原理與之類似。
參考鏈接:
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至2161241530@qq.com 舉報,一經(jīng)查實,本站將立刻刪除。如若轉(zhuǎn)載,請注明出處:http://m.sdanke.com/uncategorized/40729/