計算機視覺領域的AI頂會CVPR2020剛剛落下帷幕,與往年更專注圖片識別不同,學術界和工業界的研究方向逐漸轉向了更難的視頻分割和三維視覺等領域。本次,阿里巴巴拿下了四項比賽的世界冠軍,其中就包括CVPR2020的DAVIS視頻目標分割比賽,本文將具體解讀這項冠軍技術背后的原理。
與圖像識別不同,AI分析理解視頻的技術門檻較高。長期以來,業界在視頻AI技術的研究上鮮有重大突破。以CVPR會議難度很高的比賽之一DAVIS(DenselyAnnotatedVideoSegmentation)為例,該比賽需要參賽團隊精準處理復雜視頻中物體快速運動、外觀變化、遮擋等信息,過去幾年,全球高級科技在該比賽中的成績從未突破80分,而達摩院的模型很終在test-challenge上取得了84.1的成績。
DAVIS的數據集經過精心挑選和標注,視頻分割中比較難的點都有體現,比如:快速運動、遮擋、消失與重現、形變等。DAVIS的數據分為train(60個視頻序列),val(30個視頻序列),test-dev(30個視頻序列),test-challenge(30個視頻序列)。其中train和val是可以下載的,且提供了每一幀的標注信息。對于半監督任務,test-dev和test-challenge,每一幀的RGB圖片可以下載,且第一幀的標注信息也提供了。算法需要根據第一幀的標注mask,來對后續幀進行分割。分割本身是instance級別的。
阿里達摩院提供了一種全新的空間約束方法,打破了傳統STM方法缺乏時序性的瓶頸,可以讓系統基于視頻前一幀的畫面猜測目標物體下一幀的位置;此外,阿里還引入了語義分割中的精細化分割微調模塊,大幅提高了分割的精細程度。很終,精準識別動態目標的輪廓邊界,并且與背景進行分離,實現像素級目標分割。
達摩院的算法基于去年CVPR的STM做了進一步改進。STM的主要思想在于,對于歷史幀,每一幀都編碼為key-value形式的feature。猜測當前幀的時候,以當前幀的key去和歷史幀的key做匹配。匹配的方式是non-local的。這種non-local的匹配,可以看做將當前key,每個坐標上的C維特征,和歷史每一幀在這個坐標上的C維特征做匹配。匹配得到的結果,作為一個soft的index,去讀取歷史value的信息。讀取的特征和當前幀的value拼接起來,用于后續的猜測。
STM的特征匹配方式,提供了一種空間上的長依靠,類似于Transformer中,通過self-attention來做序列關聯。這種機制,能夠很好地處理物體運動、外觀變化、遮擋等。但也有一個問題,就是缺乏時序性,缺少短時依靠。當某一幀忽然出現和目標相似的物體時,簡單產生誤召回。在視頻場景中,很多情況下,當前幀臨近的幾幀,對當前幀的影響要大于更早的幀?;谶@一點,達摩院提出依靠前一幀結果,計算attention來約束當前幀目標猜測的位置,相當于對短期依靠的建模。
具體的方法如下圖所示:
下圖為空間attention的可視化結果,可以看到大致對應了前景的位置。
達摩院引入了語義分割中的感受野增強技術ASPP和精細化分割的微調(refinement)模塊。ASPP作用于memory讀取后的特征,用于融合不同感受野的信息,提升對不同尺度物體的處理能力。

達摩院提出了一個簡單但是有效的練習策略,減少了練習階段和測試階段存在的差異,提升了很終效果。
原始STM練習時,會隨機從視頻中采樣3幀。這三幀之間的跳幀間隔,隨著練習逐漸增大,目的是增強模型魯棒性。但達摩院發現,這樣會導致練習時和測試時不一致,因為測試時,是逐幀處理的。為此,在練習的很后階段,達摩院將跳幀間隔重新減小,以保證和測試時一致。
backbone:達摩院使用了ResNeST這個比較新的backbone,它可以無痛替換掉原STM的resnet。在結果上有比較明顯提升。
測試策略:達摩院使用了多尺度測試和modelensemble。不同尺度和不同model的結果,在很終猜測的map上,做了簡單的等權重平均。
顯存優化:達摩院做了一些顯存優化方面的工作,使得STM在多目標模式下,可以支持大尺度的練習、測試,以及支持較大的memory容量。
數據:練習數據上,達摩院使用了DAVIS、Youtube-VOS,以及STM原文用到的靜態圖像數據庫。沒有其他數據。
達摩院的模型,很終在test-challenge上取得了84.1的成績。
在test-dev上的消融實驗。達摩院復現的STM達到了和原文一致的結果。在各種trick的加持下,得到了11個點的提升。
隨著互聯網技術、5G技術等的發展,短視頻、視頻會議、直播的場景越來越多,視頻分割技術也將成為不可或缺的一環。比如,在視頻會議中,視頻分割可以正確區分前背景,從而對背景進行虛化或替換;在直播中,用戶只需要站在綠幕前,算法就實時替換背景,實現一秒鐘換新直播間;在視頻編輯領域,可以輔助進行后期制作。
Reference:

上一篇:淘寶pc端沒流量的原因
文章地址:http://www.brucezhang.com/article/online/8956.html