何止 Meta x Oakley,小米等十家 AI 拍攝眼鏡上新!下半年好看!

由「圖片」到「視頻」,澎思科技打破視頻行人再識別(ReID)技術三項世界紀錄
澎思科技一舉實現在三大數據集上實現算法關鍵指標首位命中率(Rank-1 Accuracy)大幅度提升,準確率均創歷史新高。
近日,據專注于計算機視覺和物聯網技術的澎思科技(Pensees)消息稱:在基于視頻的行人再識別數據集(PRID-2011,iLIDS-VID,MARS)中再次取得突破性進展,繼在三大主流單幀圖片行人再識別數據集(Market1501,DukeMTMC-reID,CUHK03)刷新世界紀錄后,一舉實現在三大數據集上實現算法關鍵指標首位命中率(Rank-1 Accuracy)大幅度提升,準確率均創歷史新高。

刷新三大數據集世界紀錄,實現算法關鍵指標大幅度提升
澎思科技此次一舉實現在三大數據庫上,僅利用原始數據就實現 Rank-1 Accuracy 關鍵指標大幅度提升。據澎思科技稱,其算法在最大的視頻數據集 MARS 上的首位命中率指標已經達到 88.8%,領先香港中文大學、中科大、北京大學等國內外知名機構。在 iLIDS-VID 和PRID-2011 等數據集上首位命中率也分別達到了 88.0% 和 95.5%。

立足現有業務,展開垂直領域技術研發和創新
就此成果,澎思科技表示主要源于澎思新加坡研究院對算法的自研創新和融合探索,并就幾項核心技術內容做了詳細表述:
1、采用分割重組策略將特定局部特征重組成多個視頻序列進行學習,減少局部特征損失對最終特征的影響。(因受遮擋、姿態變化、視角變化等因素的影響,視頻序列中行人的特征是不連續,用全局特征來度量每一幀圖片的權重往往會損失掉許多重要的信息。)
2、全新的雙向圖注意力機制模塊。將圖卷積神經網絡和 SENet 完美結合,在整個序列上進行通道域的模式選擇學習,同時通過雙向網絡進行空間域的注意力區域學習。由于圖卷積網絡的特性,每一幀圖片的注意力特征都是與其他幀相互學習結合的結果,從而極大提高特征的代表性。
3、利用幀間相似度進行序列融合。與大多數利用循環神經網絡進行融合算法相比,該技術不需要訓練額外的模型參數,僅通過數學計算的方式就可以達到融合的目的。在結合三元損失函數進行訓練后,類間相似度得到了降低,進而提高重識別效果。

基于視頻的行人再識別與單幀圖片的行人再識別任務目的是相同的,即在視角不重疊的多攝像機網絡下進行行人的匹配。盡管基于單幀圖片的行人再識別算法已經取得了不錯的進步,但由于單幀圖片只包含有限的行人信息,網絡提取的特征不具備足夠的代表性,檢測結果往往受圖片質量的影響較大。
與此相比,視頻序列的優勢便凸顯出來。一個短視頻序列往往包含行人多運動狀態下的更多特征,并且利用時序信息,可以將背景、遮擋等干擾因素的影響降到最低,提升識別的準確度。
加速AI技術落地,持續推進AI產業化落地進程
基于視頻的行人再識別(ReID)技術更貼近智慧城市建設的諸多應用場景,能有效解決行人信息有限、特征不足及其他干擾因素等問題,相比單幀圖片的行人再識別具備更長遠的落地應用空間。
接下來,澎思科技表示也將進一步加大在視頻行人再識別算法上的研究,并逐步將算法應用到平安城市、智慧社區、智慧園區、智慧零售、智慧交通等實戰應用場景中。