快速選刊、了解學術期刊級別、文章快速錄用和發表方案
關鍵詞:軌道交通;骨架識別;模式識別;城軌車站安全;乘客行為特征辨識;ST-GCN
作者:管洋;賈利民;陶思涵;豆飛
作者單位:北京交通大學;北京全路通信信號研究設計院集團有限公司;北京聯合大學
摘 要: 城市軌道交通領域傳統監控分析方法對視頻監控圖像(如摔倒、暈倒和打斗等異常行為識別)漏識率高、參 數調整復雜,且難以高效地應用于現實城軌車站監控場景,針對此問題,采用基于骨架模式識別的人體姿態特征 辨識框架,引入基于人體骨架的姿態估計技術,采用 Alpha Pose 模型對乘客姿態進行精確估計,并結合時空圖卷 積網絡(spatial temporal graph convolutional networks,ST-GCN)模型的方法,實現對城軌車站監控場景中異常行為 的辨識。在 COCO 數據集和 MPII 數據集上分別達到了 72.3 mAP 和 82.1 mAP 的效果,相比較于 OpenPose 模型 提升高達 17%,驗證了模型的有效性和實用性。結果表明,本文所提出的方法不僅提高了乘客行為的識別速度, 同時具備對復雜場景的適應能力,為城軌安全監控提供一種新的技術方案。
1 研究背景
隨著城市軌道交通的快速發展,確保乘客安全已 成為公共安全管理的重要部分。當前,視頻監控系統 作為安全管理的關鍵技術,在實時監控和異常行為識 別方面發揮著核心作用[1-2] 。盡管如此,目標檢測與異 常行為識別在復雜場景下仍面臨挑戰,特別是在高峰 時段和多種遮擋條件下的效果不佳,這主要是由于傳 統方法高度依賴于視頻質量和監控角度[3] 。傳統方法 在視頻監控圖像異常行為識別應用中效果不佳,存在 漏識率較高,且識別用時較長等問題[4] 。
目標檢測技術是視頻監控系統中的基礎,它涉及 在圖像中自動識別和定位人體等目標物。盡管傳統算法 如方向梯度直方圖(histogram of oriented gradient,HOG) 和基于部件的可變型模型(deformable part model,DPM) 在目標檢測方面取得了進展,但它們在遮擋和動態背 景下的應用效果有限[5] 。近年來,深度學習的興起帶 來了新的解決方案,如如基于區域的卷積神經網絡算 法(regions with CNN features,R-CNN) [6] 和 YOLO 算 法(you only look once) [7] ,它們通過學習大量數據提高 檢測的準確性和魯棒性[5] 。這些算法已廣泛應用于不 同場景的目標檢測任務中,但在城市軌道交通復雜環 境中的表現仍有待提升[1] 。
在異常行為識別領域,現有技術多依賴于復雜的 前處理和后處理技術。雖然基于深度學習的方法在一 些標準數據集上表現良好,但它們在實際應用中往往 因視角變化、遮擋和光照變化等問題而受限[8] 。例如, 劉雨萌等[3] 提出基于關鍵幀定位的人體異常行為識別 模型,通過篩選和提取視頻中的關鍵幀來提高識別效 率。然而,這些方法在處理高密度客流和復雜背景時, 仍存在一定的局限性[9] 。
人體骨架識別技術,特別是 Alpha Pose [10] 和 OpenPose [11] 等模型,通過提取人體關鍵點估計姿態,顯示了 在復雜環境下識別人體動作的巨大潛力。Alpha Pose [10] 模型采用區域多人姿態估計技術(regional multi-person pose estimation,RMPE),顯著提高了在復雜背景下的 識別準確率[5] 。這些技術能有效地從遮擋和動態背景 中識別出人體,為進一步的行為分析提供了基礎[11-12] 。 此外,通過結合時空圖卷積網絡(spatial-temporal graph convolutional network,ST-GCN)模型,進一步分析人 體動作的時空序列變化,進而提高異常行為的檢測精 度和效率。
現有的視頻分析技術中,行為識別算法已取得了 一定進展。例如,吳田等[9] 提出基于改進 ST-GCN 的 10 kV 帶電作業人員視頻異常行為識別方法,通過引 入通道注意力模塊提升了識別準確率。此外,章東平 等[8] 提出的基于多通道耦合的時空增強異常行為檢測 方法,通過引入時間增強模塊和空間增強模塊,從而 提高了特征提取的效果。
本研究基于城市軌道交通視頻監控系統,整合了 前沿的目標檢測與人體骨架識別技術,開發了一種高 效的異常行為識別系統。系統采用 Alpha Pose 模型提 取區域多人行為特征,結合時空圖卷積網絡(ST-GCN) 深度分析人體動作時空序列變化,能有效識別諸如 摔倒、暈倒及打斗等復雜監控場景中的異常行為。
2 基于 Alpha Pose 模型的乘客行為特征
提取 2.1 Alpha Pose 人體姿態估計模型 人體姿態估計是目前計算機視覺領域的一個重點 研究方向,其通過算法來對視頻或圖像中的人體進行 關鍵點位置的識別,從而進行姿態估計,被廣泛應用 于智能監控、動畫制作等領域。在多人姿態估計領域, 目前主要存在兩種框架,即自頂向下(top-down)和自底 向上(bottom-up)。
本文面向的場景是城軌車站,這類場景面臨著客 流聚集、遮擋嚴重等問題,因此應部署多視角監控, 覆蓋車站不同的區域,避免漏檢目標,同時使用高分 辨率設備,提升高密度人流中人體特征識別質量。綜 合考慮硬件設施資源和視頻分析框架對自底向上和自 頂向下方法的處理,可以得出以 Alpha Pose 人體姿態 估計模型為代表的自頂向下方法更適用于這類復雜場 景。因此,本文選擇 Alpha Pose 模型進行城軌車站內 的乘客行為特征提取。不同于其他模型,Alpha Pose 采用區域多人姿態估計框架(RMPE)代替單人姿態 估計框架(single-person pose estimation,SPPE),解 決了檢測框定位錯誤和姿態冗余的問題,有效提升 了算法的性能。RMPE 框架主要由對稱空間變化網絡 (symmetric spatiotemporal transformer networks,SSTN)、 姿態引導區域框生成器(pose-guided proposals genetrator, PGPG)和參數化非極大值抑制(parametric pose NMS, P-NMS)組成,如圖 1 所示。

第一個組成部分對稱空間變化網絡(SSTN)主要 用于解決檢測框定位錯誤的問題,由空間變換網絡 (spatial transformer networks,STN)和反向空間變換網 絡(spatial de-transformer networks,SDTN)兩部分組成, 如圖 2 所示,當檢測框質量較差時,利用空間變換重 新調整檢測框使目標人體位于檢測框的中心,優化檢 測效果。

PGPG 考慮應用環境以及人體在監控中被截斷 的可能性,根據不同人體姿態檢測器的分布生成額外 的檢測框用于 SSTN+SPPE 模塊的訓練,以此進行數 據增強,這種做法能夠大大提升姿態估計的準確度。 P-NMS 則使用新的姿態距離度量方法消除多余的 姿態,提高人體姿態估計的精度。
P-NMS 由置信度消 除和距離消除兩種消除標準組成,置信度消除是指置 信度相似的關節點,而距離消除則是指位置相近的關 節點,只要滿足二者之一即會被消除。消除過程如下: 以得分最高的姿態作為基準,消除與之相近的其他姿 態,直至剩下單一姿態為止。
基于上述改進點,Alpha Pose 作為一種自頂向下 的多人姿態估計模型,首次在 COCO 數據集上達到72.3 mAP,相對于運用自底向上框架的 OpenPose 模型 提高 17%,如表 1 所示。

此外,Alpha Pose 在 MPII 數據集上也表現優異, 達到 82.1 mAP,具有較高的精度和跟蹤速度,如表 2 所示。

2.2 數據集及關鍵點標注方案
本文選用 COCO 數據集進行 Alpha Pose人體姿態 估計模型的訓練。COCO 數據集是一個包含大規模圖 像、字幕和對象類別的數據集,主要用于對象檢測、 分割等任務[13] 。其中,COCO 數據集中的關鍵點標注 方案如圖 3 所示,對于每一個人體,都有 17 個關鍵點 數量,各個關鍵點代表的含義如表 3 所示。

3 基于 ST-GCN 的乘客行為特征識別
在運用Alpha Pose人體姿態估計模型提取出乘客 行為特征后,使用時空圖卷積網絡模型(ST-GCN)對乘 客行為特征進行識別,判斷其屬于哪一類行為動作。 圖 4 所示為 ST-GCN 的骨架序列時空圖,藍點表示 身體的關節,人體關節之間的連接根據人體自然構 造來定義,幀間邊根據視頻連續幀之間的相同關節 來連接。

ST-GCN 結構為堆疊時空塊的層次結構,其內部 由空間卷積(GCN)和時間卷積(TCN)組成。空間卷積模 塊具體實現公式為

式中,VG 為空間卷積的特征結果;Vin 為輸入的節點 特征向量矩陣;Ks為在空間維度上的卷積核;Ak為卷 積核內連接無向圖的相鄰矩陣;Wk為在訓練過程中可 學習權重矩陣;Dk 是度矩陣; k A是對原始鄰接矩陣 Ak 的變換處理,I 為單位矩陣; ij Dk 是度矩陣 Dk 中對 應元素的計算結果。
時間卷積模型(TCN)是基于空間卷積模塊的輸 出,引入時間維度的卷積(V,T),具體實現公式為

式中,VT 為時空卷積輸出特征,Cin 為輸入通道數;T 為時間維度。
圖 5 所示為 ST-GCN 網絡。基于 ST-GCN 網絡,使 用人體姿態估計算法對輸入的視頻序列進行姿態估 計,獲得關節點的坐標,其次以人體自然構造和時間 作為連接構建骨架序列時空圖,之后應用多層時空圖 卷積對其進行卷積,逐步生成更高層次的特征圖,最后運用標準 Softmax 分類器將其分類到相應的動作類 別,實現人體姿態的識別。

4 乘客行為特征辨識
4.1 數據集構建
常見的需要識別的乘客行為包括行走、坐立、站 立等正常行為,以及摔倒、暈倒、打架斗毆等對自身 及車站客流狀態危害較大的異常行為。
本文所使用的 ST-GCN 模型提供了預訓練權重, 為提高數據集的質量,使最終訓練得到的模型能夠更 好應用于城軌車站場景下,本文以北京地鐵西直門樞 紐站為場景面向城軌車站的乘客行為收集數據集,并 將其運用于預訓練模型的增量訓練中,以期得到更好的 模型效果。圖 6 展示了收集的城軌車站乘客行為數據集 的部分視頻圖像。經過篩選,本數據集共有 2 000 余 張視頻圖像投入最終訓練,數據集類別包含摔倒、暈倒、打架斗毆、行走、坐立、站立六種不同行為類別圖像 各 400 余張,其中摔倒、暈倒、打架斗毆為異常行為 數據,行走、坐立、站立為正常行為數據。在樣本預 處理階段,使用尺度不變特征變換(SIFT)特征匹配方 法,評估視頻圖像質量,過濾掉畸變的樣本數據。

4.2 模型訓練
本實驗通過 AutoDL 提供的環境進行訓練,CPU 為 12 vCPU Intel(R) Xeon(R) Platinum 8255C CPU @ 2.50 GHz,GPU 為 RTX 3090(24 GB)*1,內存為 43 GB, 操作系統為 ubuntu 20.04,開發語言為 Python 3.8,深 度學習框架為 Pytorch 1.11.0。
基于深度學習訓練平臺,將收集的城軌車站乘客 行為數據集投入模型的訓練中。隨機抽取數據集的 20%作為測試集,其余的 80%則作為訓練集。
模型訓練需要對數據預處理,首先基于 Excel 表 格逐幀對城軌車站乘客行為視頻圖像進行行為類別標 注,其次利用預先訓練好的 Alpha Pose 模型提取每幀 視頻圖像的人體骨骼關節的坐標,然后對所得人體骨 骼關節的坐標數據進行歸一化處理等,得到最終輸入 模型訓練的數據。
基于上述所得數據進行 ST-GCN 時空圖卷積網絡 模型的訓練,訓練參數的設置為批處理大小取值 32, 迭代輪數為 50,類目數為 6,學習率為 0.001。
在訓練過程中,選取 Adam 優化器進行神經網絡 模型參數的更新及優化,同時選取交叉熵作為損失函 數,判斷模型在樣本上的表現。Adam 優化器的更新方法為

式中,Δwt為第 t 步參數的更新量;α 為學習率;ε 為能 夠使分母穩定的系數;mt 為一階矩;vt 為二階矩,交 叉熵損失函數計算式為

式中,N 為樣本量;M 為類別數;yic為符號函數,當 樣本 i 的真實類別為 c 時則取 1,否則為 0;pic為樣本 i 屬于類別 c 的概率,機器學習函數處理中默認是自然 對數為底,因此常用 log 函數代表 ln 函數。
4.3 訓練結果分析
利用 plt函數繪制出訓練集和測試集的損失及精度 變化曲線,如圖 7 所示,訓練集的訓練效果較好,訓 練曲線能夠在短時間內較好地收斂;測試集的訓練曲線 有所波動,但在訓練約 10 輪后其損失及精度曲線也 均趨于平穩。最終在經過 50 輪訓練后,訓練集的精 度達到 99.66%,測試集的精度達到 99.49%,平均精度 達到 99.59%。

4.4 乘客行為特征辨識過程
在得到訓練好的模型后開始乘客行為特征的辨 識,具體過程如下:
1) 輸入城軌車站視頻采集裝備采集到的監控視 頻圖像。
2) 利用 Alpha Pose 人體姿態估計模型提取目標乘 客的人體骨架序列。
3) 利用 ST-GCN 時空圖卷積網絡模型對提取的人 體骨架序列進行分析,識別目標乘客的行為特征。
4) 輸出乘客行為特征辨識結果。
4.5 乘客行為特征辨識結果展示
運用Alpha Pose人體姿態估計模型提取目標乘客 人體骨架序列,再利用 ST-GCN 分析人體骨架序列,從 而識別出目標乘客的行為特征。基于視頻圖像的車站 乘客行為特征辨識結果如圖 8 所示,對于車站內乘客 的行為類別(如打架、躺倒、逗留和坐座等)均能較為 準確地識別。

5 結論
本研究利用人體骨架技術,通過 Alpha Pose 模型 精準地估計乘客的人體姿態,并結合 ST-GCN 模型深 入識別其行為特征,實現了視頻圖像中乘客行為類別 的準確判定。主要結論如下:
1) 通過對 Alpha Pose 多人姿態估計模型的若干改 進,在 COCO 數據集上具有 72.3 mAP,在 MPII 數據 集上具有 82.1 mAP 的較高精度和跟蹤速度。
2) 基于深度學習訓練平臺進行實驗,在 50 輪訓練 后,訓練集和測試集分別達到了 99.66%和 99.49%的高 精度,平均精度達到 99.59%。
3) 利用 ST-GCN 時空圖卷積網絡模型對提取出來 的人體骨架序列進行分析,識別目標乘客的行為特征, 能有效識別諸如摔倒、暈倒及打斗等復雜監控場景中 的異常行為,對于提升城軌車站的安全管理水平具有 顯著意義。未來,該技術有望在城市交通安全管理領 域發揮更加重要的作用。