Abstract
사용자 행동 인식(HAR)은 컴퓨터 비전과 패턴 인식 분야에서 중요한 연구 분야로, 최근 보안 강화와 AI 기반 시스템의 필요성이 증가함에 따라 그 중요성이 더욱 강조되고 있다. HAR 인식은 성능 향상과 연산량 감소 등 해결해야 할 과제가 있지만, 본 논문에서는 MobileNetV2를 활용한 전이 학습을 통해 특징을 추출하고, 딥러닝 기반의 Deep BiLSTM 모델을 사용하여 예측 성능을 향상시켰다. UCF11, UCF Sport, JHMDB 벤치마크 데이터셋에서 각각 99.20%, 93.3%, 76.30%의 높은 정확도를 기록하여 모델의 성능을 입증하였다.
Introduction
HAR은 다양한 분야에서 중요한 역할을 하며, 실시간 데이터 스트림을 이용한 HAR은 이상 행동을 감지하는 데에 유용하다. 비디오 데이터를 통한 동작 분석에서 단일 프레임만으로는 정확한 동작을 추론할 수 없으며, 연속된 프레임에서 신체의 움직임과 환경과의 상호작용을 통해 동작을 추론한다. 비정상성 데이터를 다룰 때는 새로운 데이터가 입력될 경우 모델의 성능이 저하되는 현상이 발생하는데, 이를 해결하기 위해 최적화 기법 도입, 가중치를 적용한 OC-SVM 수정, 나이브 베이즈 분류기의 가중치 조정 등을 포함한 앙상블 기법이 여러 차례 시도되었다.
HAR에서 해결해야 할 주요 문제는 고차원 특징, 시점 변화, 모션, 혼잡한 배경, 물체 가림, 조명 변화 등이 있으며, 최근에는 성능 향상을 위해 CNN 기반 방법, 전이 학습, 트랜스포머 등의 다양한 기술이 활용되고 있으나, 시공간 정보를 적절히 활용하지 못해 UCF Sport나 JHMDB 벤치마크 데이터셋 등 일부 데이터셋에서는 여전히 낮은 성능을 보인다. 본 논문에서는 MobileNetV2와 Deep BiLSTM을 활용하여 특징을 추출하고 이를 정제하는 방법을 제시한다.
- 특성 추출: MobileNetV2를 사용해 복잡한 패턴을 효과적으로 추출하고, 모델에 충분한 입력을 제공해 인식 능력을 향상시킨다.
- 특성 정제 및 분류: Deep BiLSTM 모델을 사용해 추출된 특성을 정제하고, 시간적 의존성을 고려해 분류의 정확도를 높인다.
- 실험: UCF11, UCF Sport, JHMDB 데이터셋을 활용해 모델의 효과를 검증하고, 입력이 실시간으로 주어질 때도 높은 정확도를 보임을 입증한다.
Related Work
초기에는 handcrafted features 추출 → 특정 알고리즘을 이용한 특징 인코딩 → 기계 학습 알고리즘을 통한 특정 분류의 단계를 거쳤다. 특징을 추출하는 과정에서는 지역 기반 특징 추출 방법과 전역 기반 특징 추출 방법 두 가지가 사용되었다.
- 지역 기반 특징 추출: 학습된 단서와 일치하는 독립적인 패치, 관심 지점, 제스처 정보를 특징으로 설명한다.
- 전역 기반 특징 추출: 사물이 있을 법한 곳에 집중하며, 주로 배경 제거 및 추적 기법을 사용한다.
handcrafted feature를 더욱 효과적으로 추출하기 위해 VLAD나 BOW와 같은 기법을 사용하여 동작 인식의 정확도를 높이기도 했다. 그러나 이러한 방식은 특정 동작 인식에 최적화되어 있어, 범용적인 동작 인식에는 적합하지 않았다. 이를 보완하기 위해 키프레임 기반 방식을 채택하기도 했다.
딥러닝이 도입되면서, 고수준의 시각적 특징을 학습하고 이를 효과적으로 표현할 수 있게 되었다. 특히 CNN (Convolution Neural Network)을 이용해 매개변수를 동적으로 조정하고, 합성곱 연산을 통해 특징을 효율적으로 학습할 수 있게 되었다. 그러나 CNN은 2D 데이터에서는 뛰어난 성능을 보였지만, 3D 데이터를 처리할 때 성능이 저하된다는 단점이 있었다. 이를 해결하기 위해 일부 연구자들은 3D 필터를 사용하는 방법을 도입했으며, 3D 필터를 통해 기존 2D CNN의 한계를 극복하고, CNN이 다양한 시각적 데이터를 효과적으로 처리할 수 있음을 입증하였다.
이 외에도 동작 인식을 위해 비디오를 RGB 이미지와 Optical Flow 이미지로 나누어 동작을 추론하는 two-stream 기법이나 ViT (Visual Transformer)와 Recurrent Transformer 신경망을 결합한 ViT-ReT 기법이 사용되기도 했다. 위의 방식들은 짧은 시간 동안의 동작 인식에는 효과적이지만, 긴 시간 동안의 동작 인식에는 한계를 보인다. 이를 보완하기 위해 RNN (Recurrent Neural Network) 의 상위 호환인 LSTM (Long Short-Term Memory)을 활용한다.
Proposed Method

본 논문에서는 비디오를 데이터 프레임으로 변환한 후, 이를 차례대로 MobileNetV2와 Deep BiLSTM에 입력하여 특징을 추출하고 분류한 뒤, 모델 훈련을 진행하였다. MobileNetV2의 주요 강점은 각 픽셀 값이 모든 뉴런과 상호작용할 수 있는 조밀한 연결을 효과적으로 처리하는 능력에 있으며, 이는 행동 인식 작업에서 모델 성능을 유지하는 데 중요한 역할을 한다. MobileNetV2은 합성곱, 3×3 MaxPooling 필터, 배치 정규화, 드롭아웃 레이어 등을 활용해 특징을 최적화하고, Flatten 레이어를 통해 다차원 행렬을 1차원으로 변환하여 Dense 레이어에서 효과적으로 활용할 수 있도록 한다. 또한, ReLU 및 SoftMax Activation을 통해 계산 효율성과 예측 정확도를 향상시킬 수 있었다. MobileNetV2로 특징을 추출한 뒤, 장기적인 시간적 의존성을 효과적으로 포착할 수 있는 Deep BiLSTM 모델을 이용해 이를 분류하였다.

MobileNetV2를 활용한 특징 추출: MobileNetV2는 가볍고 지연이 적으며 에너지 효율적인 CNN 모델로, 임베디드 시스템이나 NPU 환경에서 신경망을 효과적으로 활용할 수 있도록 설계되었다. 선형 병목(linear bottleneck)과 스킵 연결(skip connection)을 도입하여 정확도를 향상시켰으며, LSTM 모델과 결합해 SoftMax 유닛을 대체한다. MobileNetV2는 Inverted Residual 블록을 중심으로 구성되며, depthwise 및 pointwise 합성곱 레이어로 이루어져 있다. ReLU-6 활성화 함수는 연산량을 줄이면서도 모델 성능을 유지하는 데 중요한 역할을 한다.
초기 3 × 3 컨볼루션 레이어를 사용해 특징 추출과 정보 aggregation을 위한 global average pooling을 한 뒤, Dense 레이어를 이용해 분류 확률을 생성한다.

Deep BiLSTM을 통한 분류: MobileNetV2만으로는 HAR의 특징을 충분히 추출할 수 없기 때문에, LSTM 아키텍쳐를 도입한다. RNN은 시계열 데이터를 다루는 데에 효율적이지만 폭발적 기울기 문제를 완화하는 데 한계가 있기에, BiLSTM의 확장 버전인 Deep BiLSTM을 통해 이를 해결한다. Deep BiLSTM은 LSTM과 마찬가지로 입력, 망각, 출력 게이트를 통해 작동하며, 과거의 데이터만을 기반으로 예측하는 LSTM과 달리, 전방향과 후방향 LSTM 유닛을 결합해 더 많은 데이터를 활용할 수 있다.
Experimental Evolution and Performances

Conclusions
사전 훈련된 MobileNetV2 CNN 모델을 이용한 전이 학습과 딥러닝 기반의 Deep BiLSTM 모델을 도입함으로써, 기존 데이터셋의 정확도를 약 3~5%p 향상시킬 수 있었다.

논문 중간 부분에 MobileNetV2는 임베디드나 NPU에서도 동작할 수 있는 경량화 모델이라는 언급이 있었는데, 특징 추출 이후 분류에 사용되는 Deep BiLSTM은 연산량과 메모리 사용량이 많아, 논문에서 사용한 기법을 NPU에 그대로 올려서 쓰기엔 어려움이 있지 않을까라는 생각을 하긴 했었다.
Deep BiLSTM 대신 GRU를 도입한다면, NPU 환경에서도 동작하지 않을까?라는 생각도 해보긴 했지만, 이 논문에선 GRU에 대한 언급이 없고 (이 논문은 경량화에 초점을 둔 게 아니고 성능 향상이 주 목적이기 때문에...), 지금 당장 모델 경량화에 대한 지식이 그리 많지 않아 확신이 들진 않는다. 기회가 된다면, 이와 관련된 논문을 찾아본 뒤, 다시 논문 리뷰하는 시간을 가져보는 것이 좋을 것 같다.
