본문 바로가기
Dev./DL

[HUCV] Human Pose Estimation3 - 2D human pose estimation의 분류

by _YUJIN_ 2024. 4. 30.

2D Multi-Person Pose Estimation 의 두가지 접근법 (Top-down 접근법 vs. Bottom-up 접근법)

1. Top-down 접근법 

  • Human detection + single person pose estimation
  • Make R-CNN이나 YOLO 같은 Object Detector를 Human Detector로 사용해서 사람의 바운딩 박스를 미리 얻는다.
  • 바운딩 박스 얻으면 사람의 부분을 crop해서 Single-Person 인 것처럼 만들어준다. 
  • Single-Person마다 2D Single-Person Pose Estimation를 돌려서 각 사람마다 2D Pose를 얻는다.
  • 각 사람의 2D pose를 원래 Image space로 transform 시켜서 최종적으로는 입력이미지 스페이스에서 모든 사람의 포즈를 얻게 되는 파이프라인이다. 
  • Bottom-up approach들보다 더 뛰어난 정확성 (MSCOCO val. AP 78 vs. 71)
  • 최근 발표되고 있는 매우 정확한 human detection network
    • Human detection에 실패하면 Single Person Pulse Estimation은 당연히 실패한다는 단점이 있다.
  • Human pose estimation에 쓰이는 사람 입력 이미지가 고해상도 (256x256)
    • 다양한 스케일을 가진 사람이미지를 다룰 필요는 없고 256x256 사이즈로 맞추기만 하면 된다. 
    • 에러는 대부분 몸통보다는 엔드포인트(손목/발목 등)에서 나오게 되는데, 원인이 손목과 발목은 작기 때문이다. 이때 이미지를 고해상도로 만들면, 어느정도 보장된 스케일로 만들면 더 잘 예측할 수 있다. 
  • Bottom-up apprach들 보다 비효율적
    • 두 개의 분리 시스템 (Human detection + Pose Estimation)으로 진행되어야한다. 

 

2. Bottom-up 접근법 

  • joint detection + grouping
  • 어떤 사람의 joint인지는 신경쓰지 말고 joint detector를 사용해서 모든 joint를 예측한다. 
  • 이 후에 grouping 작업을 통해 사람별로 묶어준다
  • Top-down approach들보다 낮은 정확성
    • 저해상도에서 joint detection을 해야하기 때문이다. 
    • 여러 스케일을 가진 사람을 고려해야한다. (카메라에 가까운 사람은 매우 큰 스케일을 가지고, 먼 사람은 작은 스케일을 가짐)
  • Human pose estimation에 쓰이는 사람 입력 이미지가 저해상도일 수 있음 
  • Top-down approach들보다 더 효율적
    • 하나의 모델만 사용 가능

 

 

 

반응형