2D Multi-Person Pose Estimation 의 두가지 접근법 (Top-down 접근법 vs. Bottom-up 접근법)
1. Top-down 접근법

- Human detection + single person pose estimation
- Make R-CNN이나 YOLO 같은 Object Detector를 Human Detector로 사용해서 사람의 바운딩 박스를 미리 얻는다.
- 바운딩 박스 얻으면 사람의 부분을 crop해서 Single-Person 인 것처럼 만들어준다.
- Single-Person마다 2D Single-Person Pose Estimation를 돌려서 각 사람마다 2D Pose를 얻는다.
- 각 사람의 2D pose를 원래 Image space로 transform 시켜서 최종적으로는 입력이미지 스페이스에서 모든 사람의 포즈를 얻게 되는 파이프라인이다.
- Bottom-up approach들보다 더 뛰어난 정확성 (MSCOCO val. AP 78 vs. 71)
- 최근 발표되고 있는 매우 정확한 human detection network
- Human detection에 실패하면 Single Person Pulse Estimation은 당연히 실패한다는 단점이 있다.
- Human pose estimation에 쓰이는 사람 입력 이미지가 고해상도 (256x256)
- 다양한 스케일을 가진 사람이미지를 다룰 필요는 없고 256x256 사이즈로 맞추기만 하면 된다.
- 에러는 대부분 몸통보다는 엔드포인트(손목/발목 등)에서 나오게 되는데, 원인이 손목과 발목은 작기 때문이다. 이때 이미지를 고해상도로 만들면, 어느정도 보장된 스케일로 만들면 더 잘 예측할 수 있다.
- Bottom-up apprach들 보다 비효율적
- 두 개의 분리 시스템 (Human detection + Pose Estimation)으로 진행되어야한다.
2. Bottom-up 접근법

- joint detection + grouping
- 어떤 사람의 joint인지는 신경쓰지 말고 joint detector를 사용해서 모든 joint를 예측한다.
- 이 후에 grouping 작업을 통해 사람별로 묶어준다
- Top-down approach들보다 낮은 정확성
- 저해상도에서 joint detection을 해야하기 때문이다.
- 여러 스케일을 가진 사람을 고려해야한다. (카메라에 가까운 사람은 매우 큰 스케일을 가지고, 먼 사람은 작은 스케일을 가짐)
- Human pose estimation에 쓰이는 사람 입력 이미지가 저해상도일 수 있음
- Top-down approach들보다 더 효율적
- 하나의 모델만 사용 가능
반응형
'Dev. > DL' 카테고리의 다른 글
[HUCV] Human Pose Estimation4 - Mask R-CNN (0) | 2024.05.03 |
---|---|
[학습 이슈] validation 정확도가 train 정확도보다 높은 경우 (1) | 2023.12.08 |
[ 용어 ] Softmax와 Negative Log-Likelihood (NLL) (0) | 2023.07.21 |
[CV] Object Detection (0) | 2023.03.06 |
[CV] Detectron2 모델 환경 설정 (0) | 2023.01.11 |