[CV] Object Detection

Classification : 이미지 자체를 판단하는 기술
Object Detection : Bounding Box 안에 있는 객체가 어떤 객체인지를 판별해주는 기술
Bounding Box(B-Box)란? 이미지 내에서 객체의 위치를 사각형 형태로 예측한 결과를 의미한다.
Image Segmentation : 이미지 단위가 아니라, 픽셀 단위로 객체를 탐지해서 보다 정교하게 객체의 범위를 나타내주기 때문에 Object Detection 기술보다는 조금 더 어려운 기술이라고 볼 수있다.

다시 말해, 이미지 내에 존재하는 여러 물체에 대해서 어떤 물체인지 분류해주고, Bounding Box를 통해 위치 정보도 나타내주는 기술이다.

이번에는 Instance Segmentation에 대해서 집중적으로 정리해보고자 한다.

Instance Segmentation으로 유명한 모델은 Mask R-CNN 이다.

Segmentation은 픽셀 단위로 Class를 분류해야하기 때문에 Detection 업무보다 정교한 Mask 위치 정보를 필요로 한다.
하나의 이미지에서 한번에 여러개의 Class를 예측한 기존 모델에 비해, Mask R-CNN은 Class별로 Mask를 생성하고 해당 Class에 대한 여부를 판단한다. -> 이 기술로 인해 겹쳐지는 Instance를 예측하는데 정확도가 높아진다.

1. 픽셀 위치 정보를 유지하기 위해 RoIAlign 기술을 사용한다.

2~3. 각각의 RoI Mask를 생성하고, 동시에 병렬적으로 Masking한 부분에 대해 클래스를 분류해준다.

4. Input 이미지와 동일한 이미지에 예측된 mask 값을 다른 색상으로 나타내주어 구분해준다.

IoU : 객체의 위치를 정확하게 검출했는지를 평가하는 것으로, 0 ~ 1 사이의 확률값으로 나타내준다.
- 겹치는 영역이 넓을수록 객체의 위치를 잘 검출했다고 볼 수 있음
Precision and Recall : IoU를 기반으로 계산된 지표이다.
- Precision은 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율을 의미한다.
- Recall은 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율을 의미한다.
-> 둘 다, 실제 True인 정답을 모델이 True라고 예측한 경우에 관심이 있지만, 바라보는 관점이 다르다고 이해할 수 있었다.
Precision은 모델의 관점에서, Recall은 실제 정답의 입장에서 True라고 맞춘 경우를 바라보고 있다.
- 두 개의 지표가 같이 높을수록 좋은 모델이지만, 대부분 Trade off 관계를 보여준다.
AP : Precision 과 Recall 지표 둘 다 고려하기 위해서 계산된 지표이다.
- Precision 과 Recall를 그래프로 그렸을 때의 면적 값이다.
- 각 Class별로 하나의 AP 값을 구할 수 있고, Precision 과 Recall 지표의 면적이기 때문에 두 지표를 모두 고려한 값이라고 볼 수 있다.

[HUCV] Human Pose Estimation4 - Mask R-CNN (0)	2024.05.03
[HUCV] Human Pose Estimation3 - 2D human pose estimation의 분류 (0)	2024.04.30
[학습 이슈] validation 정확도가 train 정확도보다 높은 경우 (1)	2023.12.08
[ 용어 ] Softmax와 Negative Log-Likelihood (NLL) (0)	2023.07.21
[CV] Detectron2 모델 환경 설정 (0)	2023.01.11

ylee._.