본문 바로가기
Paper review

[Paper review] Rich feature hierarchies for accurate object detection and semantic segmentation(RCNN, 2014)

by Yonghip 2023. 5. 31.

부캠에서 detection 프로젝트를 진행하며 1주 만에 거의 15개쯤은 되는 detection 모델에 대해 공부했다.당연히 그 많은게 머리에 들어가지 않기에 중요한 것부터 하나씩 빠르게 읽어보고 정리 중이다.그중 첫 번째 논문은 RCNN이다.detection task에 딥러닝을 성공적으로 적용시킨 첫번째 논문이며 classification task의 AlexNet정도의 위상이라 보면 될 것 같다.

 

Abstract, Introduction

흐름은 대개의 논문들과 동일하다.

기존 detection task는 성능 향상에 어려움을 겪고 있었으며 저자는 CNN구조를 detection task에 적용해 큰 성능 향상을 이루었으며 그 적용방식에 대해 이야기한다.

 

CNN을 detection task에 적용하기 위해서 2가지의 문제를 고려해야 했다.

 

1. 물체의 위치 찾기

기존의 CNN은 물체가 이미지에서 일정 크기 이상이어야만 분류하고 위치를 찾는 것이 가능했다.이를 위해서는 먼저 객체를 찾아주는 알고리즘이 필요하고 대표적으로는 sliding window방식이 있다.CNN을 sliding window방식을 이용해 객체를 찾아내는 과정은 굉장히 비효율적이다.따라서 저자는 Selective search기법을 이용해 이를 해결하였다.

 

2. 적은 데이터양

저자는 이를 ImageNet데이터에 pre-training한 모델을 사용하였다고 말했는데

이는 다른 task에서도 자주 쓰이는 기법이므로 중점적으로 다루지는 않겠다.

 

Object detection with RCNN

RCNN은 detection을 크게 3가지 모듈에서 실행한다.

 

 

1. Selective search를 통한 객체 검출

2. CNN을 통한 feature vector 생성

3. SVM을 이용한 분류 및 bbox regression

 

Selective search

 

 

논문에서 제안한 Selective search 알고리즘의 flow는 다음과 같다.

 

1. Image를 rule base방식으로 segmentation한다.

2. 비슷한 영역끼리 greedy하게 통합한다.

3. 2000개의 영역이 될 때까지 반복한 다음 2000개의 ROI를 return한다. 

 

 

이 ROI들을 pretrained AlexNet에 각자 넣어 4096개의 feature vector를 반환하며 이후 SVM과 bbox regression의 입력값으로 사용한다.

 

Train은 이미 Ground truth를 가지고 있으므로 이 과정은 Test과정에서만 포함된다. 

 

이 이후 부분이 전부 결과에 대한 검증 혹은 Ablation study라서 빠르게 훑었는데 논문에서 말한 것 이상의 insight를 주거나 키워드를 압축하는 것도 못할 것 같아 빠르게 마치겠다.

 

Insight

RCNN은 사실 selective search만 중점적으로 다루고 다른 부분은 소홀히 넘긴 감이 없지 않아 있는데 이번에 논문을 자세히 읽어보니 위의 부분뿐만 아니라 이해하기 어렵고 복잡한 개념이 여럿 합쳐진 결과라는 것을 깨달았다.

 

개인적으로 조금 흥미가 있었던 부분은 이제는 범용적으로 사용하는 사전학습 모델 가중치 사용 & fine tuning이라는 개념이 정립되지 않은 시기에 이 논문을 썼고 저자는 selective search보다는 이 부분을 매우 강조한다.

 

저자의 insight에 감탄했으며 자신의 결과에 대해 설득하기 위하여 다양한 방식으로 검증했을 뿐만 아니라

상세한 method까지 전부 뒤에 각주로 달아 놓았다.

 

물론 이번에는 빠르게 훑긴 했지만... detection task에 관심이 있다면 꼭 읽어봐야 할 부분이라 생각한다.

 


 

최신 모델을 다루면서 점점 다양한 모델과 방법론을 동시에 배우게 되는것 같은데 부캠을 하며 시간이 남아나질 않기 때문에 이제는 논문을 훑어보지도 않고 빠르게 넘겨버리는 것들이 더 많아 아쉬울 뿐이다. 

 

 

출처: https://m.blog.naver.com/laonple/220918802749

https://arxiv.org/abs/1311.2524