본문 바로가기

Paper review31

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows(2021) 리뷰 ViT의 등장 이후 이를 베이스로 다양한 형태의 variants가 쏟아져 나오기 시작했다. 이번에는 그중 가장 대표적으로 알려진 backbone 중 하나인 Swin Transformer에 대해 리뷰해 보겠다. Background이전까지는 Abstract, Introduction 등 논문의 진행을 그대로 따라갔는데 ViT base backbone 연구모델은 대게 흐름이 비슷하다고 느껴 이번 글에서는 주요한 부분만 빠르게 짚어보겠다. ViT는 JFT-300M을 pretrain해 IM1K에 대해 SOTA를 달성했다. 하지만 이는 pretrain에 한정된 이야기이고 ViT의 고질적 단점 이자 장점 low bias to image = concerate to general information으로 인해 IM1K p.. 2024. 9. 1.
Visual Prompt Tuning(2022) 리뷰 FAIR에서 저술한 논문이며 Vision도메인에 prompt를 적용시킨 논문이라 생각해 읽어보았는데 그보다는 LoRA와 같은 parameter efficient tuning이 메인이 되는 논문이었다. 최근에 모델 사이즈가 커지며 이 분야도 각광받고 있어서 그냥 계속 읽고 리뷰해 보았다.Abstract이 논문에서는 기존에 large scale transformer 모델들을 full fine-tuning(FF)를 통해 학습하는 것을 대체하는 Visual Prompt Tuning(VPT)를 제시한다. VPT는 llm의 발전에서 영향을 받았고 모델의 backbone을 freeze한채 1% 이하의 parameter를 추가로 학습하여 FF와 비견되는 성능을 보여주는 효율적인 방법론임을 시사한다. Introducti.. 2024. 6. 13.
Self-training with Noisy Student improves ImageNet classification(2020) 리뷰 ViT가 나온 뒤 현재는 ViT의 다양한 variants들이 CV도메인에서는 SOTA를 달성했다. 하지만 이전에는 CNN과 Noisy student training을 사용한 방법론이 SOTA의 대다수를 차지하고 있었는데 이번에는 그 방법론을 처음 제시간 논문을 리뷰해 보겠다. Abstract 이 논문은 labeled data가 풍부한 상황에도 적용가능한 semi supervised 학습법인 Noisy student training을 제안한다. 이 기법은 distillation시 student model을 teacher와 동일 혹은 큰 사이즈를 사용해 학습하며 student의 학습 시 noise를 더해주는데 저자는 이러한 부분에서 self-training 그리고 distillation의 아이디어를 활용했다.. 2024. 4. 9.
Training data-efficient image transformers& distillation through attention 리뷰(DeiT, 2021) MIM 방법론 중 대표격인 BeiT를 읽으며 큰 생각없이 동시에 읽었는데 이름빼고는 분야가 완전히 달랐다. 그렇지만 ViT에 ConvNet을 distillation하는 방법에 흥미도 생겼고 결과도 꽤 좋은것 같아 먼저 리뷰해보려한다. Abstract ViT는 고성능이지만 좋은 성능을 위해 많은 데이터 학습이 필요하다는 고질적인 문제점이 있다. 즉 ViT는 자원효율이 낮다고 볼 수 있다. 이 논문에서 저자는 오직 ImageNet만을 사용해 conv-free 모델을 학습시키는데 이를 위해 convnet의 정보를 transfer할 수 있는 token base distillation방법을 제안한다. Introduction Convnet에서 ViT로의 발전을 언급한 후 ViT의 단점인 적은 데이터셋에는 훈련이 잘.. 2024. 3. 6.