본문 바로가기

전체 글90

What Do Self-Supervised Vision Transformers Learn?(2023) 리뷰 2023년 ICLR에 게재된 논문으로 Prescient Design, Genentech와 Naver AI Lab 소속이신 박남욱 님이 1저자로 저술한 논문이다. CL과 MIM의 속성을 실험을 통해 비교한 논문이고 대부분이 실험-분석의 반복으로 이루어져 있다. Abstract Self supervised learning(SSL)의 방법론 중 두 가지 Contrastive learning(CL)과 Masked image modeling(MIM)을 비교하는 실험을 여럿 진행하여 속성을 분석했으며 초록에서는 CL을 베이스로 짧게 요약해서 포인트를 짚어준다. CL이 MIM보다 global한 패턴 파악에 좋다 CL은 저주파 신호는 MIM은 고주파 신호를 주로 학습한다. CL은 출력 부분의 layer가 MIM은 입력.. 2024. 1. 23.
Learning Transferable Visual Models From Natural Language Supervision(CLIP, 2021)리뷰 part-2 이번에는 CLIP의 Experiments part에 대해 살펴보겠다. 크게 Zero-shot transfer과 Representation learning으로 구성되어 있다. Zero-shot Transfer Motivation 이 논문에서는 대게 사용하는 Representation learning보다는 Zero-shot transfer를 통해 model의 task learning성능을 측정하였다고 한다. Representation learning은 fine-tune, linear-probing과 같이 모델을 추가 학습시키는 것이고 Zero-shot transfer는 말 그대로 라벨 없이 성능을 측정하는 것을 의미한다. Using CLIP for zero-shot transfer part1에서 CLIP이 .. 2024. 1. 18.
Learning Transferable Visual Models From Natural Language Supervision(CLIP, 2021)리뷰 part-1 Contrastive learning Language-Image Pre-training(CLIP)은 openAI가 발표한 Constrative Learning을 사용해 Multimodal data의 representation을 학습하는 모델이다. Abstract기존의 CV모델들은 제한된 라벨 출력을 가지는 문제(restricted label problem)을 가지고 있었다. 이는 모델의 사용성을 저하시키는데 간단한 예시로 기존에 알지 못한 새로운 class가 출현했을때 대처하지 못하는 경우가 있다.  저자는 이를 image에 대한 caption을 예측하는 pretrain방식을 사용해 해결하려했다. 이 방식을 통해 훈련된 CLIP은 여러 task에 zero-shot transfer가 가능하며 기존의 Ful.. 2024. 1. 13.
Learning to Compare Relation Network for Few-Shot Learning(RelationNet, 2018) 리뷰 Few shot learning 서베이 논문 중 episode training부분이 이해가 잘 안됐다. 확실히 이해하기 위해 이 테크닉을 사용하는 논문 중 그나마 짧고 쉬워 보이는 RelationNet을 읽어보았다. 기존 episode training모델들과 구현상에 큰 차이는 없으며 RelationNet보다는 episode training에 조금 더 중점적으로 리뷰해보겠다. Abstract & Introduction Abstract에서는 이 논문에는 contribution을 크게 두 가지로 서술한다. end-to-end 학습이 가능 Few-shot learning과 Zero-shot learning에서 기존에 비해 높은 성능 달성 이후 이 논문에서 사용한 episode training방법에 대해 간략히.. 2024. 1. 6.
GAN구현(Pytorch) 논문을 읽을때는 구현이 어려워 보이지는 않았었다. 자세한 구현내용은 깃허브 링크로 대체했는데 모델이 Theano로 구현돼 있었고 논문이 나온 후 GAN의 아키텍처가 많이 발전돼서 정확히 논문 그대로의 예제를 찾기 어려웠다. 그러다 보니 구현 중에 다양한 예제를 참고했으며 이것저것 시도해 보니 데이터셋이 쉬워서 그런지 어떤 방식으로도 생성엔 문제가 없는 것 같다. Maxout을 사용한 이 레포의 모델을 많이 참고했다. Generator class Generator(nn.Module): def __init__(self, input_dim=100, output_dim = 784): super(Generator, self).__init__() self.input_dim = input_dim self.output.. 2023. 12. 22.
Generative Adversarial Nets(GAN, 2014) 리뷰 이번에는 생성모델의 시초라고도 볼 수 있는 GAN을 리뷰해 보겠다. 대게 이런 특정 task의 시초가 되는 논문은 장황한 수식과 설명이 함께 있는 경우가 많은데 이 논문은 상대적으로 길이는 짧은 편인 것 같다. 모델 아키텍쳐에 관한 설명이 간단하여 이에 대해 골머리를 썩일 필요도 없는데 이 논문의 가장 중요한 파트인 Loss function의 증명 부분이 유난히 이해하기 어려웠다. 물론 워낙 유명해서 관련 자료가 많아 이해정도는 쉽게 가능하다. Abstract & Introduction 이 당시만해도 딥러닝에 추가적인 기법을 이용해 생성을 시도하는 논문이 있었으며 저자는 이 방법이 생성에 그다지 유리하지 않다고 생각해 추가적인 생성 모델을 제작했다고 한다. 데이터의 분포를 찾는 Generator mode.. 2023. 12. 20.
A Closer Look at Few-shot Classification(2019) 리뷰 하반기 취준에 패배하고 대학원에 입학하고자 여러 분야의 논문을 가림 없이 읽고 있다. 그중 Few Shot Learning은 간간히 듣던 연구 주제라 개념을 잡기 위해 먼저 대표적인 Survey논문을 하나 읽고 리뷰해보려 한다. Abstract & Introduction Few-shot classification의 정의: 제한된 라벨의 데이터만을 사용하여 훈련시킨뒤 훈련 중에 보지 못한 라벨에 대해 분류하는 분류기를 만드는 것 저자는 논문에서 크게 세가지를 제안한다. 더 깊은 backbone이 도메인 차이가 크지 않은 데이터 간에 성능차이를 확연히 줄인다. few-shot데이터셋들에 대해 기존 SOTA보다 성능이 높은 baseline++을 제안 FSL의 시나리오에 더 적합한 평가지표 소개 도입부에서는 기.. 2023. 12. 15.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT, 2020) 리뷰 Transformer의 등장 이후 NLP 도메인에서는 이 구조를 활용한 논문이 쏟아져나왔고 GPT, BERT, ELMo등 이 구조를 성공적으로 활용한 다양한 논문 역시 등장하였다. 하지만 Vision분야에서도 이런 시도는 여럿 대부분 제한적으로 사용했으며 그 중에서 ViT는 Attention구조를 Vision분야에 성공적으로 적용시킨 최초의 시도 중 하나이며 지금도 CV를 다루는 사람들은 모를수가 없는 논문 중 하나이다. NLP분야에서는 Transformer가 등장한 2017년 이후 2018~2019년도에는 이를 변형한 모델들이 등장해 좋은 성적을 내 눈길을 끌었다. Transformer와 Attention구조가 그렇게 뛰어나다면 어째서 Vision분야에서는 이러한 모델이 등장하지 않는걸까? 저자는 논문.. 2023. 11. 29.