본문 바로가기

전체 글63

Self-training with Noisy Student improves ImageNet classification(2020) 리뷰 ViT가 나온 뒤 현재는 ViT의 다양한 variants들이 CV도메인에서는 SOTA를 달성했다. 하지만 이전에는 CNN과 Noisy student training을 사용한 방법론이 SOTA의 대다수를 차지하고 있었는데 이번에는 그 방법론을 처음 제시간 논문을 리뷰해 보겠다. Abstract 이 논문은 labeled data가 풍부한 상황에도 적용가능한 semi supervised 학습법인 Noisy student training을 제안한다. 이 기법은 distillation시 student model을 teacher와 동일 혹은 큰 사이즈를 사용해 학습하며 student의 학습 시 noise를 더해주는데 저자는 이러한 부분에서 self-training 그리고 distillation의 아이디어를 활용했다.. 2024. 4. 9.
[백준] 2098번 외판원 순회 (Python) https://www.acmicpc.net/problem/2098 2098번: 외판원 순회 첫째 줄에 도시의 수 N이 주어진다. (2 ≤ N ≤ 16) 다음 N개의 줄에는 비용 행렬이 주어진다. 각 행렬의 성분은 1,000,000 이하의 양의 정수이며, 갈 수 없는 경우는 0이 주어진다. W[i][j]는 도시 i에서 j www.acmicpc.net 문제 외판원 순회 문제는 영어로 Traveling Salesman problem (TSP) 라고 불리는 문제로 computer science 분야에서 가장 중요하게 취급되는 문제 중 하나이다. 여러 가지 변종 문제가 있으나, 여기서는 가장 일반적인 형태의 문제를 살펴보자. 1번부터 N번까지 번호가 매겨져 있는 도시들이 있고, 도시들 사이에는 길이 있다. (길이.. 2024. 3. 13.
Training data-efficient image transformers& distillation through attention 리뷰(DeiT, 2021) MIM 방법론 중 대표격인 BeiT를 읽으며 큰 생각없이 동시에 읽었는데 이름빼고는 분야가 완전히 달랐다. 그렇지만 ViT에 ConvNet을 distillation하는 방법에 흥미도 생겼고 결과도 꽤 좋은것 같아 먼저 리뷰해보려한다. Abstract ViT는 고성능이지만 좋은 성능을 위해 많은 데이터 학습이 필요하다는 고질적인 문제점이 있다. 즉 ViT는 자원효율이 낮다고 볼 수 있다. 이 논문에서 저자는 오직 ImageNet만을 사용해 conv-free 모델을 학습시키는데 이를 위해 convnet의 정보를 transfer할 수 있는 token base distillation방법을 제안한다. Introduction Convnet에서 ViT로의 발전을 언급한 후 ViT의 단점인 적은 데이터셋에는 훈련이 잘.. 2024. 3. 6.
ViT구현(Pytorch) ViT를 읽고 Pytorch로 구현해보았다. 원본 코드는 jax로 구현되어 있기에 깃허브에서 star가 높은 레포를 참고해 진행하였다. dropout은 생략하고 구현했으니 주의! 참고한 레포 링크: https://github.com/lucidrains/vit-pytorch GitHub - lucidrains/vit-pytorch: Implementation of Vision Transformer, a simple way to achieve SOTA in vision classification wit Implementation of Vision Transformer, a simple way to achieve SOTA in vision classification with only a single trans.. 2024. 2. 6.
Masked Autoencoders Are Scalable Vision Learners(MAE, 2022) 리뷰 이전에 CL과 MIM의 비교 논문을 읽고 MIM에 흥미가 생겨 읽어본 논문이다. 다양한 MIM 논문 중 이를 고른 이유는 저자가 Kaiming he였다는 점이 한몫했던 것 같다. Abstract 초록에서는 이 논문의 방법론, 실험, contribution을 짧게 설명했다. 눈에 띄는 부분만 요약하면 아래와 같다. 1. Input image를 random하게 mask하고 복원하는 masked auto encoders 소개 2. Encoder와 decoder 구조를 사용하며 encoder는 mask token을 사용하지 않는 비대칭 구조 3. 훈련시간을 3배 이상 줄이며 기존 방법론과 유사하거나 더 좋은 성능을 보여줌. Introduction 하드웨어 발전으로 모델의 크기는 계속 커지나 그에 걸맞은 labe.. 2024. 1. 29.
What Do Self-Supervised Vision Transformers Learn?(2023) 리뷰 2023년 ICLR에 게재된 논문으로 Prescient Design, Genentech와 Naver AI Lab 소속이신 박남욱 님이 1저자로 저술한 논문이다. CL과 MIM의 속성을 실험을 통해 비교한 논문이고 대부분이 실험-분석의 반복으로 이루어져 있다. Abstract Self supervised learning(SSL)의 방법론 중 두 가지 Contrastive learning(CL)과 Masked image modeling(MIM)을 비교하는 실험을 여럿 진행하여 속성을 분석했으며 초록에서는 CL을 베이스로 짧게 요약해서 포인트를 짚어준다. CL이 MIM보다 global한 패턴 파악에 좋다 CL은 저주파 신호는 MIM은 고주파 신호를 주로 학습한다. CL은 출력 부분의 layer가 MIM은 입력.. 2024. 1. 23.
Learning Transferable Visual Models From Natural Language Supervision(CLIP, 2021)리뷰 part-2 이번에는 CLIP의 Experiments part에 대해 살펴보겠다. 크게 Zero-shot transfer과 Representation learning으로 구성되어 있다. Zero-shot Transfer Motivation 이 논문에서는 대게 사용하는 Representation learning보다는 Zero-shot transfer를 통해 model의 task learning성능을 측정하였다고 한다. Representation learning은 fine-tune, linear-probing과 같이 모델을 추가 학습시키는 것이고 Zero-shot transfer는 말 그대로 라벨 없이 성능을 측정하는 것을 의미한다. Using CLIP for zero-shot transfer part1에서 CLIP이 .. 2024. 1. 18.
Learning Transferable Visual Models From Natural Language Supervision(CLIP, 2021)리뷰 part-1 Contrasive Language-Image Pre-training(CLIP)은 openAI가 발표한 Constrative Learning을 사용해 Multimodal data의 representation을 학습하는 모델이다. Abstract 기존의 CV모델들은 제한된 라벨 출력을 가지는 문제(restricted label problem)을 가지고 있었다. 이는 모델의 사용성을 저하시키는데 간단한 예시로 기존에 알지 못한 새로운 class가 출현했을때 대처하지 못하는 경우가 있다. 저자는 이를 image에 대한 caption을 예측하는 pretrain방식을 사용해 해결하려했다. 이 방식을 통해 훈련된 CLIP은 여러 task에 zero-shot transfer가 가능하며 기존의 Fully supervi.. 2024. 1. 13.