Paper review28 ImageBind: One Embedding Space To Bind Them All(2023) 리뷰 ImageBind by Meta AIA multimodal model by Meta AIimagebind.metademolab.comMeta는 논문을 내면 그와 함께 데모사이트를 내는 경우가 많은데 위의 링크에서 예제를 사용해 본 뒤로 원리가 궁금해져 읽은 논문이다. Multimodal SOTA 같은 실용적인 목적이 아니라 여러 modality를 어떤 식으로 융합하는게 좋을지에 대한 실험적인 논문이라고 생각한다.(MultiModal 논문을 읽은 적이 없어 결과를 나열해도 impact를 못 느낀점도 있다)Abstract&Introduction이 논문은 6개의 다른 모달리티(images, text, audio, depth, thermal, IMU)에 대한 joint embedding을 생성하는 법을 제시한다.. 2024. 9. 29. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows(2021) 리뷰 ViT의 등장 이후 이를 베이스로 다양한 형태의 variants가 쏟아져 나오기 시작했다. 이번에는 그중 가장 대표적으로 알려진 backbone 중 하나인 Swin Transformer에 대해 리뷰해 보겠다. Background이전까지는 Abstract, Introduction 등 논문의 진행을 그대로 따라갔는데 ViT base backbone 연구모델은 대게 흐름이 비슷하다고 느껴 이번 글에서는 주요한 부분만 빠르게 짚어보겠다. ViT는 JFT-300M을 pretrain해 IM1K에 대해 SOTA를 달성했다. 하지만 이는 pretrain에 한정된 이야기이고 ViT의 고질적 단점 이자 장점 low bias to image = concerate to general information으로 인해 IM1K p.. 2024. 9. 1. Visual Prompt Tuning(2022) 리뷰 FAIR에서 저술한 논문이며 Vision도메인에 prompt를 적용시킨 논문이라 생각해 읽어보았는데 그보다는 LoRA와 같은 parameter efficient tuning이 메인이 되는 논문이었다. 최근에 모델 사이즈가 커지며 이 분야도 각광받고 있어서 그냥 계속 읽고 리뷰해 보았다.Abstract이 논문에서는 기존에 large scale transformer 모델들을 full fine-tuning(FF)를 통해 학습하는 것을 대체하는 Visual Prompt Tuning(VPT)를 제시한다. VPT는 llm의 발전에서 영향을 받았고 모델의 backbone을 freeze한채 1% 이하의 parameter를 추가로 학습하여 FF와 비견되는 성능을 보여주는 효율적인 방법론임을 시사한다. Introducti.. 2024. 6. 13. Self-training with Noisy Student improves ImageNet classification(2020) 리뷰 ViT가 나온 뒤 현재는 ViT의 다양한 variants들이 CV도메인에서는 SOTA를 달성했다. 하지만 이전에는 CNN과 Noisy student training을 사용한 방법론이 SOTA의 대다수를 차지하고 있었는데 이번에는 그 방법론을 처음 제시간 논문을 리뷰해 보겠다. Abstract 이 논문은 labeled data가 풍부한 상황에도 적용가능한 semi supervised 학습법인 Noisy student training을 제안한다. 이 기법은 distillation시 student model을 teacher와 동일 혹은 큰 사이즈를 사용해 학습하며 student의 학습 시 noise를 더해주는데 저자는 이러한 부분에서 self-training 그리고 distillation의 아이디어를 활용했다.. 2024. 4. 9. 이전 1 2 3 4 5 ··· 7 다음