transformer3 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT, 2020) 리뷰 Transformer의 등장 이후 NLP 도메인에서는 이 구조를 활용한 논문이 쏟아져나왔고 GPT, BERT, ELMo등 이 구조를 성공적으로 활용한 다양한 논문 역시 등장하였다. 하지만 Vision분야에서도 이런 시도는 여럿 대부분 제한적으로 사용했으며 그 중에서 ViT는 Attention구조를 Vision분야에 성공적으로 적용시킨 최초의 시도 중 하나이며 지금도 CV를 다루는 사람들은 모를수가 없는 논문 중 하나이다. NLP분야에서는 Transformer가 등장한 2017년 이후 2018~2019년도에는 이를 변형한 모델들이 등장해 좋은 성적을 내 눈길을 끌었다. Transformer와 Attention구조가 그렇게 뛰어나다면 어째서 Vision분야에서는 이러한 모델이 등장하지 않는걸까? 저자는 논문.. 2023. 11. 29. [부스트캠프] Transformer 정리 멘토링에서 두번째로 Transformer를 리뷰했는데 논문을 리뷰하며 많은 의견을 나눴는데 개인적으로 어떤식으로 생각했는지 정리해보려 한다. Scaled Dot Product Attention 논문 리뷰글 에도 적어 놓았지만 Transfomer가 이전 RNN 계열 모델과 가장 큰 차이점 중 하나는 Self-Attention 구조이다. 기존에도 Attention mechanism은 자연어 처리 계열에서 디코더에 시간 정보를 넣어주기 위해 종종 사용되었다. 이전에는 디코더에서 인코더의 모든 타임스텝에 대한 attention score를 구하였지만 Transformer는 이를 matrix간의 연산으로 단 한번에 문장간의 유사성을 파악하게 하였다는 점에서 큰 차이점이 있다. 디코더가 시간 정보를 얻기 위하여 n.. 2023. 4. 25. [Paper review] Attention Is All You Need(Transformer, 2017) 이번에 리뷰할 논문은 자연어 처리를 시작으로 여러 가지 task에 적용가능한 Attention만을 사용하는 구조를 고안한 트랜스포머이다. 논문리뷰시 architecture쪽을 맡아 이 부분을 집중적으로 리뷰하겠다. Abstract 당시 통역 task는 encoder로 context vector로 만든 뒤 decoder를 이용해 이를 번역하는 과정이 메인이었으며 이에 Attention mechanism을 이용하여 추가적으로 여러 시퀀스의 hidden state에서 정보를 뽑거나 넣어주는 방식의 논문이 나오고 있었다. 하지만 Transformer는 RNN, CNN 구조 없이 오직 Attention mechanism만을 활용하여 연산을 병렬적으로 수행하게 되면서 기존 sota 모델들보다 더 적은 훈련시간 안에.. 2023. 3. 30. 이전 1 다음