Transformer architecture1 [Paper review] Attention Is All You Need(Transformer, 2017) 이번에 리뷰할 논문은 자연어 처리를 시작으로 여러 가지 task에 적용가능한 Attention만을 사용하는 구조를 고안한 트랜스포머이다. 논문리뷰시 architecture쪽을 맡아 이 부분을 집중적으로 리뷰하겠다. Abstract 당시 통역 task는 encoder로 context vector로 만든 뒤 decoder를 이용해 이를 번역하는 과정이 메인이었으며 이에 Attention mechanism을 이용하여 추가적으로 여러 시퀀스의 hidden state에서 정보를 뽑거나 넣어주는 방식의 논문이 나오고 있었다. 하지만 Transformer는 RNN, CNN 구조 없이 오직 Attention mechanism만을 활용하여 연산을 병렬적으로 수행하게 되면서 기존 sota 모델들보다 더 적은 훈련시간 안에.. 2023. 3. 30. 이전 1 다음