본문 바로가기

Discussion2

[부스트캠프] Transformer 정리 멘토링에서 두번째로 Transformer를 리뷰했는데 논문을 리뷰하며 많은 의견을 나눴는데 개인적으로 어떤식으로 생각했는지 정리해보려 한다. Scaled Dot Product Attention 논문 리뷰글 에도 적어 놓았지만 Transfomer가 이전 RNN 계열 모델과 가장 큰 차이점 중 하나는 Self-Attention 구조이다. 기존에도 Attention mechanism은 자연어 처리 계열에서 디코더에 시간 정보를 넣어주기 위해 종종 사용되었다. 이전에는 디코더에서 인코더의 모든 타임스텝에 대한 attention score를 구하였지만 Transformer는 이를 matrix간의 연산으로 단 한번에 문장간의 유사성을 파악하게 하였다는 점에서 큰 차이점이 있다. 디코더가 시간 정보를 얻기 위하여 n.. 2023. 4. 25.
[부스트캠프] ResNet 정리 이전에도 ResNet을 리뷰하고 포스팅한적이 있었는데 처음 읽은 논문이라 너무 rough하게 읽기도 했고 이번에 팀원들과 다시 한번 리뷰하며 좋은 인사이트를 많이 얻어서 기록차 생각나는대로 적어보려한다. 구현시 간과했던점 ResNet을 구현도 해봤는데 간과했던 점도 몇가지 체크해보겠다. ReLU는 두번째 weight layer에서 적용하지 않고 잔차 이후에 적용하는게 official이다. 전체 구조에서 점선표시된 부분이 projection layer로 1x1 conv에 추가적으로 stride=2를 적용하여야한다. Why resnet works? 논문리뷰 글을 적을때마다 어째서 이 모델이 좋은지 간략히 설명해왔었는데 ResNet은 당시 도저히 말을 이해 못해서 이 부분을 스킵했던 기억이 있다. 그리고 이번.. 2023. 4. 6.