Meta는 논문을 내면 그와 함께 데모사이트를 내는 경우가 많은데 위의 링크에서 예제를 사용해 본 뒤로 원리가 궁금해져 읽은 논문이다. Multimodal SOTA 같은 실용적인 목적이 아니라 여러 modality를 어떤 식으로 융합하는게 좋을지에 대한 실험적인 논문이라고 생각한다.(MultiModal 논문을 읽은 적이 없어 결과를 나열해도 impact를 못 느낀점도 있다)
Abstract&Introduction
이 논문은 6개의 다른 모달리티(images, text, audio, depth, thermal, IMU)에 대한 joint embedding을 생성하는 법을 제시한다.
논문 순서 그대로 중요한 부분만 요약하면 아래와 같다.
- 이미지는 한장만으로도 여러 감각을 떠올리게 할 수 있다. 저자는 이미지 데이터의 이러한 능력을 binding property라고 칭했다.
- 하지만 이러한 binding property를 가지는 모델을 학습하려면 여러 데이터 타입을 가진 데이터셋이 필요하고 이러한 데이터셋을 만드는 것 굉장히 cost가 높을 것이다.
- 근래 Multi Modal model 들은 대게 두 개 혹은 그 이상의 pair 데이터를 통해 학습하는데 이건 데이터셋도 비싸고 예측할 때도 그와 같은(2개 이상의) 모달리티를 필요로 한다.
- 이러한 문제점을 해결하기 위해 이 논문에서 IMAGEBIND를 소개한다. IMAGEBIND는 하나의 shared representation에 모든 모달리티 정보를 포함시킬 수 있다.
이 모델의 주요 contribution중 하나는 하나의 모델만으로도 여러 모달리티에 대한 데이터에 조금만 학습시켜도 좋은 성능을 얻을 수 있다는 것이다.
Method
Binding modalities with images
IMAGEBIND는 학습을 위해 image와 다른 modality의 데이터 pair(I,M)를 사용한다.
loss는 위와 같은 infoNCE loss를 사용하는데 query는 image, key는 다른 modality를 의미한다. 실제로는 (I,M)과 (M,I) 에 대한 loss를 더해서 훈련시켰다.
infoNCE loss는 contrastive learning에 사용되는 loss이며 positive pair를 가깝게 negative를 멀리 떨어트리는 loss라고 한다.
흥미로운 점은 이런 식으로 학습해도 image가 없는 두 개의 모달리티 (M_1, M_2)에 대해 zero으로도 좋은 성능을 보여준다. 실제로 당시 zero shot text-audio classification에서 SOTA를 달성했다.
Implementation Details
Encoder로는 모두 Transformer를 사용했으며 6개의 모달리티(images, text, audio, thermal images, depth images, and IMU) 각각 다른 encoder와 linear projection head를 사용했다.
Experiments
Emergent zero-shot vs. zero-shot.
기존에 사용되던 zero shot과는 다른 emergent zero shot이라는 task를 제시하는데 이는 같은 modality pair(CLIP에서는 “image ,text”)로 훈련하고 기존에 보지 못했던 샘플에 대한 예측을 하는게 아니라 기존에 보지 못했던 modality에 대해 평가하는 task를 의미한다.
데이터셋의 설명에 평가 시 그 modality에 대해 아예 훈련이 진행되지 않았다고 기재되어 있는 걸 확인할 수 있다.
Emergent zero-shot classification
기존 SOTA(fully finetuned with specific modality)에 비해서는 뛰어난 성능은 아니다.
기존 model architecture는 특정 modality pair를 사용한 학습이 없는 zero에서는 좋은 성능을 보이지 않지만 IMAGEBIND는 emergent zero shot으로도 zero shot보다 좋은 성능을 보여준다. 당연하게도? Supervised 보다는 낮은 성능을 보여준다.
Video에 대해서도 유사한 결과를 보여준다. 여기서는 아예 다른 modality(audio)로도 어느 정도의 성능을 보여주고 같은 modality(video+audio)를 사용했을 때는 기존보다 좋은 성능을 보여준다.
Few shot에서도 높은 성능을 보여준다.
Analysis and Applications
Multimodal embedding space arithmetic.
웹에서 데모를 사용해 보며 가장 궁금했던 부분이다.
마치 word embedding에서queen-woman=king이 되는 것과 같은 효과를 Multimodal에서 똑같이 사용할 수 있다는 것을 보여준다.
Upgrading text-based detectors to audio-based
CLIP base의 Detection model에서 [CLS] token대신 IMAGEBIND의 embedding을 사용해도 동작이 가능하며 기존 특정 prompt에 대한 모델들과 IMAGEBIND의 embedding을 사용하면 여러 모달리티에 쉽게 응용가능하다는 점을 보여주었다.
여러 Modality를 한 embedding space에 결합하는 연구 중 흥미가 있던건 CLIP정도밖에 없었고 실제로도 CLIP의 contrastive 방법론이 널리 쓰이는 줄 알았는데 IMAGEBIND는 이 개념을 아주 잘 응용한 논문 같았다.
논문을 읽으며 궁금한 점은 어째서 Image가 마치 base modality?의 역할을 했는지이다. 개념 자체는 신선했지만 이에 대한 설명으로 저자는 한 image로도 많은 modality에 대한 정보를 얻을 수 있다는 말로 빠르게 넘어갔는데 다른 modality를 base로 사용했을 때에 대한 비교가 없는건 조금 아쉬웠다.
Multi Modal에 대한 지식은 적어서 어려운 부분에 대한 설명이나 ablation 부분은 생략했다. 혹시 더 궁금한 분은 아래의 논문 혹은 데모 링크를 보기 바란다.