본문 바로가기
Kaggle, Dacon

[Kaggle] Natural Language Processing with Disaster Tweets

by Yonghip 2022. 6. 19.

트윗 텍스트와 Nan값을 포함하고 있는 위치, 키워드 정보를 이용하여 재난과 관련된 내용인지 아닌지에 대한 간단한 이진 분류 문제이다.

자연어 처리에 관한 지식이 전무하다고 봐도 될 정도이기 때문에 자연어 모델과 테이블형 데이터 모델을 따로 만들어 소프트 보팅 방식을 통하여 진행하였다.

 

Competition링크: https://www.kaggle.com/competitions/nlp-getting-started/submissions

 

Natural Language Processing with Disaster Tweets | Kaggle

 

www.kaggle.com

 

전체 코드


 


최종 점수로 72% 정도의 Accuracy를 얻었는데 상위 90% 정도의 낮은 등수이다. 자연어를 벡터화하거나 word embedding을 사용하여 추가적으로 점수를 높일 예정이다.

 

캐글 노트북 링크:https://www.kaggle.com/code/hykhhijk/soft-voting-using-lstm-and-random-forest/notebook

 

Soft voting using LSTM and Random Forest

Explore and run machine learning code with Kaggle Notebooks | Using data from Natural Language Processing with Disaster Tweets

www.kaggle.com