본문 바로가기

Kaggle, Dacon5

2024 자동차 데이터 분석 경진대회(프롬프트 엔지니어링) LLM을 배운 지 1개월 정도 됐는데 프롬프트 엔지니어링이 보통 어떤 식으로 이루어지는지 그리고 gpt api는 어떻게 사용하는지 궁금했을 때 이 필요에 딱 맞는 대회라 생각해 공부 겸 참여하였다. 프롬프트 엔지니어링 예제를 찾아봤을때 경진대회에서 사용되는 확실한, 구체적인 예는 많지 않았고 특히 한국어 게시물은 원하는 퀄리티의 예제가 없어 어떤 식으로 구성했는지 공유하고 싶어 이 글을 작성했다.예상독자LLM 입문자: 프롬프트 엔지니어링을 어떤식으로 진행하는지 예시를 알고 싶은 분들문제 정의 2024 자동차 데이터 분석 경진대회 - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.dacon.io 문제 자체는 정말 간단했다. 각 데이터에 일정한 길이의 문자열이 포함되어 .. 2024. 10. 19.
캐글 노트북에서 기존 터미널과 똑같이 split하기 이 글은 window or wsl에서 모델을 돌리면서 그 결과를 캐글에서 시각화하고 싶은 특이한 상황에 대처하기 위해 쓴 글이다.문제 상황모델을 풀로 학습시키면서 추가로 validation결과를 보고 싶어서 캐글에 기존 코드, 데이터를 전부 넣고 예측했는데 예측결과가 과하게 좋았다.확인해 보니 기존 valid set과 캐글에서 사용한 valid set의 라벨 비율, 그리고 dataset의 label 순서는 맞았지만 파일명 순서는 맞지 않았다. random seed, python version, numpy 같은 라이브러리 버전 등등 모두 확인했지만 문제는 없었고 투자한 시간에 대비 아무 성과가 없어 GPT와 스택오버 플로를 마구 뒤졌다.해결법놀랍게도 해결법은 어이없을 정도로 단순했다. 이번 코드에 과거 V.. 2024. 8. 26.
[Dacon]자율주행 센서의 안테나 성능 예측 AI 경진대회 LG에서 주관한 대회이며 공정을 통해 생산된 센서들의 성능을 예측하는 문제이다. 총 56개의 float형 특성으로 14개의 float형 라벨 값을 예측해야 한다. 난이도도 적절해 보였으며 지원자수가 많아 같은 학과의 친구와 참여하게 되었다. 14개의 라벨 값에 대한 RMSE에 가중치를 이용하여 하나의 수치로 만든 NRMSE를 비용 함수로 평가하였다. Method 초기에는 EDA, 이상치 제거 데이터 전처리를 중점적으로 진행하며 성능을 끌어올리려 했지만 도메인 지식이 부족하여 시간 투자에 비해 성능 향상이 눈에 띄지 않았다. 또한 팀원 모두 시간이 부족하여 각각 모델을 별도로 학습하여 모든 모델을 앙상블 하는 방식으로 진행하기로 하였다. 전체 코드가 방대하므로 중점이 되는 몇 가지 부분만 나열하여 보겠다... 2022. 8. 31.
[Kaggle] Natural Language Processing with Disaster Tweets 트윗 텍스트와 Nan값을 포함하고 있는 위치, 키워드 정보를 이용하여 재난과 관련된 내용인지 아닌지에 대한 간단한 이진 분류 문제이다. 자연어 처리에 관한 지식이 전무하다고 봐도 될 정도이기 때문에 자연어 모델과 테이블형 데이터 모델을 따로 만들어 소프트 보팅 방식을 통하여 진행하였다. Competition링크: https://www.kaggle.com/competitions/nlp-getting-started/submissions Natural Language Processing with Disaster Tweets | Kaggle www.kaggle.com 전체 코드 라이브러리 및 데이터 다운로드¶ In [2]: import pandas as pd import numpy as np import mat.. 2022. 6. 19.