본문 바로가기

분류 전체보기90

2024년 빅분기 실기 합격 후기, 1주 공부법(전공자 기준) 23년도에는 3파트를 손대 못 대고 광탈했었는데 취업 후 빅분기 9회에 재도전해서 다행히 합격했다.  빅분기는 다른 IT 도메인 자격증들 중에 시행 횟수가 꽤 적은 편인데 1년에 두 번 밖에 시행하지 않는다. 그래서 그런지 문제유형도 고정적이지 않고 시중에 풀린 문제도 많지 않다. 이번에는 전공자를 기준으로 내가 어떤 컨텐츠로 공부했는지 적어보려고 한다. 필자는 numpy, pandas 같은 데이터 전처리, ML 라이브러리는 원활히 사용할 줄 알고 3유형에 나오는 통계 문제들은 개념조차 모르는 상태에서 공부를 시작했다. 물론 전공자이므로 책은 구매하지 않겠다는 전제를 깔고 들어갔다.(최근 3유형 문제들이 어느 정도 정형화돼서 귀찮으면 책 하나 떼는 것도 좋은 선택 같다)학습컨텐츠 정리 Kim Tae He.. 2024. 12. 24.
Toward Optimal Search and Retrieval for RAG(2024) 리뷰 Abstract&IntroductionRAG 성능은 크게 두 가지에 의존한다. 바로 query로부터 정보를 retrieval하는 retriever와 이를 이용해 문장을 생성하는 reader인데, 이 논문에서는 RAG에서 retriever의 성능을 어떤 식으로 최적화시켜야 할지 여러 실험을 통해 보여준다. 먼저 저자는 이 논문에서 retriever만의 contribution을 측정하기 위해 LLM의 tuning을 진행하지 않는다는 점을 먼저 언급했다. 구리고 보편적인 QA와 attributed QA task에 RAG 성능 평가를 진행했다는데 여기서 attributed QA란 LLM이 생성 시 어떤 document를 참고했는지 언급하는 task를 말한다.Experiment setupLLM instructio.. 2024. 12. 3.
[Langchain] FAISS에서 cosine similarity 사용하기 기존에 구현했던 RAG 성능을 개선하는 PoC 느낌의 업무를 받아서 처음부터 db나 chunker를 새로 모색하기보다는 기존에 사용한 라이브러리를 그대로 사용했다. chunk, retrieval 쪽은 대게 langchain+FAISS로 구현되어 있었는데 retrieval 성능이 어떻게 해도 좋아지지 않아서 이것저것 찾아봤는데 점수 쪽에서 뭔가 이상하다고 느꼈다.FAISS로 vector DB를 만들 때 보통 vectorDB.from_documents( )를 사용했는데 이를 이용한 similarity_search는 L2 거리 기반임을 알 수 있었다. vector 거리 비교에 cosine similarity를 사용하지 않아 성능이 낮은 것이라 판단했다.그렇다고 다른 라이브러리나 벡터 db를 쓰기에는 관련 지식.. 2024. 11. 25.
Dense Passage Retrieval for Open-Domain Question Answering(2020) 리뷰 RAG 업무를 맡으며 팀원이 추천해 준 논문인데 저자의 기법보다는 전반적으로 task의 흐름에 대해 잘 설명해 줘서 주의 깊게 읽은 논문이다.  RAG 성능을 끌어올리기 위한 새로운 기법을 알고싶은 분들보다는  LLM 시대 이전의 전반적인 ODQA가 어떤 식으로 이루어졌는지 상세한 과정을 알고 싶은 사람들은 한 번쯤 읽어보면 좋을것 같다.Abstract & Introduction이 논문에서 저자는 기존의 sparse한 retrieval 방법론들(TF-IDF, BM25)보다 뛰어난 성능을 보여주는 dense representation을 통한 retrieval 방법론을 제시한다. 당시의 Open-domain question answering(ODQA)는 크게 두 가지 모듈의 성능에 좌우되었다.Retrieve.. 2024. 11. 16.