본문 바로가기

NLP3

Transformers[1] 0.GPU 지정아래처럼 쓰는 이유는 python에서 device설정할때 인자로 넘기는 것보다 이게 더 확실하고 편해서그리고 device_map: "auto" 와 조합해서 모두 커버 가능해서import osos.environ["CUDA_VISIBLE_DEVICES"] = "0" # "0"을 원하는 GPU 인덱스로 변경1.AutoClass 불러오기from transformers import AutoTokenizer, AutoModelForSequenceClassification, AutoModelForMaskedLMtokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-cased")model = AutoModelForSequenceClassifi.. 2024. 9. 24.
NLP_2 Chapter12Tagging대표적인 태깅 taskNER(개체명 인식): 단어가 사람, 장소, 단체인지 유형 확인POS tagging(품사 태깅): 말 그래도 명상, 동사 형용사 등 품사 확인태깅을 위해서 X의 길이에 맞게 y를 만들어야 하고 이를 시퀀스 라벨링이라고함BIO 표현: 개체명 표현같은거에서 Begin, In, Out을 의미하는듯 각각 시작, 속함, 아무것도 아닌을 의미즉 NER같은 경우 개체당 한 column이 들어가 원핫 느낌이 되는게 아니라 한 차원내에서 모든 개체를 다룸Chapter13BPE:서브워드를 만들어주는 알고리즘 중 하나. 두개의 단어를 하나로 묶는데 순서는 1.빈도수 2. 앞에서부터기존 OOV였던 lowest를 문자 단위로 쪼개고 유사한 문자 집합을 찾아낼 수 있음13-04 .. 2024. 9. 10.
NLP_1 Chapter2토큰화(tokenization):자연어는 문서(document)->문장(sentence)->단어(word)->문자(character?) 순서로 데이터를 쪼갤 수 있다.토큰화는 이 중 문장을 단어로 쪼개주는 과정을 의미한다. 주로 띄어쓰기나 품사 단위로 자르는데 한국어는 접미어로 다양한 형태를 가질 수 있으므로 형태소(말의 가장 작은 단위)로 잘라주어야 한다.from nltk.tokenize import word_tokenizeprint('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))단어 토.. 2024. 9. 10.