도전 : 더 나은 사람으로/텍스트 산업 분류 공모전
[2022 통계청 공모전] 3. embedding_model
꿀먹은데이터
2022. 5. 9. 18:29
Embedding_model 만들기
Word2Vec 함수 사용
from gensim.models import Word2Vec
embedding_okt = Word2Vec(tokenized_okt1, size=100, window = 2, min_count=50, workers=4, iter=100, sg=1)
embedding 모델을 구축한다는 것은 Word2Vec의 함수를 써서 단어벡터를 만들어준다는 뜻이다.
이후 아래 코드처럼 저장해주면 임베딩된 모델이 완성되게 된다.
embedding_okt.save('/emb__okt.model')
자연어처리에서 사용하는 gensim 라이브러리는 아래를 참고하면 된다.
https://radimrehurek.com/gensim/
Gensim: topic modelling for humans
Efficient topic modelling in Python
radimrehurek.com
단어를 벡터로 표현하는 방법은 gensim에서 word2vec, fasttext, glove 등을 제공한다.
여기서 word2Vec 함수를 보면,
- vector_size: word vector의 차원(embedding size)
- window: 간격
- min_count: 단어의 최소 출현수 (전에 포스팅한 것처럼 50으로 제한을 두었다.
- sg: (1=skip-gram , 0= CBOW))
- iter: 학습횟수
자연어 처리에서 크게 3가지로 나누어서 진행을 하였다.
- 문장 토큰화 처리 (Tokenized)
- 불용어 제거 (Remove stopwords)
- 임베딩 모델 구현 (Word2Vec)
앞으로 CNN-LSTM을 사용하여 모델을 구현하도록 하겠다.
관련 github code
https://github.com/rootofdata/NLP_AI_Industry_classification.git
GitHub - rootofdata/NLP_AI_Industry_classification
Contribute to rootofdata/NLP_AI_Industry_classification development by creating an account on GitHub.
github.com