본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
도전 : 더 나은 사람으로/텍스트 산업 분류 공모전

[2022 통계청 공모전] 3. embedding_model

by 꿀먹은데이터 2022. 5. 9.

Embedding_model 만들기

Word2Vec 함수 사용

from gensim.models import Word2Vec
embedding_okt = Word2Vec(tokenized_okt1, size=100, window = 2, min_count=50, workers=4, iter=100, sg=1)

embedding 모델을 구축한다는 것은 Word2Vec의 함수를 써서 단어벡터를 만들어준다는 뜻이다.

이후 아래 코드처럼 저장해주면 임베딩된 모델이 완성되게 된다.

embedding_okt.save('/emb__okt.model')

 

자연어처리에서 사용하는 gensim 라이브러리는 아래를 참고하면 된다.
https://radimrehurek.com/gensim/

 

Gensim: topic modelling for humans

Efficient topic modelling in Python

radimrehurek.com

단어를 벡터로 표현하는 방법은 gensim에서 word2vec, fasttext, glove 등을 제공한다.

 

여기서 word2Vec 함수를 보면,

  • vector_size: word vector의 차원(embedding size)
  • window: 간격
  • min_count: 단어의 최소 출현수 (전에 포스팅한 것처럼 50으로 제한을 두었다.
  • sg: (1=skip-gram , 0= CBOW))
  • iter: 학습횟수

자연어 처리에서 크게 3가지로 나누어서 진행을 하였다.

  1. 문장 토큰화 처리 (Tokenized)
  2. 불용어 제거 (Remove stopwords)
  3. 임베딩 모델 구현 (Word2Vec)

앞으로 CNN-LSTM을 사용하여 모델을 구현하도록 하겠다.

 

관련 github code

https://github.com/rootofdata/NLP_AI_Industry_classification.git

 

GitHub - rootofdata/NLP_AI_Industry_classification

Contribute to rootofdata/NLP_AI_Industry_classification development by creating an account on GitHub.

github.com