[2022 통계청 공모전] 3. embedding

Word2Vec 함수 사용

from gensim.models import Word2Vec
embedding_okt = Word2Vec(tokenized_okt1, size=100, window = 2, min_count=50, workers=4, iter=100, sg=1)

embedding 모델을 구축한다는 것은 Word2Vec의 함수를 써서 단어벡터를 만들어준다는 뜻이다.

이후 아래 코드처럼 저장해주면 임베딩된 모델이 완성되게 된다.

embedding_okt.save('/emb__okt.model')

자연어처리에서 사용하는 gensim 라이브러리는 아래를 참고하면 된다.
https://radimrehurek.com/gensim/

Gensim: topic modelling for humans

Efficient topic modelling in Python

radimrehurek.com

단어를 벡터로 표현하는 방법은 gensim에서 word2vec, fasttext, glove 등을 제공한다.

여기서 word2Vec 함수를 보면,

자연어 처리에서 크게 3가지로 나누어서 진행을 하였다.

앞으로 CNN-LSTM을 사용하여 모델을 구현하도록 하겠다.

GitHub - rootofdata/NLP_AI_Industry_classification

Contribute to rootofdata/NLP_AI_Industry_classification development by creating an account on GitHub.

github.com

[2022 통계청 공모전] 4. CNN-LSTM 사용 (0)	2022.05.15
[2022 통계청 공모전] 4. modeling with CNN-LSTM (0)	2022.05.11
[2022 통계청 공모전] 2. remove stopwords (불용어 처리) (0)	2022.05.08
[2022 통계청 공모전] 1. bigword split (0)	2022.05.06
[2022 통계청 공모전] 0. tokenized (0)	2022.05.05

데이터스트