마지막.. test padding이다.
토크나이저시키고..
tokenizer = Tokenizer()
tokenizer.fit_on_texts(test)
X_encoded = tokenizer.texts_to_sequences(test)
패딩시킨다...
X_test = pad_sequences(X_encoded, maxlen=max_len, padding='post')
잘잘한 코드를 몇 줄 작성한 뒤,
predicted에 y_pred의 argmax 다시 말해서, 최대가 되는 벡터값을 넣어주면 완료!
y_pred = np.mean(pred_list,axis=0)
predicted = y_pred.argmax(axis=-1)
이후 아래 그림처럼 digit_1, digit_2, digit_3이 비어있는데, 이곳에 채워주면 끝이 난다.
약 3주간의 기간동안 3명이 팀을 이뤄 통계데이터 인공지능 활용대회와 '산업분류' 를 끝마쳤다.
처음 NLP 공부를 하고자 시작했던 통계청 활용대회가 욕심이 생겨 밤낮으로 공부하고 논문 읽고, 코드를 짰던 것 같다.
이런 식으로 Notion에 늘 정리해주는 천@@에게 감사를 표한다.
또한
늘 열심히 코드와 모델 구성을 해준 김@@에게 감사를 표한다.
나 또한 열심히.. 열심히.. 만들었던 것 같다 ^^
이렇게 신청 정보도 입력하고..
에러도 해결하며
코드를 마무리하고 끝이 났다.
마지막 합숙을 통한 우리의 자세였다..
이렇게 짧으면 짧고 길면 긴 프로젝트를 마무리하였고, 마지막 submit까지 눌렀다.
NLP의 매력은 끝이 없고 공부를 해도해도 끝이 안보인다..
어렵지만 흥미롭고 재밌는 NLP였고. 재밌고 유익한 플젝이었다.
관련 github code
https://github.com/rootofdata/NLP_AI_Industry_classification.git
GitHub - rootofdata/NLP_AI_Industry_classification
Contribute to rootofdata/NLP_AI_Industry_classification development by creating an account on GitHub.
github.com
'도전 : 더 나은 사람으로 > 텍스트 산업 분류 공모전' 카테고리의 다른 글
[2022 통계청 공모전] 4. CNN-LSTM 사용 (0) | 2022.05.15 |
---|---|
[2022 통계청 공모전] 4. modeling with CNN-LSTM (0) | 2022.05.11 |
[2022 통계청 공모전] 3. embedding_model (0) | 2022.05.09 |
[2022 통계청 공모전] 2. remove stopwords (불용어 처리) (0) | 2022.05.08 |
[2022 통계청 공모전] 1. bigword split (0) | 2022.05.06 |