본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
도전 : 더 나은 사람으로/텍스트 산업 분류 공모전

[2022 통계청 공모전] 5. test 및 후기..

by 꿀먹은데이터 2022. 5. 16.

마지막.. test padding이다.

토크나이저시키고..

tokenizer = Tokenizer()
tokenizer.fit_on_texts(test)
X_encoded = tokenizer.texts_to_sequences(test)

패딩시킨다...

X_test = pad_sequences(X_encoded, maxlen=max_len, padding='post')

잘잘한 코드를 몇 줄 작성한 뒤,

predicted에 y_pred의 argmax 다시 말해서, 최대가 되는 벡터값을 넣어주면 완료!

y_pred = np.mean(pred_list,axis=0)
predicted = y_pred.argmax(axis=-1)

이후 아래 그림처럼 digit_1, digit_2, digit_3이 비어있는데, 이곳에 채워주면 끝이 난다.

 

약 3주간의 기간동안 3명이 팀을 이뤄 통계데이터 인공지능 활용대회와 '산업분류' 를 끝마쳤다.

처음 NLP 공부를 하고자 시작했던 통계청 활용대회가 욕심이 생겨 밤낮으로 공부하고 논문 읽고, 코드를 짰던 것 같다.

이런 식으로 Notion에 늘 정리해주는 천@@에게 감사를 표한다.

또한 

늘 열심히 코드와 모델 구성을 해준 김@@에게 감사를 표한다.

나 또한 열심히.. 열심히.. 만들었던 것 같다 ^^

 

이렇게 신청 정보도 입력하고..

에러도 해결하며

코드를 마무리하고 끝이 났다.

마지막 합숙을 통한 우리의 자세였다..

이렇게 짧으면 짧고 길면 긴 프로젝트를 마무리하였고, 마지막 submit까지 눌렀다.

NLP의 매력은 끝이 없고 공부를 해도해도 끝이 안보인다..

어렵지만 흥미롭고 재밌는 NLP였고. 재밌고 유익한 플젝이었다.

 

관련 github code

https://github.com/rootofdata/NLP_AI_Industry_classification.git

 

GitHub - rootofdata/NLP_AI_Industry_classification

Contribute to rootofdata/NLP_AI_Industry_classification development by creating an account on GitHub.

github.com