통계청에서 '자연어 기반 인공지능 산업분류 자동화'를 주제로
「통계데이터 인공지능 활용대회」를 개최하였다.
통계데이터 인공지능 활용대회란?
- 통계 데이터의 새로운 활용 분야를 발굴하고 데이터의 잠재적 가치를 제고하고자,
자연어 기반의 인공지능 분류 학습에 필요한 양질의 통계데이터를 개방하여,
이를 통해 인공지능 학습 및 활용 저변을 확대하고자 개최하는 대회
지원 대상
- 통계데이터와 인공지능(AI) 및 기계학습에 관심 있는 대한민국 국적의 누구나 지원 가능
※개인 또는 팀(3명 이하)의 내국인, 외국인의 경우 개인 참여는 어려우며 한국인이 포함된 팀의 팀원으로 참가 가능
공모 주제
- “자연어 기반 인공지능 산업분류 자동화”
- 자연어 기반의 통계데이터를 인공지능으로 자동 분류하는 기계학습 모델 발굴로 통계 데이터 활용 저변 확대
대회 참가
나를 포함 AI 분야를 공부하고 있는 학부생 3명이서 팀을 이뤄 대회에 참가하였다.
팀번호를 부여받고 점수 지표로는 Accuracy, F1-score로 순위를 매기게 된다.
총 3가지 파일로 모델 개발용 자료와 실습용 자료, 한국표준산업분류로,
실습용 자료로 train 시키고 그 model을 모델 개발용 자료를 test 삼아 classifier 하면 되는 것이다.
자연어 처리이기에 Okt와 hannanum 등을 이용하면 될 것이라고 생각했다.
방향성
- Feature 구성 : 사업체명, 사업체가 주로 하는 일, 응답자가 하는 일 등 정보가 많았다.
- 사업체가 주로 하는 일, 응답자가 하는 일을 바탕으로 예측한 것이 가장 높았다.
- KoNLP , Okt, hannanum 등의 사용법에 대해 공부를 해야겠다.
- drop-out, Optimizer etc 다양한 정보를 가져와도 좋을 것으로 예상된다.
회의 내용
- text_obj, text_mthd, text_deal을 바탕으로 대분류, 중분류, 소분류 예측하는 것이다.
- 모델은 CNN - LSTM 사용하면 좋을 것으로 보여 CNN-LSTM을 공부하자.
- 형태소 분류가 진행되지 않은 것이 많았고, CP949, UTF-8 인코딩의 문제로 예상된다.
- → .csv 인코딩 문제 해결 후 형태소 분류 재 진행 후 결과 공유하기로 하였다.
- 세세한 분류 -> 소분류로 올라가는 방식이 AUC 측면에서 좋을 것으로 예상된다.
한국표준산업분류에 있는 데이터도 train 데이터로 같이 사용하는 것이 좋을 것 같다.
100,000개 데이터를 라벨링이 안사라지면서 한번에 처리하면 좋을 수 있지 않을까??
100,000개 데이터를 한번에 합치고 사이에 sep를 추가한 뒤, 추가한 부분에 label을 넣는 방식으로 진행하면 어떨까?
: dictionary로 사용하게 되면 sep를 key로 사용..
다음 일정까지
-
- EDA
- 불용어 설정 : ‘OO업’ → 업 제거
- Okt pos 형태소 분류 or noun명사만 추출 (pose = ‘Verb’ + ‘Noun’)
- 한국표준산업분류 data merge
- Word2Vec
2. pythorch를 이용한 corona model 확장(구현)해보자.
관련 github code
https://github.com/rootofdata/NLP_AI_Industry_classification.git
'도전 : 더 나은 사람으로 > 텍스트 산업 분류 공모전' 카테고리의 다른 글
[2022 통계청 공모전] 3. embedding_model (0) | 2022.05.09 |
---|---|
[2022 통계청 공모전] 2. remove stopwords (불용어 처리) (0) | 2022.05.08 |
[2022 통계청 공모전] 1. bigword split (0) | 2022.05.06 |
[2022 통계청 공모전] 0. tokenized (0) | 2022.05.05 |
[2022 통계청 공모전] Word2Vec이란? (0) | 2022.05.04 |