인공지능11 [2022 통계청 공모전] 1. bigword split 이름을 bigword split이라고 지은 이유는.. tokenized를 봤을 때, noun(명사)로 토큰화하였다고 할지어도, '이벌게임'처럼 명사화가 잘 되지 않은 문장들을 더 잘게 쪼개주어 의미를 부여할 수 있도록 하기 위해서 단어수가 긴 단어의 경우, 잘게 쪼개주면 좋지 않을까 싶었다. 나중에 임베딩 모델을 구현할 때, 단어수의 빈도가 50 이상인 단어들로만 이뤄지게 하기에. 단어수의 빈도가 50 미만인 (임베딩에 영향을 주지 않는) 단어들을 Split 해주기로 하였다. count={} for j in range(len(bigword_split_okt)): for i in bigword_split_okt[j]: try: count[i] += 1 except: count[i]=1 print(count.. 2022. 5. 6. [2022 통계청 공모전] 0. tokenized Tokenizing 문장을 분해하여 관계를 만들어 준다. 2차원 이상으로의 벡터로 만들어준다. 자연어의 전처리와 결과의 해석이 중요하다. Document -> Tokenizing -> Tagging 의 방식으로 Word2Vec으로 사용한다. 이외의 토크나이저의 과정에서의 EDA를 진행하였다. 필요패키지 설치 import numpy as np import pandas as pd import seaborn as sns import matplotlib as mpl import matplotlib.pylab as plt data= pd.read_csv('data.txt', sep ='|',encoding='CP949', header=0) submission= pd.read_csv('submission.txt',.. 2022. 5. 5. [2022 통계청 공모전] Word2Vec이란? 1. Word2Vec Word2Vec은 말 그대로 단어를 벡터로 바꿔주는 알고리즘 크게 CBOW와 Skip-Gram 두 가지 방식으로 분류된다. CBOW(Continuous Bag of Words) 주변에 있는 단어들을 가지고 중심에 있는 단어를 맞추는 방식 나는 ______에 간다. 주변 단어들을 바탕으로 중심에 있는 단어를 예측 Skip-Gram 중심에 있는 단어로 주변 단어를 예측하는 방법 _____ 외나무다리 ______ 중심 단어를 바탕으로 앞뒤 어떤 단어가 올지 예측 사용자가 주변단어 몇 개를 볼 지(window)를 정해주면 Word2Vec은 말뭉치를 window 크기로 슬라이딩하면서 스크린하며 중심단어별로 주변단어들을 보고 각 단어에 해당하는 벡터들의 요소값들을 조금씩 업데이트함으로써 단어를.. 2022. 5. 4. [2022 통계청 공모전] 통계데이터 인공지능 활용대회 통계청에서 '자연어 기반 인공지능 산업분류 자동화'를 주제로 「통계데이터 인공지능 활용대회」를 개최하였다. 통계데이터 인공지능 활용대회란? 통계 데이터의 새로운 활용 분야를 발굴하고 데이터의 잠재적 가치를 제고하고자, 자연어 기반의 인공지능 분류 학습에 필요한 양질의 통계데이터를 개방하여, 이를 통해 인공지능 학습 및 활용 저변을 확대하고자 개최하는 대회 지원 대상 통계데이터와 인공지능(AI) 및 기계학습에 관심 있는 대한민국 국적의 누구나 지원 가능 ※개인 또는 팀(3명 이하)의 내국인, 외국인의 경우 개인 참여는 어려우며 한국인이 포함된 팀의 팀원으로 참가 가능 공모 주제 “자연어 기반 인공지능 산업분류 자동화” 자연어 기반의 통계데이터를 인공지능으로 자동 분류하는 기계학습 모델 발굴로 통계 데이터 .. 2022. 5. 3. [AI 데이터 연구단] 재난 대응 시나리오 및 주요 행동 요령 https://github.com/rootofdata/AILAB_Sleep-Scoring-Modeling.git GitHub - rootofdata/AILAB_Sleep-Scoring-Modeling Contribute to rootofdata/AILAB_Sleep-Scoring-Modeling development by creating an account on GitHub. github.com 재난대응 전문가 시스템 (한국 환경산업기술원) 우리나라 재난에 의한 피해가 지속적 발생 특히 다수의 상하수도시설에서는 내진설계가 적용되지 않음. 따라서 비상급수관리 내진보강 등의 시설 재난에 대한 피해대응이 미흡함. 재난안전연구원에 따르면 재난으로 인한 공공시설의 피해액이 전체의 69.5%이므로 공공시설에 대한 .. 2022. 1. 28. 이전 1 2 다음