본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

Ai26

[2022 통계청 공모전] 1. bigword split 이름을 bigword split이라고 지은 이유는.. tokenized를 봤을 때, noun(명사)로 토큰화하였다고 할지어도, '이벌게임'처럼 명사화가 잘 되지 않은 문장들을 더 잘게 쪼개주어 의미를 부여할 수 있도록 하기 위해서 단어수가 긴 단어의 경우, 잘게 쪼개주면 좋지 않을까 싶었다. 나중에 임베딩 모델을 구현할 때, 단어수의 빈도가 50 이상인 단어들로만 이뤄지게 하기에. 단어수의 빈도가 50 미만인 (임베딩에 영향을 주지 않는) 단어들을 Split 해주기로 하였다. count={} for j in range(len(bigword_split_okt)): for i in bigword_split_okt[j]: try: count[i] += 1 except: count[i]=1 print(count.. 2022. 5. 6.
[2022 통계청 공모전] 0. tokenized Tokenizing 문장을 분해하여 관계를 만들어 준다. 2차원 이상으로의 벡터로 만들어준다. 자연어의 전처리와 결과의 해석이 중요하다. Document -> Tokenizing -> Tagging 의 방식으로 Word2Vec으로 사용한다. 이외의 토크나이저의 과정에서의 EDA를 진행하였다. 필요패키지 설치 import numpy as np import pandas as pd import seaborn as sns import matplotlib as mpl import matplotlib.pylab as plt data= pd.read_csv('data.txt', sep ='|',encoding='CP949', header=0) submission= pd.read_csv('submission.txt',.. 2022. 5. 5.
[2022 통계청 공모전] Word2Vec이란? 1. Word2Vec Word2Vec은 말 그대로 단어를 벡터로 바꿔주는 알고리즘 크게 CBOW와 Skip-Gram 두 가지 방식으로 분류된다. CBOW(Continuous Bag of Words) 주변에 있는 단어들을 가지고 중심에 있는 단어를 맞추는 방식 나는 ______에 간다. 주변 단어들을 바탕으로 중심에 있는 단어를 예측 Skip-Gram 중심에 있는 단어로 주변 단어를 예측하는 방법 _____ 외나무다리 ______ 중심 단어를 바탕으로 앞뒤 어떤 단어가 올지 예측 사용자가 주변단어 몇 개를 볼 지(window)를 정해주면 Word2Vec은 말뭉치를 window 크기로 슬라이딩하면서 스크린하며 중심단어별로 주변단어들을 보고 각 단어에 해당하는 벡터들의 요소값들을 조금씩 업데이트함으로써 단어를.. 2022. 5. 4.
[2022 통계청 공모전] 통계데이터 인공지능 활용대회 통계청에서 '자연어 기반 인공지능 산업분류 자동화'를 주제로 「통계데이터 인공지능 활용대회」를 개최하였다. 통계데이터 인공지능 활용대회란? 통계 데이터의 새로운 활용 분야를 발굴하고 데이터의 잠재적 가치를 제고하고자, 자연어 기반의 인공지능 분류 학습에 필요한 양질의 통계데이터를 개방하여, 이를 통해 인공지능 학습 및 활용 저변을 확대하고자 개최하는 대회 지원 대상 통계데이터와 인공지능(AI) 및 기계학습에 관심 있는 대한민국 국적의 누구나 지원 가능 ※개인 또는 팀(3명 이하)의 내국인, 외국인의 경우 개인 참여는 어려우며 한국인이 포함된 팀의 팀원으로 참가 가능 공모 주제 “자연어 기반 인공지능 산업분류 자동화” 자연어 기반의 통계데이터를 인공지능으로 자동 분류하는 기계학습 모델 발굴로 통계 데이터 .. 2022. 5. 3.
이상치 탐지] 논문 리뷰 -(4)Deep-Compact-Clustering Based Anomaly Detection Applied to Electromechanical Industrial Systems Deep-Compact- Clustering Based Anomaly Detection Applied to Electromechanical Industrial Systems 본 논문은 MDPI 논문이며, sensors 저널에 등록된 논문이다. Impact Factor는 4.35이며, Unsupervised anomaly detection으로 클러스터링을 이용한 이상값 감지 방법론이다. 또한 LSTM을 기반으로 한 Autoencoder을 쓰기에 이상치 탐지에 적합하다고 생각했다. 4.3. DAECC-OC-SVM Performance Discussion 제안된 이상 탐지 방법의 효율성을 이해하기 위해 행동과 성능을 보여주는 몇 가지 추가 테스트가 제공된다. 이를 위해 먼저 방법론의 핵심, 즉 DAE의 특성화.. 2022. 3. 11.
이상치 탐지] 논문 리뷰 -(3)Deep-Compact-Clustering Based Anomaly Detection Applied to Electromechanical Industrial Systems Deep-Compact- Clustering Based Anomaly Detection Applied to Electromechanical Industrial Systems 본 논문은 MDPI 논문이며, sensors 저널에 등록된 논문이다. Impact Factor는 4.35이며, Unsupervised anomaly detection으로 클러스터링을 이용한 이상값 감지 방법론이다. 또한 LSTM을 기반으로 한 Autoencoder을 쓰기에 이상치 탐지에 적합하다고 생각했다. 아래 그림은 DAECC-DC-SVM 방법의 틀로서, 제안된 이상 탐지 모니터링 방법론의 단계별 흐름도이다. 3. Methodology 3.1. Data Acquisition 제안된 방법론의 첫 번째 단계는 회전 시스템의 상태와 관.. 2022. 3. 10.