본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

도전 : 더 나은 사람으로18

[2022 통계청 공모전] 0. tokenized Tokenizing 문장을 분해하여 관계를 만들어 준다. 2차원 이상으로의 벡터로 만들어준다. 자연어의 전처리와 결과의 해석이 중요하다. Document -> Tokenizing -> Tagging 의 방식으로 Word2Vec으로 사용한다. 이외의 토크나이저의 과정에서의 EDA를 진행하였다. 필요패키지 설치 import numpy as np import pandas as pd import seaborn as sns import matplotlib as mpl import matplotlib.pylab as plt data= pd.read_csv('data.txt', sep ='|',encoding='CP949', header=0) submission= pd.read_csv('submission.txt',.. 2022. 5. 5.
[2022 통계청 공모전] Word2Vec이란? 1. Word2Vec Word2Vec은 말 그대로 단어를 벡터로 바꿔주는 알고리즘 크게 CBOW와 Skip-Gram 두 가지 방식으로 분류된다. CBOW(Continuous Bag of Words) 주변에 있는 단어들을 가지고 중심에 있는 단어를 맞추는 방식 나는 ______에 간다. 주변 단어들을 바탕으로 중심에 있는 단어를 예측 Skip-Gram 중심에 있는 단어로 주변 단어를 예측하는 방법 _____ 외나무다리 ______ 중심 단어를 바탕으로 앞뒤 어떤 단어가 올지 예측 사용자가 주변단어 몇 개를 볼 지(window)를 정해주면 Word2Vec은 말뭉치를 window 크기로 슬라이딩하면서 스크린하며 중심단어별로 주변단어들을 보고 각 단어에 해당하는 벡터들의 요소값들을 조금씩 업데이트함으로써 단어를.. 2022. 5. 4.
[2022 통계청 공모전] 통계데이터 인공지능 활용대회 통계청에서 '자연어 기반 인공지능 산업분류 자동화'를 주제로 「통계데이터 인공지능 활용대회」를 개최하였다. 통계데이터 인공지능 활용대회란? 통계 데이터의 새로운 활용 분야를 발굴하고 데이터의 잠재적 가치를 제고하고자, 자연어 기반의 인공지능 분류 학습에 필요한 양질의 통계데이터를 개방하여, 이를 통해 인공지능 학습 및 활용 저변을 확대하고자 개최하는 대회 지원 대상 통계데이터와 인공지능(AI) 및 기계학습에 관심 있는 대한민국 국적의 누구나 지원 가능 ※개인 또는 팀(3명 이하)의 내국인, 외국인의 경우 개인 참여는 어려우며 한국인이 포함된 팀의 팀원으로 참가 가능 공모 주제 “자연어 기반 인공지능 산업분류 자동화” 자연어 기반의 통계데이터를 인공지능으로 자동 분류하는 기계학습 모델 발굴로 통계 데이터 .. 2022. 5. 3.
[2022 강서구 공모전] #6 활용방안 및 기대효과 6. 활용방안 및 기대효과 1. 무단투기 및 범죄 사전예방 가로 쓰레기통을 추가 설치하면 쓰레기통의 추가 확보로 무단투기를 사전에 예방할 수 있다. 또한 우리가 제안한 CCTV 설치의 목적은 생활 쓰레기 무단투기를 줄이기 위한 것이지만, 다목적 CCTV의 설치를 하게 된다면 무단투기뿐만 아니라 불법 주정차 등 각종 범죄 및 안전사고를 예방하는 데 도움을 줄 수 있다. 실제로 한국법제연구원의 자료에 따르면 ‘CCTV가 범죄를 막는데 효과가 있다.‘ 는 연구결과가 있다. (한국법제연구원, 2007, p99) 2. 취약계층 일자리 제공 및 도시청결도 유지 가로 쓰레기통을 추가 설치한 후의 가장 큰 문제점은 쓰레기통을 관리하고 도시 청결을 유지하는 것이다. 2018년 강서구는 도시 환경을 해치는 불법광고물을 없.. 2022. 5. 2.
[2022 강서구 공모전] #5 결과 해석 [가로 쓰레기통] 1. 결과 해석 및 인사이트 : 가로 쓰레기통 본 연구에서는 강서구의 행정동 별 가로 쓰레기통의 위치 현황을 모델링을 통해 보여준다. 그중 가장 쓰레기통이 필요한 행정동을 특정해 그 행정동 구역 안에서의 최적 입지와 기존 쓰레기통 위치 현황을 보여주고 이에 대한 좌표와 주변 자료들을 보여준다. 다음은 쓰레기통이 부족한 행정동을 가려내기 위한 설명변수이다. Dependent Independent 쓰레기통이 필요한 동(구역) 동별 생활인구 동별 기존 쓰레기통 개수 행정동별 종속변수, 설명변수 동 추출 기준은 다음과 같은 지수 WPP(Waste basket Per Population)를 만들어 가장 값이 낮은 동을 채택했다. 위 그림은 상위 5개 동의 WPP 지수를 나타낸 것이다. 화곡8동의 경우 생활인구는 .. 2022. 5. 1.
[2022 강서구 공모전] #5 결과 해석 [무단투기 방지 CCTV] 2. 결과 해석 및 인사이트 : 무단투기 방지 CCTV 무단투기 방지 CCTV 역시 연구결과의 확인을 위해 CCTV가 가장 부족한 행정동을 뽑아 그 안에서 CCTV가 얼마나 부족한지 나타낸다. 다음은 CCTV가 부족한 행정동을 가려내기 위한 설명변수이다. 이때 행정동 중 CCTV가 없는 동은 행정·비용 측면에서 문제일 가능성이 높기 때문에 제외한다. Dependent Independent CCTV 설치가 필요한 동(구역) 동별 상주인구 동별 기존 CCTV 개수 행정동별 종속변수, 설명변수 동 추출기준은 다음과 같은 지수 CPP(CCTV Per Population)를 만들어 가장 값이 낮은 동을 채택했다. 위 그림은 상위 5개 동의 CPP 지수를 나타낸 것이다. 발산1동의 경우 상주인구는 강서구의 행정동 .. 2022. 4. 30.