본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

전체 글165

[2022 강서구 공모전] #4.1 알고리즘 및 방법론 [가로 쓰레기통] 알고리즘 및 방법론 : 가로 쓰레기통 0. 개요 사람들이 무단투기하는 가장 근본적인 이유는 가로 쓰레기통이 없기 때문이다. 현주 인구가 활동하는 장소와 가까운 곳에 쓰레기통을 추가 설치해야 하는데 이것은 공간 접근성에 관한 얘기다. 즉 공간 접근성을 최대화시킬 수 있다면 쓰레기통의 설치 위치를 합리적, 효율적으로 정할 수 있을 것이다. 1. GIS 공간분석 GIS 공간분석을 위해 Google의 ‘Geocoding API’로 좌표 추출 및 지형을 코드화시켜 각 시설물과 후보지에 대한 코드를 부여하였고 이에 따른 가중치를 부여해 가로 쓰레기통 위치 설정을 하였다. 본 분석과 같이 분석 대상의 위치를 이용하여 새로운 시설물의 설치 장소를 분석하는데 용이하다. 2. P-median 알고리즘 A. p-median.. 2022. 4. 29.
[이상치 탐지] EDA for data(2min) 본 센서는 ver1,ver2,ver3으로 구성되어있으며 가스를 측정하는데 있어 주기가 2분인 센서의 데이터를 가져왔다. 'AI 데이터 연구단'에서 자체적으로 개발한 센서이며 , TVOC,CO2,미세먼지 등 실내 공기의 질을 측정하는 센서이다. 데이터를 측정하는 센서에 따라 시간의 주기가 맞지 않을 때가 있다. 보통 시간의 주기를 1min으로 하면 센서의 시간에 따른 정교성이 부족하다면. 1분 5초에 따라 측정할 수도 있고, 1분 10초 마다 센서로 측정할 수 있어 이를 조정해주는 작업이 필요하다. .. 센서를 정교하게 잘 만든다면 이런 일이 안벌어지지 않을까..?? 이 부분은 결함이 일어날 수도 있다고 생각하고 EDA를 진행하였다. 본 데이터는 2분마다 가스를 측정하는 센서로 TS2,CH2O, 미세먼지 .. 2022. 4. 28.
[2022 강서구 공모전] 동별 가로쓰레기통_생활인구 '가로 쓰레기통과 생활인구의 관계'에 따라 가로쓰레기통의 위치 선정에 있어 도움을 주기 위함으로 진행하였다. 본 연구에서는 강서구의 행정동 별 가로 쓰레기통의 위치 현황을 모델링을 통해 보여준다. 그중 가장 쓰레기통이 필요한 행정동을 특정해 그 행정동 구역 안에서의 최적 입지와 기존 쓰레기통 위치 현황을 보여주고 이에 대한 좌표와 주변 자료들을 보여준다. 다음은 쓰레기통이 부족한 행정동을 가려내기 위한 설명변수이다. # 라이브러리 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt import matplotlib as mpl import matplotlib.font_manager as fm .. 2022. 4. 1.
[2022 강서구 공모전] #2 분석 배경 & #3 분석 데이터 2 분석 배경 서울시는 담배꽁초와 쓰레기 무단투기 예방을 위해 캠페인, 과태료 부과 등의 노력을 가하고 있다. 그럼에도 불구하고 쓰레기양과 무단투기량은 매년 증가하고 있다. 실제로, 자원순환정보시스템에서 제공하는 환경통계 현황에 따르면 2020년도 전국 생활 폐기물 발생량은 2019년 대비 6.6%p 증가했다. 21년 예상의 경우는 값이 없기 때문에, linear regression을 이용하여 예측을 하였고, 값이 2347이 나온다. 이처럼 생활 폐기물 발생량은 매년 증가하고 이에 비례하여 무단투기 되는 쓰레기양도 증가하면서 사회문제의 이슈가 된다고 생각한다. 특히 강서구는 21년 도시청결도 조사에서 25개 구 중 16위로 평균에 못미치는 순위를 기록했다. 이에 따라서 도시 청결을 위해 강서구는 개선을 .. 2022. 3. 30.
Hands-on ML : 2.1 실제 데이터로 작업&2.2 큰 그림 보기 2.2.1 문제 정의 비즈니스의 목적이 정확하게 무엇인가요? 목적은 문제 구성이나 알고리즘, 모델 평가에 사용되는 성능 지표, 모델 튜닝 등을 결정하기 때문에 중요하다. 파이프라인(pipeline) : 데이터 처리 컴포넌트들이 연속되어 있는 것이다. 보통 컴포넌트들은 비동기적으로 동작 각 컴포넌트는 많은 데이터를 추출해 처리하고 그 결과를 다른 데이터 저장소로 보낸다. 일정 시간 후 파이프라인의 다음 컴포넌트가 그 데이터를 추출해 자신의 출력 결과를 만든다. Data extracting: 데이터 추출 Data transforming: 데이터 변환 Data combining: 데이터 결합 Data validating: 데이터 검증 Data loading: 데이터 적재 ETL : Extractin, Tran.. 2022. 3. 24.
Hands-on ML : 1.5 머신러닝의 주요 도전 과제 &1.6 테스트와 검증 1.5.1 충분하지 않은 양의 훈련 데이터 1.5.2 대표성 없는 훈련 데이터 샘플링 잡음 (sampling noise) : 샘플이 작을 경우. 즉, 우연에 의한 대표성 없는 데이터의 경우 생김. 샘플링 편향 (sampling bias) : 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지 못함. 1.5.3 낮은 품질의 데이터 일부 샘플이 이상치라면 무시하거나 수동으로 고치는 것이 좋다. 일부 샘플에 특성 몇 개가 빠져있다면 이 특성을 모두 무시할지, 이 샘플을 무시할지, 빠진 값을 채울지 등 결정해야 한다. 1.5.4 관련 없는 특성 특성 선택(feature selection) : 가지고 있는 특성 중 훈련에 가장 유용한 특성을 선택 특성 추출(feature extraction) : 특성을 결합.. 2022. 3. 23.
Hands-on ML : 1.4 머신러닝 시스템의 종류 1.4 머신러닝 시스템의 종류 1.4.1 지도 학습과 비지도 학습 지도 학습 (supervised learning) : 훈련 데이터에 레이블(label)이 포함된 학습 k-최근접 이웃(k-nearest neighbors) 선형 회귀(linear regression) 로지스틱 회귀(logistic regression) 서포트 벡터 머신(support vector machine) 결정 트리(decision tree) & 랜덤 포레스트(random forest) 신경망 (neural networks) 비지도 학습 (unsupervised learning) : 훈련 데이터에 레이블(label)이 비포함된 학습 군집(clustering) -k-평균(k-means) -DBSCAN -계층 군집 분석 (HCA) -이상.. 2022. 3. 23.
[공모전] 2022년 강서구 빅데이터 활용 공모전 사회 문제와 관련된 공모전을 찾던 중 '2022 강서구 빅데이터 활용 공모전'에 관심을 갖게 되었고, 이에 가볍게 참여하게 되었다. 공모기간은 3.25까지로 짧은 약 3주간의 시간을 갖고 (3.7에 확인) 도전해보기로 마음먹었다. https://www.wevity.com/?c=find&s=1&gbn=view&ix=60005 2022년 강서구 빅데이터 활용 공모전 2022년 강서구 빅데이터 활용 공모전■ 공모기간: 2022. 2. 24. ~ 3. 25.■ 공모주제: 개방된 데이터를 활용하여 주민의 생활불편 해결 성공사례 및 공공 이익·발전에 기여할 수 있는 자유주제■ 참가 www.wevity.com 강서구에 빅데이터를 활용한 공공 이익 및 발전에 기여할 수 있는 주제가 뭐가 있을까 고민했다. 그러다가 '무.. 2022. 3. 21.
구글 API 연결 ('Geocoding API'로 좌표 추출하기) 구글 Geocoding API로 도로명 주소를 좌표값으로 받으려고 한다. 그러려면 Google Cloud에서 API Key를 발급받아야 한다. 1. 구글 API 발급 받기 https://cloud.google.com/ 클라우드 컴퓨팅 서비스 | Google Cloud 데이터 관리, 하이브리드 및 멀티 클라우드, AI와 머신러닝 등 Google의 클라우드 컴퓨팅 서비스로 비즈니스 당면 과제를 해결하세요. cloud.google.com 1. 상단 측에 있는 콘솔을 클릭 2. 위 상단의 My project 부분에서 새 프로젝트를 만들어준다. 3. API 개요로 이동 4. 검색창에 Geocoding API 입력 후 사용신청 누르기 참고로 유료 API도 많지만, 무료로 제공되는 API도 많으니 여러 API를 사용.. 2022. 3. 14.