본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

공부하는 습관을 들이자43

[Dacon study] 2. 타이타닉 생존자 예측 이번에는 두번째로 데이콘과 캐글에서 유명한 타이타닉 생존자 예측을 하였다. https://dacon.io/competitions/open/235539/data [재난] 타이타닉 : 누가 살아남았을까? - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 타이타닉은 역사상 가장 유명한 난파선 중 하나로, 어떤 승객이 생존했을지 예측하는 대회이다. 데이터 설명 movies_train.csv / movies_test.csv PassengerID : 탑승객 고유 아이디 Survival : 탑승객 생존 유무 (0: 사망, 1: 생존) Pclass : 등실의 등급 Name : 이름 Sex : 성별 Age : 나이 Sibsp : 함께 탐승한 형제자매, 아내, 남편의 수 Parch : 함께.. 2022. 2. 19.
[Dacon study] 1. 영화 관객수 예측 모델 개발 이때까지 파이썬과 분석 공부를 하였지만, 다시 데이터 분석과 머신러닝의 기초부터 차근차근 시작하자..는 생각으로 시작했다. 그리하여 데이콘에서 영화 관객수 예측 모델 개발부터 시작하였다. https://dacon.io/competitions/open/235536/data [문화] 영화 관객수 예측 모델 개발 - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 영화 관객수를 예측하는 대회이며 누구나 참여할 수 있는 연습용으로 적절한 대회이다. 데이터 설명 movies_train.csv / movies_test.csv title : 영화의 제목 distributor : 배급사 genre : 장르 release_time : 개봉일 time : 상영시간(분) screening_ra.. 2022. 2. 14.
[2-4]타이타닉 생존자 예측 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline 타이타닉 데이터 : http:///www.kaggle.com/titanic/data titanic_df=pd.read_csv('C:/Users/dudtj/OneDrive - 숭실대학교 - Soongsil University/Desktop/CL/python/파이썬 머신러닝 완벽가이드/titanic_train.csv') titanic_df.head(3) print(titanic_df.info()) print(titanic_df.isnull().sum()) 이를 통해 Age,Cabin,Embarked에 Null값.. 2022. 1. 5.
[#3]데이터 전처리 데이터 인코딩 from sklearn.preprocessing import LabelEncoder items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서'] #LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행 encoder=LabelEncoder() encoder.fit(items) labels=encoder.transform(items) print('인코딩 변환값:',labels) print('인코딩 클래스:',encoder.classes_) print('디코딩 원본값:',encoder.inverse_transform([4,5,2,0,1,1,3,3])) 원-핫 인코딩(One-Hot Encoding) 각 속성을 분.. 2022. 1. 1.
[2. (2) 교차 검증] 과적합(Overfitting)은 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측에서 성능이 과도하게 떨어지는 것이다. 교차 검증은 본시험에 앞서 모의 시험을 여러번 치루는 것과 같다. 데이터 편중을 막기 위해서 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것이다. K fold 교차 검증 K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴트 세트에 학습과 검증 평가를 반복적으로 수행하는 방법이다. 아래 그림은 K=5인 경우이다. from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score from sklearn.model_selection import .. 2021. 12. 30.
[2. (1) 붓꽃 품종 예측하기] 1. 붓꽃 품종 예측하기 Classification은 대표적인 Supervised Learning 방법 중 하나이다. #conda install scikit-learn from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split import pandas as pd #load iris = load_iris() #iris.data has iris data set iris_data = iris.data iris_label=iris.target print("iris target 값: ",iris_label) print("ir.. 2021. 12. 29.