본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

공부하는 습관을 들이자/Python_ML5

[2-4]타이타닉 생존자 예측 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline 타이타닉 데이터 : http:///www.kaggle.com/titanic/data titanic_df=pd.read_csv('C:/Users/dudtj/OneDrive - 숭실대학교 - Soongsil University/Desktop/CL/python/파이썬 머신러닝 완벽가이드/titanic_train.csv') titanic_df.head(3) print(titanic_df.info()) print(titanic_df.isnull().sum()) 이를 통해 Age,Cabin,Embarked에 Null값.. 2022. 1. 5.
[#3]데이터 전처리 데이터 인코딩 from sklearn.preprocessing import LabelEncoder items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서'] #LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행 encoder=LabelEncoder() encoder.fit(items) labels=encoder.transform(items) print('인코딩 변환값:',labels) print('인코딩 클래스:',encoder.classes_) print('디코딩 원본값:',encoder.inverse_transform([4,5,2,0,1,1,3,3])) 원-핫 인코딩(One-Hot Encoding) 각 속성을 분.. 2022. 1. 1.
[2. (2) 교차 검증] 과적합(Overfitting)은 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측에서 성능이 과도하게 떨어지는 것이다. 교차 검증은 본시험에 앞서 모의 시험을 여러번 치루는 것과 같다. 데이터 편중을 막기 위해서 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것이다. K fold 교차 검증 K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴트 세트에 학습과 검증 평가를 반복적으로 수행하는 방법이다. 아래 그림은 K=5인 경우이다. from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score from sklearn.model_selection import .. 2021. 12. 30.
[2. (1) 붓꽃 품종 예측하기] 1. 붓꽃 품종 예측하기 Classification은 대표적인 Supervised Learning 방법 중 하나이다. #conda install scikit-learn from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split import pandas as pd #load iris = load_iris() #iris.data has iris data set iris_data = iris.data iris_label=iris.target print("iris target 값: ",iris_label) print("ir.. 2021. 12. 29.
부스팅 알고리즘 부스팅 알고리즘 종류 AdaBoost GBM(Gradient Boosting Machine) XGBoost LightGBM CatBoost AdaBoost Adaptive Boost의 줄임말로 약한 학습기(weak learner)의 오류 데이터에 가중치를 두어 더하는 알고리즘이다. AdaBoost는 이전의 분류기에 의해 잘못 분류된 것들을 이어지는 약한 학습기들이 수정해줄 수 있다. 따라서 AdaBoost는 잡음이 많은 데이터와 이상점에 취약한 모습을 보이는 반면 과적합(overfitting)에 덜 취약한 모습을 보인다. Decision Tree를 약한 학습기로 사용한다. AdaBoost의 경우 아래와 같은 방식으로 학습을 진행한다. 1. (1) 첫번째 약한 학습기가 Iteration 1의 경우 선을 기.. 2021. 12. 29.