본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
공부하는 습관을 들이자/Machine Learning For Study

Hands-on ML : 1.5 머신러닝의 주요 도전 과제 &1.6 테스트와 검증

by 꿀먹은데이터 2022. 3. 23.

1.5.1 충분하지 않은 양의 훈련 데이터

1.5.2 대표성 없는 훈련 데이터

  • 샘플링 잡음 (sampling noise) : 샘플이 작을 경우. 즉, 우연에 의한 대표성 없는 데이터의 경우 생김.
  • 샘플링 편향 (sampling bias) : 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지 못함.

1.5.3 낮은 품질의 데이터

  • 일부 샘플이 이상치라면 무시하거나 수동으로 고치는 것이 좋다.
  • 일부 샘플에 특성 몇 개가 빠져있다면 이 특성을 모두 무시할지, 이 샘플을 무시할지, 빠진 값을 채울지 등 결정해야 한다.

1.5.4 관련 없는 특성

  • 특성 선택(feature selection) : 가지고 있는 특성 중 훈련에 가장 유용한 특성을 선택
  • 특성 추출(feature extraction) : 특성을 결합하여 더 유용한 특성을 만듬. 예를 들어 PCA 등

1.5.5 훈련 데이터 과대적합 (overfitting)

  1. 파라미터 수가 적은 모델을 선택하거나, 훈련 데이터에 있는 특성 수를 줄이거나, 모델에 제약하여 단순화
  2. 훈련 데이터를 더 많이 모은다.
  3. 훈련 데이터의 잡음을 줄인다.
  • 규제(regularization) : 모델을 단순하게 하고 과대적합의 위험을 감소시키기 위해 모델에 제약을 가하는 것
  • 자유도(degree of freedom) - 훈련 데이터 모델을 맞추기 위한 두 개의 자유도를 학습 알고리즘에 부여
  • 하이퍼파라미터(hyperparameter) : 학습하는 동안 적용할 규제의 양을 결정

1.5.6 훈련 데이터 과소적합 (underfitting)

  • 모델 파라미터가 더 많은 강력한 모델을 선택
  • 학습 알고리즘에 더 좋은 특성을 제공
  • 모델의 제약을 줄임 (예를 들면 규제 하이퍼파라미터를 감소시킴)

과소적합 & 과대적합

1.6 테스트와 검증

1.6.1 하이퍼파라미터 튜닝과 모델 선택

  • 홀드아웃 검증(holdout validataion): 일반적인 모델 검증 방법이다. 전체 데이터셋에서 테스트 데이터를 분리하고 남은 학습 데이터의 이루부를 검증 데이터셋으로 분리하는 방법이다.

이미지 출처 :  datavedas.com

  • 교차 검증(cross-validation):  작은 검증 세트를 여러 개를 사용해 반복적으로 검증을 수행하는 방법

이미지 출처 :  researchgate.net

참고 문헌 :

https://book.naver.com/bookdb/book_detail.nhn?bid=16328592 

 

핸즈온 머신러닝

머신러닝 전문가로 이끄는 최고의 실전 지침서 텐서플로 2.0을 반영한 풀컬러 개정판 『핸즈온 머신러닝』은 지능형 시스템을 구축하려면 반드시 알아야 할 머신러닝, 딥러닝 분야 핵심 개념과

book.naver.com