1.5.1 충분하지 않은 양의 훈련 데이터
1.5.2 대표성 없는 훈련 데이터
- 샘플링 잡음 (sampling noise) : 샘플이 작을 경우. 즉, 우연에 의한 대표성 없는 데이터의 경우 생김.
- 샘플링 편향 (sampling bias) : 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지 못함.
1.5.3 낮은 품질의 데이터
- 일부 샘플이 이상치라면 무시하거나 수동으로 고치는 것이 좋다.
- 일부 샘플에 특성 몇 개가 빠져있다면 이 특성을 모두 무시할지, 이 샘플을 무시할지, 빠진 값을 채울지 등 결정해야 한다.
1.5.4 관련 없는 특성
- 특성 선택(feature selection) : 가지고 있는 특성 중 훈련에 가장 유용한 특성을 선택
- 특성 추출(feature extraction) : 특성을 결합하여 더 유용한 특성을 만듬. 예를 들어 PCA 등
1.5.5 훈련 데이터 과대적합 (overfitting)
- 파라미터 수가 적은 모델을 선택하거나, 훈련 데이터에 있는 특성 수를 줄이거나, 모델에 제약하여 단순화
- 훈련 데이터를 더 많이 모은다.
- 훈련 데이터의 잡음을 줄인다.
- 규제(regularization) : 모델을 단순하게 하고 과대적합의 위험을 감소시키기 위해 모델에 제약을 가하는 것
- 자유도(degree of freedom) - 훈련 데이터 모델을 맞추기 위한 두 개의 자유도를 학습 알고리즘에 부여
- 하이퍼파라미터(hyperparameter) : 학습하는 동안 적용할 규제의 양을 결정
1.5.6 훈련 데이터 과소적합 (underfitting)
- 모델 파라미터가 더 많은 강력한 모델을 선택
- 학습 알고리즘에 더 좋은 특성을 제공
- 모델의 제약을 줄임 (예를 들면 규제 하이퍼파라미터를 감소시킴)
1.6 테스트와 검증
1.6.1 하이퍼파라미터 튜닝과 모델 선택
- 홀드아웃 검증(holdout validataion): 일반적인 모델 검증 방법이다. 전체 데이터셋에서 테스트 데이터를 분리하고 남은 학습 데이터의 이루부를 검증 데이터셋으로 분리하는 방법이다.
- 교차 검증(cross-validation): 작은 검증 세트를 여러 개를 사용해 반복적으로 검증을 수행하는 방법
참고 문헌 :
https://book.naver.com/bookdb/book_detail.nhn?bid=16328592
'공부하는 습관을 들이자 > Machine Learning For Study' 카테고리의 다른 글
Hands-on ML : 4. 2 확률적 경사하강법, 미니배치 경사 하강법 (0) | 2022.05.18 |
---|---|
Hands-on ML : 4. 2 경사 하강법 (0) | 2022.05.17 |
Hands-on ML : 4. 선형 회귀 및 계산 복잡도 (시간복잡도, 공간복잡도) (0) | 2022.05.12 |
Hands-on ML : 2.1 실제 데이터로 작업&2.2 큰 그림 보기 (0) | 2022.03.24 |
Hands-on ML : 1.4 머신러닝 시스템의 종류 (0) | 2022.03.23 |