본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

ML20

Hands-on ML : 1.5 머신러닝의 주요 도전 과제 &1.6 테스트와 검증 1.5.1 충분하지 않은 양의 훈련 데이터 1.5.2 대표성 없는 훈련 데이터 샘플링 잡음 (sampling noise) : 샘플이 작을 경우. 즉, 우연에 의한 대표성 없는 데이터의 경우 생김. 샘플링 편향 (sampling bias) : 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지 못함. 1.5.3 낮은 품질의 데이터 일부 샘플이 이상치라면 무시하거나 수동으로 고치는 것이 좋다. 일부 샘플에 특성 몇 개가 빠져있다면 이 특성을 모두 무시할지, 이 샘플을 무시할지, 빠진 값을 채울지 등 결정해야 한다. 1.5.4 관련 없는 특성 특성 선택(feature selection) : 가지고 있는 특성 중 훈련에 가장 유용한 특성을 선택 특성 추출(feature extraction) : 특성을 결합.. 2022. 3. 23.
Hands-on ML : 1.4 머신러닝 시스템의 종류 1.4 머신러닝 시스템의 종류 1.4.1 지도 학습과 비지도 학습 지도 학습 (supervised learning) : 훈련 데이터에 레이블(label)이 포함된 학습 k-최근접 이웃(k-nearest neighbors) 선형 회귀(linear regression) 로지스틱 회귀(logistic regression) 서포트 벡터 머신(support vector machine) 결정 트리(decision tree) & 랜덤 포레스트(random forest) 신경망 (neural networks) 비지도 학습 (unsupervised learning) : 훈련 데이터에 레이블(label)이 비포함된 학습 군집(clustering) -k-평균(k-means) -DBSCAN -계층 군집 분석 (HCA) -이상.. 2022. 3. 23.