2.2.1 문제 정의
비즈니스의 목적이 정확하게 무엇인가요?
목적은 문제 구성이나 알고리즘, 모델 평가에 사용되는 성능 지표, 모델 튜닝 등을 결정하기 때문에 중요하다.
파이프라인(pipeline) : 데이터 처리 컴포넌트들이 연속되어 있는 것이다.
- 보통 컴포넌트들은 비동기적으로 동작
- 각 컴포넌트는 많은 데이터를 추출해 처리하고 그 결과를 다른 데이터 저장소로 보낸다.
- 일정 시간 후 파이프라인의 다음 컴포넌트가 그 데이터를 추출해 자신의 출력 결과를 만든다.
- Data extracting: 데이터 추출
- Data transforming: 데이터 변환
- Data combining: 데이터 결합
- Data validating: 데이터 검증
- Data loading: 데이터 적재
ETL : Extractin, Transforming, Loading (추출 변환 적재)
ETL은 데이터 파이프라인 하위 개념으로, 하나의 시스템에서 데이터를 추출해 변환하여 DB or DW에 쌓아둔다.
2.2.2 성능 측정 지표 선택
평균 제곱근 오차(root mean square error) RMSE
- 회귀 문제의 전형적인 성능 지표
평균 절대 오차 (mean absolute error)
- 이상치로 보이는 구역이 많은 경우
2.2.3 가정 검사
지금까지 만든 가정을 나열하고 검사한다.
다음으로는 직접 파이썬을 가동시키는 포스팅을 할 예정이다.
참고 문헌 :
https://book.naver.com/bookdb/book_detail.nhn?bid=16328592
'공부하는 습관을 들이자 > Machine Learning For Study' 카테고리의 다른 글
Hands-on ML : 4. 2 확률적 경사하강법, 미니배치 경사 하강법 (0) | 2022.05.18 |
---|---|
Hands-on ML : 4. 2 경사 하강법 (0) | 2022.05.17 |
Hands-on ML : 4. 선형 회귀 및 계산 복잡도 (시간복잡도, 공간복잡도) (0) | 2022.05.12 |
Hands-on ML : 1.5 머신러닝의 주요 도전 과제 &1.6 테스트와 검증 (0) | 2022.03.23 |
Hands-on ML : 1.4 머신러닝 시스템의 종류 (0) | 2022.03.23 |