공부하는 습관을 들이자/Machine Learning For Study
Hands-on ML : 2.1 실제 데이터로 작업&2.2 큰 그림 보기
꿀먹은데이터
2022. 3. 24. 18:48
2.2.1 문제 정의
비즈니스의 목적이 정확하게 무엇인가요?
목적은 문제 구성이나 알고리즘, 모델 평가에 사용되는 성능 지표, 모델 튜닝 등을 결정하기 때문에 중요하다.
파이프라인(pipeline) : 데이터 처리 컴포넌트들이 연속되어 있는 것이다.
- 보통 컴포넌트들은 비동기적으로 동작
- 각 컴포넌트는 많은 데이터를 추출해 처리하고 그 결과를 다른 데이터 저장소로 보낸다.
- 일정 시간 후 파이프라인의 다음 컴포넌트가 그 데이터를 추출해 자신의 출력 결과를 만든다.
- Data extracting: 데이터 추출
- Data transforming: 데이터 변환
- Data combining: 데이터 결합
- Data validating: 데이터 검증
- Data loading: 데이터 적재
ETL : Extractin, Transforming, Loading (추출 변환 적재)
ETL은 데이터 파이프라인 하위 개념으로, 하나의 시스템에서 데이터를 추출해 변환하여 DB or DW에 쌓아둔다.
2.2.2 성능 측정 지표 선택
평균 제곱근 오차(root mean square error) RMSE
- 회귀 문제의 전형적인 성능 지표
평균 절대 오차 (mean absolute error)
- 이상치로 보이는 구역이 많은 경우
2.2.3 가정 검사
지금까지 만든 가정을 나열하고 검사한다.
다음으로는 직접 파이썬을 가동시키는 포스팅을 할 예정이다.
참고 문헌 :
https://book.naver.com/bookdb/book_detail.nhn?bid=16328592
핸즈온 머신러닝
머신러닝 전문가로 이끄는 최고의 실전 지침서 텐서플로 2.0을 반영한 풀컬러 개정판 『핸즈온 머신러닝』은 지능형 시스템을 구축하려면 반드시 알아야 할 머신러닝, 딥러닝 분야 핵심 개념과
book.naver.com