본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
공부하는 습관을 들이자/Machine Learning For Study

Hands-on ML : 2.1 실제 데이터로 작업&2.2 큰 그림 보기

by 꿀먹은데이터 2022. 3. 24.

2.2.1 문제 정의

비즈니스의 목적이 정확하게 무엇인가요?

목적은 문제 구성이나 알고리즘, 모델 평가에 사용되는 성능 지표, 모델 튜닝 등을 결정하기 때문에 중요하다.

 

파이프라인(pipeline) : 데이터 처리 컴포넌트들이 연속되어 있는 것이다.

  • 보통 컴포넌트들은 비동기적으로 동작
  • 각 컴포넌트는 많은 데이터를 추출해 처리하고 그 결과를 다른 데이터 저장소로 보낸다.
  • 일정 시간 후 파이프라인의 다음 컴포넌트가 그 데이터를 추출해 자신의 출력 결과를 만든다.

  • Data extracting: 데이터 추출
  • Data transforming: 데이터 변환
  • Data combining: 데이터 결합
  • Data validating: 데이터 검증
  • Data loading: 데이터 적재

ETL : Extractin, Transforming, Loading (추출 변환 적재)
ETL은 데이터 파이프라인 하위 개념으로, 하나의 시스템에서 데이터를 추출해 변환하여 DB or DW에 쌓아둔다.

2.2.2 성능 측정 지표 선택

평균 제곱근 오차(root mean square error) RMSE

  • 회귀 문제의 전형적인 성능 지표

평균 제곱근 오차

평균 절대 오차 (mean absolute error)

  • 이상치로 보이는 구역이 많은 경우

평균 절대 오차

2.2.3 가정 검사

지금까지 만든 가정을 나열하고 검사한다.

 

 

 

다음으로는 직접 파이썬을 가동시키는 포스팅을 할 예정이다.

참고 문헌 :

https://book.naver.com/bookdb/book_detail.nhn?bid=16328592 

 

핸즈온 머신러닝

머신러닝 전문가로 이끄는 최고의 실전 지침서 텐서플로 2.0을 반영한 풀컬러 개정판 『핸즈온 머신러닝』은 지능형 시스템을 구축하려면 반드시 알아야 할 머신러닝, 딥러닝 분야 핵심 개념과

book.naver.com