본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

머신러닝30

Hands-on ML : 4. 6 로지스틱 회귀 4.6 로지스틱 회귀 로지스틱 회귀(logistic regression)는 샘플이 특정 클래스에 속할 확률을 추정하는 데 널리 사용된다. 추정 확률이 50% 이상이면 모델은 그 샘플이 해당 클래스에 속한다고 예측, 아니면 클래스에 속하지 않는다고 예측한다. -> 이진 분류기이다. 4.6.1 확률 추정 로지스틱 회귀 모델은 입력 특성의 가중치 합에 편향을 더해 계산한다. 이때 선형 회귀처럼 바로 결과를 출력하지 않고, 결과값의 로지스틱(logistic)을 출력한다. 로지스틱은 0 과 1 사이의 값을 출력하는 시그모이드 함수(sigmoid function)이다. 이 함수를 거쳐나온 확률값으로 최종적으로 주어진 데이터가 어느 클래스에 속할지에 대해 결정하게 된다. 보통 확률값이 0.5 이상이면 1 (양성 클래.. 2022. 5. 26.
Hands-on ML : 4. 3 다항회귀 및 4.4 학습곡선 4.3 다항회귀 import numpy as np import matplotlib.pyplot as plt m = 100 X = 6 * np.random.rand(m,1) - 3 y = 0.5 * X**2 + X + 2 + np.random.randn(m,1) # 약간의 노이즈 포함 plt.plot(X,y,"b.") plt.show() 사이킷런의 PolynomialFeatures를 사용하여 훈련 데이터를 변환 from sklearn.preprocessing import PolynomialFeatures poly_features = PolynomialFeatures(degree=2, include_bias=False) X_poly = poly_features.fit_transform(X) print(X[0.. 2022. 5. 19.
Hands-on ML : 2.1 실제 데이터로 작업&2.2 큰 그림 보기 2.2.1 문제 정의 비즈니스의 목적이 정확하게 무엇인가요? 목적은 문제 구성이나 알고리즘, 모델 평가에 사용되는 성능 지표, 모델 튜닝 등을 결정하기 때문에 중요하다. 파이프라인(pipeline) : 데이터 처리 컴포넌트들이 연속되어 있는 것이다. 보통 컴포넌트들은 비동기적으로 동작 각 컴포넌트는 많은 데이터를 추출해 처리하고 그 결과를 다른 데이터 저장소로 보낸다. 일정 시간 후 파이프라인의 다음 컴포넌트가 그 데이터를 추출해 자신의 출력 결과를 만든다. Data extracting: 데이터 추출 Data transforming: 데이터 변환 Data combining: 데이터 결합 Data validating: 데이터 검증 Data loading: 데이터 적재 ETL : Extractin, Tran.. 2022. 3. 24.
Hands-on ML : 1.5 머신러닝의 주요 도전 과제 &1.6 테스트와 검증 1.5.1 충분하지 않은 양의 훈련 데이터 1.5.2 대표성 없는 훈련 데이터 샘플링 잡음 (sampling noise) : 샘플이 작을 경우. 즉, 우연에 의한 대표성 없는 데이터의 경우 생김. 샘플링 편향 (sampling bias) : 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지 못함. 1.5.3 낮은 품질의 데이터 일부 샘플이 이상치라면 무시하거나 수동으로 고치는 것이 좋다. 일부 샘플에 특성 몇 개가 빠져있다면 이 특성을 모두 무시할지, 이 샘플을 무시할지, 빠진 값을 채울지 등 결정해야 한다. 1.5.4 관련 없는 특성 특성 선택(feature selection) : 가지고 있는 특성 중 훈련에 가장 유용한 특성을 선택 특성 추출(feature extraction) : 특성을 결합.. 2022. 3. 23.
Hands-on ML : 1.4 머신러닝 시스템의 종류 1.4 머신러닝 시스템의 종류 1.4.1 지도 학습과 비지도 학습 지도 학습 (supervised learning) : 훈련 데이터에 레이블(label)이 포함된 학습 k-최근접 이웃(k-nearest neighbors) 선형 회귀(linear regression) 로지스틱 회귀(logistic regression) 서포트 벡터 머신(support vector machine) 결정 트리(decision tree) & 랜덤 포레스트(random forest) 신경망 (neural networks) 비지도 학습 (unsupervised learning) : 훈련 데이터에 레이블(label)이 비포함된 학습 군집(clustering) -k-평균(k-means) -DBSCAN -계층 군집 분석 (HCA) -이상.. 2022. 3. 23.
이상치 탐지] 논문 리뷰 -(3)Deep-Compact-Clustering Based Anomaly Detection Applied to Electromechanical Industrial Systems Deep-Compact- Clustering Based Anomaly Detection Applied to Electromechanical Industrial Systems 본 논문은 MDPI 논문이며, sensors 저널에 등록된 논문이다. Impact Factor는 4.35이며, Unsupervised anomaly detection으로 클러스터링을 이용한 이상값 감지 방법론이다. 또한 LSTM을 기반으로 한 Autoencoder을 쓰기에 이상치 탐지에 적합하다고 생각했다. 아래 그림은 DAECC-DC-SVM 방법의 틀로서, 제안된 이상 탐지 모니터링 방법론의 단계별 흐름도이다. 3. Methodology 3.1. Data Acquisition 제안된 방법론의 첫 번째 단계는 회전 시스템의 상태와 관.. 2022. 3. 10.