본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

ML20

Hands-on ML : 4. 2 확률적 경사하강법, 미니배치 경사 하강법 배치 경사 하강법 문제점 배치 경사 하강법의 문제는 매 스텝에서 전체 훈련 세트를 사용해 그레디언트를 계산한다는 것이다. 훈련 세트가 커지면 매우 느려지는 이유로 확률적 경사하강법을 사용한다. 확률적 경사하강법 매 스텝에서 한 개의 샘플을 무작위 선택하고 그에 대한 그레이디언트를 계산한다. 매 반복에서 적은 데이터를 처리하기에 속도가 매우 빠르며, 1개 샘플에 대한 메모리만 필요하므로 매우 큰 훈련 데이터 셋도 가능하다. 반면에 확률적이기에 배치 경사 하강법보다 불안정하다는 단점이 있다. 또한 매끄러운 하강이 아닌 요동치는 것을 볼 수 있는데, 요동치는 것은 지역 최솟값을 뛰어넘어서 전역 최솟값을 찾게 도와줄 수 있다. 학습률이 너무 천천히 줄어들면 오랫동안 최솟값 주변을 맴돌거나 지역 최솟값에 머무를 .. 2022. 5. 18.
Hands-on ML : 4. 2 경사 하강법 경사 하강법 (gradient descent) 최적의 해법을 찾을 수 있는 일반적인 최적화 알고리즘 아이디어 : 비용 함수를 최소화하기 위해 반복해서 파라미터 조정해가는 것. 제시된 함수의 기울기로 최소값을 찾아내는 머신러닝 알고리즘 1. 특정 파라미터 값으로 시작 : 가중치 W1에 대한 시작점을 선택한다. 2. 비용 함수 (Cost function) 계산 : 모델을 구성하는 가중치 W의 함수 3. 반복 학습 (iteration) : 과정을 n번 반복하며 최소값으로 수렴. (스텝의 크기가 중요) -> numeric analysis에서의 수치적 접근법과 같다. ( ex) Bisection algorithm etc..) 4.2.1 배치 경사 하강법 경사 하강법을 구현하기 위해 각 모델 파라미터에 대한 비용 .. 2022. 5. 17.
[삼성 SDS Brightics] Brightics Studio 소개 지인을 통해 삼성 SDS Brightics를 알게 되었고, 어떤 툴인지 궁금하여 직접 설치해 활용해보기로 하였다. 역시.. SDS 깔끔한 이미지로 Brightics AI를 사용해보고 싶었으나, 혹시 나중을 위해 Brightics Studio를 사용하기로 하였다. 뭔가 처음 게임을 설치하는 것처럼 처음 쓰는 툴에 매력을 느꼈다.. 또한 ML/DL로 나눠져있는 것으로 보아 DL은 노트북으로 돌리다가 터지겠다..는 생각이 들었다. 다음에 시도해봐야겠다.. 이제 진행과정을 보자. STEP1 . 로컬의 분석하고 싶은 데이터를 불러온다. STEP2. 데이터프레임의 컬럼명과 데이터의 예시를 확인한다. First Data = dataframe.head(1)인 것 같다.. STEP3. 변경하고 싶은 컬럼명, 타입의 경우.. 2022. 5. 13.
Hands-on ML : 4. 선형 회귀 및 계산 복잡도 (시간복잡도, 공간복잡도) 4.1 선형 회귀 (Linear regression) 4.1.1 정규방정식 (normal equation) 통계에서 일반 최소 제곱은 선형 회귀 모델에서 알려지지 않은 매개변수를 추정하기 위한 선형 최소제곱 방법의 한 유형 이를 파이썬으로 나타내보자. X=2*np.random.rand(100,1) y=4+3*X+np.random.randn(100,1) 정규방정식으로 Theta 구하기. X_b=np.c_[np.ones((100,1)),X] theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y) X_new=np.array([[0],[2]]) X_new_b=np.c_[np.ones((2,1)),X_new] y_predict=X_new_b.dot(theta_.. 2022. 5. 12.
[이상치 탐지] EDA for data(2min) 본 센서는 ver1,ver2,ver3으로 구성되어있으며 가스를 측정하는데 있어 주기가 2분인 센서의 데이터를 가져왔다. 'AI 데이터 연구단'에서 자체적으로 개발한 센서이며 , TVOC,CO2,미세먼지 등 실내 공기의 질을 측정하는 센서이다. 데이터를 측정하는 센서에 따라 시간의 주기가 맞지 않을 때가 있다. 보통 시간의 주기를 1min으로 하면 센서의 시간에 따른 정교성이 부족하다면. 1분 5초에 따라 측정할 수도 있고, 1분 10초 마다 센서로 측정할 수 있어 이를 조정해주는 작업이 필요하다. .. 센서를 정교하게 잘 만든다면 이런 일이 안벌어지지 않을까..?? 이 부분은 결함이 일어날 수도 있다고 생각하고 EDA를 진행하였다. 본 데이터는 2분마다 가스를 측정하는 센서로 TS2,CH2O, 미세먼지 .. 2022. 4. 28.
Hands-on ML : 2.1 실제 데이터로 작업&2.2 큰 그림 보기 2.2.1 문제 정의 비즈니스의 목적이 정확하게 무엇인가요? 목적은 문제 구성이나 알고리즘, 모델 평가에 사용되는 성능 지표, 모델 튜닝 등을 결정하기 때문에 중요하다. 파이프라인(pipeline) : 데이터 처리 컴포넌트들이 연속되어 있는 것이다. 보통 컴포넌트들은 비동기적으로 동작 각 컴포넌트는 많은 데이터를 추출해 처리하고 그 결과를 다른 데이터 저장소로 보낸다. 일정 시간 후 파이프라인의 다음 컴포넌트가 그 데이터를 추출해 자신의 출력 결과를 만든다. Data extracting: 데이터 추출 Data transforming: 데이터 변환 Data combining: 데이터 결합 Data validating: 데이터 검증 Data loading: 데이터 적재 ETL : Extractin, Tran.. 2022. 3. 24.