본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
가치를 창출하는 데이터 분석/Brightics AI 데이터 분석

[삼성 SDS Brightics] Brightics Studio 활용

by 꿀먹은데이터 2022. 5. 14.

https://honeyofdata.tistory.com/66

지난 포스팅에 이어 이상치 탐지의 시각적 분석을 해보려고 한다.

 

Boxplot

boxplot도 확인해주고

Histogram

count된 histogram도 확인해주었다.

시간에 따른 plot도 확인해주었다.

 

이제 이상치 탐지(Outlier Detection)에 Turkey 방식으로 TVOC의 열만 이상치 제거를 해주었다.

이상치 전후 비교

Histogram

-왼쪽 히스토그램 : 이상치 제거 전                                    ,     -오른쪽 히스토그램 : 이상치 제거 후 (Turkey방법)

 

아래 그림의 경우, 왼쪽 분포와 오른쪽 분포가 비슷한 양상을 보이는 것처럼 보여도, 두 그래프의 y축의 범위가 다르다.

뿐만 아니라, outlier로 보이는 긴 선도 제거되었음을 볼 수 있다. 

bar plot

                       y축 범위 : 0-7000                                                          y축 범위 : 0-5000

 

Scatter plot & bar plot

아래 그림처럼, 다른 스타일의 두 그래프를 나열하며 어떤 부분이 이상치인지 판별하기 쉽게 시각화를 할 수 있다.

Box plot

아래 그림과 같이 outlier들이 제거된 양상을 볼 수 있다. 

그림에서는 outlier가 확연히 차이가 나지 않는 것처럼 보이지만, 이는 y축의 범위가 다르기 때문이다.

                box plot의 y축 범위 : 0~6000                                   box plot의 y축 범위 : 0~5000

각종 함수들

전체 함수들의 예시이다.

보면 pca도 있고, anova, ml 기법으로는 AdaBoost부터 네이브 베이지안까지...

내가 아는 기법들은 다 있는 것 같다.. 

후기

왜 이제야 알았을까 싶을정도로 간편한 툴에 다양한 분석과 시각화까지.. csv만 붙여넣으면 알아서 해주는 툴에 찬사를 보낸다. Azure ML 툴 이후 사용하는 Brightics툴은 다른 매력이 있다.

 

  • 일단 Brainstoming을 하는데 있어 쉽고 빠르게 구조를 그릴 수 있다.
  • 쓴 지 별로 안되었는데도.. 시스템을 쉽고 빠르게 이해할 수 있다.
  • 빠르게 시각화를 해야하는 작업에는 코딩 없이 사용하기 편한 것 같다.