본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
가치를 창출하는 데이터 분석/Brightics AI 데이터 분석

[삼성 SDS Brightics] # 개인 분석 프로젝트(4) 브라이틱스로 보는 EDA!!(with 노코드 AI 오픈소스의 선두자😄)

by 꿀먹은데이터 2022. 10. 25.

안녕하세요!

삼성 SDS 브라이틱스 서포터즈 3기 서영석입니다 😊

 

저번주의 데이터 전처리의 중요 요소 중 하나인 

Label Encoder와 One Hot Encoder에 이어서

오늘은 탐색적 분석으로 데이터 변수들의 파악을 중심으로 포스팅을 진행하고자 합니다!


저번주에는.. 벨기에에서 작업을 진행했었는데요.

이번주는 룩셈부르크에서 진행하였습니다.

(주제를 국가들의 분류로 할 걸 그랬나요? ㅎ_ㅎ)

 

아! 포스팅 하기 전 서포터즈의 중요 역할을 진행했는데요.

우연히 기차에서 만난 외국인이 제가 하는 것을 유심히 보더니,

어떤 프로그램인지 궁금해하여

제가 한 시간동안 브라이틱스 PR하다가 내렸다는..

글로벌로 향하는 브라이틱스에 한 숟가락 올렸다고 해도 될까요…?

뭐 그런 해프닝이 있었답니다!

아! 그리고 아직 유튜브를 안 보셨을 분들을 위해

링크를 다시 달아놓겠습니다!

https://www.youtube.com/watch?v=SRII4fHDvTU&t=14s

시간 되시면 저희 브스상사 뿐만 아니라

다른 서포터즈 분들의 영상도 즐기고 좋아요 눌러주세요 😊

0. 전처리 정정_ One Hot Encoder

전 포스팅에서 Label Encoder와 One Hot Encoder에서

Label Encoder를 '성별, 생년구간'으로

One Hot Encoder를 '광역시도명, 자원인터넷서비스제공자, 법정시군구명'으로 진행하였는데요.

 

그렇게 하다보니 ‘차원의 저주’에 걸려 컬럼의 개수가 몇백개가 되는 현상을 목격하였습니다.

그리하여 법정시군구명까지 내려가는 경우의 분류는 모델 작동에 있어 많은 영향을 미칠 것 같아

‘광역시도명, 자원인터넷서비스제공자’까지 진행하고자 합니다. 😊

뿐만 아니라 다중공선성 방지를 위해

One Hot Encoder에서 다중공선성 방지를 위해

Drop Last 파라미터를 True로 설정하는 것이 필요합니다.

파이썬의 사이킷런에서 drop = True로 놓는 것과 같은 원리인 것 같습니다 :)

(멘토님 감사합니다 :)

 

1. 전체 데이터프레임

그렇게 완성된 컬럼의 수는 456개이며, 로우의 수는 114,138개입니다.

이 중 필요한 X의 컬럼은 month , day , 성별_index ( 남자는 0, 여자는 1), 생년구간_index (연령별 순)

그리고 One Hot Encoder로 만들어진 '광역시도명과 자원인터넷서비스제공자'에 관련된 컬럼들입니다.

저는 은행명을 분류하기 위해 진행을 하기 때문에

Y의 컬럼으로는 은행명 (혹은 은행코드)가 되겠죠?

이제는 각 변수들을 살펴보겠습니다.

2. 성별

 

성별로 보았을 때,

남자의 경우가 여자보다 2배 정도 금융 사기를 당하는 것을 알 수 있습니다.

이유를 찾아보았지만 이유는 따로 추정하지 못했습니다.

(유추될 것 같은 분은 댓글을 남겨주세요 .. ㅎㅎ)

피해자의 경우만 남자가 많은 것인가 궁금해서

용의자 (가해자)의 성별도 파악을 해봤는데요.

 

이 또한 남자가 80%에 달하는 수치로 금융사기와 관련된 성별은 남자가 훨씬 많았습니다.

 

3. 연령대

생년구간(연령대)로 하였을 때, 금융사기와 관련된 피해자의 경우 ,

00년대생 즉 10대 후반 혹은 20대 초반이 가장 많았고,

그 다음이 90년대생, 80년대생 순으로 많았습니다.

4. 광역시도명

전국 인구 수 통계 (22년 09월 기준)을 참고하여 아래 표를 작성하였습니다.

Value
실제 인구 수
실제 인구 수_Freq
count
count_Freq
서울특별시
9,450,768
18%
39,287
33.4%
경기도
13,574,353
26.4%
26,219
22.3%
부산광역시
3,323,826
6.5%
6,283
5.3%
인천광역시
2,960,097
5.8%
5,984
5.1%
경상남도
3,286,470
6.4%
5,203
4.4%
대구광역시
2,367,735
4.6%
5,197
4.4%
충청남도
2,120,269
4.1%
4,525
3.8%
경상북도
2,605,066
5.1%
4,258
3.6%
대전광역시
1,446,602
2.8%
3,275
2.7%
충청북도
1,595,624
3.1%
3,161
2.7%

 

표를 보시면 실제 인구 수 대비 피해자의 데이터에서

서울특별시와 경기도의 비율이 약간 다름을 볼 수 있습니다.

이는 서울특별시에서 금융 거래가 많으며 금융 사기에도 많이 취약하다는 것을 볼 수 있습니다.

오히려 경기도민에 비해 서울특별시의 금융 범죄에 취약하다는 것을 알 수 있습니다.

5. 자원인터넷서비스제공자

통신사 3사인 KT , SK , LG가 고루고루 퍼져있음을 볼 수 있습니다.

사실상 Korea Telecom이 KT, SK ~를 SK, LG ~를 LG로 보면 비율이 비슷함을 알 수 있죠?

6. 날짜와 시기

월별로 나누었을 때, 1월부터 9월까지 골고루 퍼져있음을 알 수 있습니다.

DAY의 경우 모두 골고루 퍼져있음을 알 수 있습니다.

사실상 은행에 영향을 끼치지 않는다고 볼 수 있겠죠?

(만약 요일로 나누게 된다면, 은행이 운행하지 않는 시간인 주말에는 잘 일어나지 않을 것 같습니다 ㅎㅎ)

7. 은행코드 , 은행명

종속변수 Y로 지정한 은행명 (은행코드)의 경우, 가장 중요한 요소라고 볼 수 있습니다.

은행명 (은행코드)로 보았을 때, 카카오뱅크가 약 22%로 많은 부분을 차지하고 있습니다.

사실상 이렇게 2위인 농협보다 약 2배의 데이터 수를 차지하게 되면,

분류에 있어 많이 혼동이 날 것으로 예상이 됩니다.

오늘의 모델링 전까지의 포스팅은 파리의 '몽마르뜨 언덕'에서 마무리를 하였습니다..

멋지죠?? 에스프레소 하나 시켜놓고 앉아서 열심히 뚝딱뚝딱 재밌네요!! ㅎㅎ

모델링 전까지의 모습까지 포스팅을 진행하였는데요.

사실 모델링을 돌리는데 있어, 조금 문제가 생겨 해결하려고 노력중입니다 하하..

만약.. 실패하게 된다면 그거 나름 실패에 대한 포스팅을 진행하고자 합니다.

그래도 그전까지!! 열심히 모델링을 진행해보도록 하겠습니다.


노코딩 AI로 진행하는 브라이틱스.

가면 갈수록 매력도 넘치고 재미난 요소들이 많습니다 ㅎㅎ

https://www.brightics.ai/community/community-forum-detail/937

 

Brightics AI

 

www.brightics.ai

브라이틱스의 9월 뉴스레터인데요.

한번 읽어보시는 것도 좋을 것 같습니다.

노코드 AI로 빠르고 나은 기술로 기업을 발전시키는 삼성 SDS 파이팅입니다 :)

본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.