본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
가치를 창출하는 데이터 분석/Brightics AI 데이터 분석

[삼성 SDS Brightics]# 개인 분석 프로젝트(1) Brightics로 보는 금융사기분석 💲 (+ 데이터 셋 선정)

by 꿀먹은데이터 2022. 10. 4.

안녕하세요!

브라이틱스 서포터즈 3기 서영석입니다.

 

저번 주 팀 영상 포스팅을 마지막으로

팀 분석 프로젝트가 마무리가 되었는데요.

이번 주차부터 6주간 개인 분석 프로젝트

끝으로 브라이틱스 서포터즈 활동이 마무리가 됩니다!

 

벌써 마지막 프로젝트라니..!!

시간이 빨리 지나가는 것 같아요 ㅎㅎ

아쉬움과 후회 없도록

마지막까지 열심히 임하겠습니다! 😀

 

인트로.

사실 주제 선정

가장 많은 시간을 투자하는 것 같아요.

 

무엇을 분석할 것이고, 분석하려는 의의와

어떻게 분석할지, 얻어내는 결과물은 무엇인지 등

주제와 데이터를 선정하는데 있어

많은 사전조사가 필요한 것 같습니다 😋

 

마침! 브라이틱스 사무국에서

Brightics AI 솔루션이 도입된 공개 데이터셋을 알려주셔서

직접 프로젝트에 활용하는 계기가 되었습니다.

 

무엇이냐면~~!!!

 

'스마트 치안 빅데이터 플랫폼'

사이트입니다.

 

치안데이터와 범죄 데이터 등을

분석할 수 있도록 무료/유료 데이터를 제공해주는

공공데이터 사이트 중 하나입니다 :)

이 외에도

소방안전 빅데이터 플랫폼 / KODAS (기획재정부 데이터 분석 서비스) 등

B.AI 솔루션이 도입된

실제 고객사들의 공개 데이터셋을

브라이틱스를 통해

직접 활용해볼 수 있습니다 :)

주제 선정

제가 최근 슬픈 소식이 있었는데요..😥😥

스벅타스 음료를 값싸게 먹으려고

중고거래를 이용 중

기프티콘과 관련해서 금융 사기를 당했습니다 😅

몇 번이고 전화해봤지만..

거래자에게 차단을 당하고 말았답니다 흑흑

 

비록 적은 돈이기에 신고도 안하고,

피해가 크지는 않았지만

 

주위에서 금융사기를 듣기만 하다

직접 금융사기를 당해보니

마음이 아프더라구요

(여러분들도 거래하실 때, 사용일자나 거래자 신분 등을 꼭 확인하세요 하하..)

이에 한국금융소비자보호재단에 따르면

 

금융사기로 인한 평균 피해금액은 2,141만원에 달하고,
금전적 피해를 입은 사람의 54.5%는 피해금액을 회수하지 못했다.

한국금융소비자보호재단

이처럼 금융사기의 피해금액의 크기는 크고,

피해금액 회수율도 낮은 편인데요.

 

마침 '스마트 치안 빅데이터 플랫폼'

저와 같은 피해자들과 용의자들과 관련된

금융사기와 관련된 데이터들이 있어

 

이에 따른 EDA와 각종 데이터들을 뜯어보는 프로젝트를 진행하고자 합니다 :)

 

그래서!! 주제는 '금융사기를 파헤쳐보자!' 입니다 ㅎㅎ

데이터 선정
 

금융사기와 관련된 데이터를 살펴보면..

아래와 같이 총 27건의 데이터를 알 수 있습니다 :)

와.. 사실 어제까지만 해도,

22년 1월부터 8월까지의 기간을 잡았는데요.

10월 4일 오늘 업데이트된 내용을 보면 9월의 데이터도 업데이트가 되었네요!

이전 작업했던 내용을 다시 합쳐봐야겠습니다 ㅎㅎ

 

이렇게 많은 데이터 중,

 

1. 금융사기 피해자의 연령대별 지역데이터

 
컬럼영문명 (한글)
데이터타입
예시
INNB (고유번호)
NUMBER
1
BRY_SCTN (생년구간)
VARCHAR
2000-2010
WDAR_CTPR_NM (광역시도명)
VARCHAR
서울특별시
LEGAL_SIGUNGU_NM (법정시군구명)
VARCHAR
중구
RGSTN_DT (등록일시)
VARCHAR
20220301220419317XXX

 

2. 금융사기 피해자의 성별 지역데이터

컬럼영문명 (한글)
데이터타입
예시
INNB (고유번호)
NUMBER
1
SEX (성별)
VARCHAR
여자
WDAR_CTPR_NM (광역시도명)
VARCHAR
서울특별시
LEGAL_SIGUNGU_NM (법정시군구명)
VARCHAR
중구
RGSTN_DT (등록일시)
VARCHAR
20220301220419317XXX

 

3. 금융사기 피해 발생 수 데이터

컬럼영문명 (한글)
데이터타입
예시
INNB (고유번호)
NUMBER
1
RGSTN_DT (등록일시)
VARCHAR
20220301220419317XXX
DAMGE_OCRN_CNT (피해발생수)
NUMBER
725

 

4. 금융사기에 이용된 데이터_증권/ 1금융권

컬럼영문명 (한글)
데이터타입
예시
INNB (고유번호)
NUMBER
1
RGSTN_DT (등록일시)
VARCHAR
20220301220419317XXX
BNCD (은행코드)
VARCHAR
27X
BANK_NM (은행명)
VARCHAR
XX금융투자
RGSTN_DT (등록일시)
VARCHAR
20220301220419317XXX

 

보기만해도 많은 데이터의 양이 예상되시죠?

앞으로 분석을 진행하는데 있어

더 필요할 데이터가 있을지는 모르겠습니다.

 

만약! 부족하다면 데이터를 더 추가할 예정이에요 ㅎㅎ

엑셀 정리...

이렇게 데이터셋을 파일에 정리한 뒤,

 

 
 
 

'스마트치안 빅데이터' 에서 엑셀을 다운받게 되면,

직접 엑셀을 병합해줘야하는 불상사가 생긴답니다..

 

22년 1월부터 9월까지의 데이터를

각 월에 대한 데이터를 모두 하나로 합쳐주는 것부터

준비를 하였습니다.

 

이 후 join을 통해 하나의 데이터셋으로

합치는 과정을 진행해보았는데요...!!

궁금하시죠??

그렇다면 다음주에 구경오세요 ㅎㅎ

 

마무링

앞으로 6주간의 계획을 말씀드리면..

1주차 (이번 포스팅) : 데이터 셋 결정 및 전처리

2주차 : 데이터 Merge 및 연관성, 상관성 파악

3주차 : 분석 모델링 전 데이터 정제 과정

4주차 : 분석 모델링을 통한 결과 도출

5주차 : 프로젝트 총 정리

6주차 : 프로젝트 후기 및 보고서 작성

 

으로 진행하고자 합니다 :)

 

 

 

사실상 예측 / 분류 등의 프로젝트만 진행하다보니,

어떤 결과를 나을까 걱정도 되지만

문제를 정의한 뒤,

분석과 어떤 결과가 나올지 모르는

프로젝트를 진행해보고자 합니다.

 

사실상, 어떻게 보면 큰 도전이기도 한데요.

브라이틱스를 사용해서 도전해보지, 언제 해볼까해요 ㅎㅎ

 

그럼 기대해주세요!

본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.