본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
가치를 창출하는 데이터 분석/Brightics AI 데이터 분석

[삼성 SDS Brightics]# 03-4. 팀프로젝트(4) 의료비 예측 마무으리!!

by 꿀먹은데이터 2022. 9. 6.

안녕하세요!

브라이틱스 서포터즈 3기 서영석입니다!

저번주로 하여 팀 분석 프로젝트가 마무리가 되었는데요.

이번주에는 간단한 요약과 소감으로 찐!! 마무리를 하려고 합니다 😀

 

이전 포스팅을 못보신 분들을

아래 링크로 한번 읽고 오시면.. 복받으실거에요😁

1️⃣ 개인이 납부할 의료비 예측 (1)

https://blog.naver.com/dudtjr4915/222849374071

2️⃣ 개인이 납부할 의료비 예측 (2)

https://blog.naver.com/dudtjr4915/222855763188

3️⃣개인이 납부할 의료비 예측 (3)

https://blog.naver.com/dudtjr4915/222862117611


의료비 예측 프로젝트 요약

저희는 Medical Cost Personal Datasets 을 가지고

브라이틱스로 의료비 예측을 진행하였습니다.

아래는 브라이틱스로 진행한 전체 프로세스입니다!

복잡해보이지만 간단하게 정리된 모습 보이시죠?

(한눈에 들어올 수 있게 정리되는 브라이틱스에 감탄합니다..!)

 

목차는 다음과 같습니다.

01. 개요

저희 5팀은 아래와 같은 목표로

프로젝트를 진행하였습니다.

사회적·신체적 개인 정보를 기반으로 하는 의료비 예측을 통해,
개인은 본인의 의료비를 직접 예측하여 과납을 막고 그에 상응하는 보험금을 납부한다.
또한 보험회사는 보험료 변화 추세를 파악하여, 그에 맞는 상품을 기획한다.
02. 데이터 EDA

EDA에 대한 프로세스

 

데이터를 살펴보며 팀원들과 어떤 식으로 진행할지에 대해 많은 토론을 거쳤고,

어떠한 양상이 펼쳐지는 데이터인지를 살펴보는 것으로 시작하였습니다!

각각의 데이터와 목표(종속변수)인 의료비와의 관계를 살펴보기도 하였죠😀

이처럼 각각의 가설을 세우고,

통계적인 검정 ( Chi Square Test of Independence , Kruskal-Wallis Test 등 ) 을 통해

가설을 검증하고 어떻게 데이터 변환을 할지에 대해 고민하는 시간을 가졌습니다.

03. Preprocessing

preprocessing에 대한 프로세스입니다.

pre-processing 과정에는 데이터를 정제하며

이상치 제거와 결측치 보완하는 과정, one-hot encoding 과정, label encoding, 로그 변환 등을 통해

각각 독립변수와 종속변수에 맞게 변환을 시켜주는 작업을 하였습니다 😊

04. Modeling

Modeling에 대한 전반적인 프로세스입니다.

모델링 과정을 통해 linear regression, Decision Tree, AdaBoost, Random Forest, XGBoost regression으로 

총 6가지의 모델을 학습시키고 성능을 비교하는 과정을 거쳤습니다.

과정으로는 단순 split data와 train, GridsearchCV를 활용한 train 과정으로 나누어 진행하였습니다.

이에 따라 저희는 의료비 예측에 있어 XGBoost regression이 가장 좋음을 알 수 있었고,

최적 모델로 선정하게 되었습니다.

05. Modeling group by Sex

남성에 따른 모델링의 프로세스입니다.

여성에 따른 모델링의 프로세스입니다.

성별을 나누어 진행한 모델링 과정입니다.

이러한 과정에서 성별을 비교하며 앞서 말한 6가지 모델에 대해 똑같이 진행하였습니다.

이에 따라 여성과 남성 각각의 최적 모델이 무엇인지를 살피고 중요 변수를 알아내는 과정을 거쳤습니다.

여성은 XGBoost regression을, 남성은 RandomForest regression을 최적 모델로 선정하며

이에 따른 중요변수를 같이 살펴볼 수 있었습니다.

06. Result

마지막 결론입니다.

저희 HI:FIVE는 아래와 같은 결론을 지을 수 있었습니다.

이와 같이 성별에 따라 모델링을 진행하며 전반적인 중요도를 판단해봤는데요.

이에 따라 '맞춤형 상품을 기획할 수 있는 중요요소로 채택할 수 있다!'고 생각하였습니다.

 

마무으리.

총 4주간 진행되는 프로젝트에 있어

브라이틱스 팀원들과 협업을 통해 진행을 하였습니다.

 

팀원들과의 협업 덕분에 자세한 통계적인 검정 방법과

모델을 구성하는데 필요한 요소에 대해 자세하게 집중적으로 공부를 할 수 있었습니다.

 

각자의 역할에 충실하며 책임감있게 행동하는 모습에

자극받아 더 열심히 할 수 있었어요.

저 혼자였다면 이정도까지의 디테일과

더욱더 자세하게 프로젝트를 진행하지는 못했을거에요.

 

이번 프로젝트를 통해 분석적으로도 배운 점도 많았지만,

제가 부족했던 점을 팀원들에게 배울 수 있는 프로젝트였던 것 같습니다.

(저희 5팀은 팀워크가 장난 아니었던 것 같습니다 😁)

 

매 주 진행했던 대면/비대면 회의와 매일 진행하는 피드백을 통해

저희 5팀(HI:FIVE)이 모두 성장할 수 있는 계기가 된 것 같아 뿌-듯 합니다 ㅎㅎㅎㅎ


사실 끝이 난 줄 알았지만 앞으로는 팀 영상 프로젝트가 준비되어있습니다!!

팀 영상 프로젝트에는 브라이틱스의 소개와 더불어

저희가 진행했던 분석 프로젝트에 대한 설명을 담았으니

기대해주세요!!

( 앞으로 더 자주 만날 팀원들 파이팅! )

 

대면 회의 짤~!

본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.